Обработка большого количества данных в Гугл Таблицах может стать целым испытанием: медленная работа и подвисание здесь неизбежны. Однако выход есть. BigQuery поможет быстро обработать информацию из таблиц, с которой дальше будет легко работать в Google Data Studio. Мы сделали перевод подробной инструкции, как использовать эту связку инструментов, и снабдили ее большим количеством скриншотов. Так что, разобраться с этой задачей не составит труда.
Согласно Google Cloud, «BigQuery – это безсерверное, высокомасштабируемое и экономичное хранилище облачных данных со встроенным компонентом BI Engine и машинным обучением».
В этой статье мы покажем, как BigQuery может помочь обрабатывать большие объемы данных, находящиеся в Гугл Таблицах, которые Google Data Studio не сможет обрабатывать, будучи подключенной непосредственно к таблице.
Узнайте больше про сквозную и предиктивную аналитику. Посмотрите выпуск с руководителем отдела аналитики MediaNation Александром Вахтиным и аналитиком больших данных Романом Святовым:
Ниже приведен пример данных. В нем показаны данные о продажах гипотетического бизнеса в Южной Африке, продающего различные продукты питания.
Вот, как будет выглядеть отчет Data Studio. Мы видим, что фильтрация данных и работа с ними происходит очень быстро, несмотря на большое количество строк (более 20 000) в источнике данных.
В нашей Гугл Таблице есть следующие данные:
Здесь более двадцати тысяч строк, что делает работу с данными мучительно медленной, если мы будем делать ее прямо в Гугл Таблицах.
Чтобы получить отчет в Data Studio, который можно быстро фильтровать и с которым будет комфортно работать, нам нужно поместить эти данные в BigQuery.
Ниже приведены данные в виде электронной таблицы Excel, если вы хотите повторить этот отчет.
Пример данных для загрузки BigQuery (2019-11-05)
Загрузив этот файл, вы можете добавить его в Google Таблицу и потренироваться, повторив шаги, которые мы будем делать в этой инструкции.
Ссылки ниже помогут вам начать работу.
Теперь можно приступать.
Первое, что нужно сделать, – это создать проект в рамках BigQuery.
После создания проекта можно перейти к созданию набора данных.
В новом проекте BigQuery будет отображать сообщение «Запросов нет. Создайте запрос».
Для этого нужно нажать на кнопку «Создать набор данных».
Даем ему название. В примере это будет «Sales_data_example». У вас также есть возможность выбрать, где данные будут расположены. Можно выбрать «По умолчанию».
После того, как вы назвали свой набор данных и внесли какие-либо корректировки (окончание срока хранения таблицы, шифрование), нажмите на кнопку внизу, чтобы создать набор данных.
Теперь мы видим в нашем тестовом проекте, что у нас есть набор данных «Sales_data_example». Следующим шагом является создание таблицы в этом наборе данных.
Нажав на название проекта, в правом верхнем углу вы увидите кнопку «Создать таблицу». Нажмите на нее, чтобы начать работу.
Нажмите на кнопку «Создать таблицу».
Ниже показано, что вы увидите после того, как ее нажали. Теперь нужно заполнить поля.
Первым делом нужно выбрать, откуда мы будем получать данные. Как упоминалось ранее, у нас есть большая Гугл Таблица, содержащая более двадцати тысяч строк данных. Мы хотим подключиться к этому листу.
Поэтому создаем таблицу на основе «Диска», как показано ниже.
*Если вы тренируетесь с примером данных, ссылка на который была дана в начале статьи, то перенесите эту таблицу Excel в таблицу на Гугл Диск.
Нам нужна ссылка на конкретный документ в Гугл Таблицах. Чтобы получить ее, откройте Google Диск, найдите таблицу и нажмите «Копировать ссылку общего доступа».
Далее мы увидим, что доступ по ссылке включен.
Вы также должны назвать свою таблицу. В примере назовем ее «Sales_data_sheets».
Далее нужно поработать со схемой таблицы. Сделать это можно, нажав на кнопку «Добавить поле». Основываясь на столбцах в Google Таблице, мы разметим схему следующим образом:После того, как мы разметили схему, мы можем щелкнуть «Создать таблицу», чтобы создать ее в нашем наборе данных.
Итак, ниже мы видим в нашем проекте набор данных и вновь созданную таблицу.
В настройках таблицы (если щелкнуть на ее название) мы видим, что схема соответствует той, что мы добавили при создании.
Следующим шагом будет отправка запросов.
Нажмите кнопку «Отправить запрос к таблице», чтобы начать процесс.
Мы получаем SQL-запрос. Скорее всего, потребуется добавить звездочку *, чтобы запрос читался.
SELECT * FROM ‘project_name.dataset_name.table_name’ LIMIT.
SELECT * означает выбрать все из таблицы.
Следующий шаг – нажать «Выполнить» под запросом. Обработка данных займет около минуты.
Ниже – конечный результат завершенного запроса в разделе «Результаты запроса». Мы видим, что наши метки схемы точно отражают содержимое столбцов. Также мы видим, что у нас есть 21825 строк в наших результатах запроса.
Следующим шагом является сохранение результатов. Есть различные варианты сохранения файла, но нам необходимо сделать это в виде таблицы BigQuery.
В качестве названия в этом примере пишем «BigQuery_Sales_data».
Таким образом, в нашем проекте мы имеем наш набор данных Sales_data_example, Sales_data_sheets (который связан с Гугл Таблицей) и BigQuery_Sales_data (который основан на результатах запросов к таблице).
Мы хотим связать наш отчет в Google Data Studio с нашей таблицей результатов запросов, а не с таблицей на основе Google Таблиц.
Нам нужно подключиться к результатам запроса, чтобы получить скорость, необходимую для анализа этого объема данных. Таким образом, в этом примере мы хотим подключить Data Studio к BigQuery_Sales_data, а НЕ Sales_data_sheets.
Создайте новый отчет в Data Studio и выберите BigQuery в качестве коннектора.
Находим правильную таблицу. В данном случае это «BigQuery_Sales_data». Нажимаем кнопку «Связать».
Затем мы можем увидеть поля в нашей таблице. Data Studio правильно догадалась, какой тип данных они представляют (город, число и т.д.). Также добавлена метрика количества записей (Record Count).
Теперь мы можем добавить наши данные BigQuery в отчет и начать работать с ними. Для этого нажмите кнопку «Добавить к отчету».
Теперь у нас есть данные в нашем отчете. Мы можем их фильтровать и работать с ними с более высокой скоростью, чем это было бы возможно при использовании Google Таблиц.
Несмотря на то, что у нас более двадцати тысяч строк, это небольшой набор данных по сравнению с тем, что возможно анализировать с помощью Big Query!
Источник: «How to analyse sales data using Google BigQuery and Data Studio» by Michael Howe-Ely