В современном мире, где данные играют ключевую роль в принятии стратегических решений, автоматизация выгрузки информации из различных источников становится неотъемлемой частью работы многих организаций. Рассмотрим важную задачу автоматизации процесса передачи данных из Google Sheets в базы данных для обеспечения более эффективного анализа и оптимизации информации. В данной статье мы рассмотрим основные принципы и инструменты автоматизации выгрузки данных из Google Sheets в базы данных при помощи сервиса StreamMyData.
Наш продукт позволяет выгружать данные из Google Sheets в нужную Вам СУБД. Для этого нужно:
1. Регистрация/авторизация в сервисе StreamMyData
Первым шагом необходимо зарегистрироваться на веб-платформе https://app.streammydata.ru/ или войти в уже существующий аккаунт, используя учетные данные. Регистрация обычно включает в себя заполнение формы с основной информацией пользователя, создание пароля и подтверждение по электронной почте.
2. Настройка источника данных Google Sheets
После входа в аккаунт перейдите в раздел «Источники» в левом side-баре и выберите «Добавить источник». Введите наименование создаваемого источника, укажите Google Sheets как источник данных и выберите соответствующий Google аккаунт, либо пройдите OAuth авторизацию. Можете добавить описание источника, если требуется. Не забудьте протестировать соединение, нажав на кнопку «Тест соединения», чтобы убедиться, что все настроено правильно. После настройки источника нажмите «Добавить источник», чтобы сохранить изменения.
3. Настройка получателя в СУБД
После успешной настройки источника данных переходим к созданию получателя. В разделе «Получатели» выбираем опцию «Добавить получателя». Затем открывается окно настройки получателя, где мы определяем СУБД для хранения данных: Google BigQuery, Yandex ClickHouse или PostgreSQL. В данной статье мы изучим процесс настройки потока в Google BigQuery. Выбираем нужный Google аккаунт или проходим OAuth авторизацию и проводим тест соединения.
Важно
4. Настройка потока и выбор нужной выгрузки
Переходим в раздел «Потоки» и выбираем «Добавить поток». В появившемся окне указываем название потока и, по желанию, его описание. Далее переходим к настройке источника данных, кликая на «Выбрать» в блоке «Источник данных». После выбор источника необходимо перейти в «Настройка источника».
Откроется окно в котором необходимо указать:
- Ссылку на нужный Google Sheets из которого требуется настроить стриминг данных (требуется указать полный URL).
- Лист в котором находится нужная таблица
- Частоту обновления данных. На данный момент доступен вариант «Раз в сутки»
В качестве примера возьмем таблицу из Google Sheets со статистикой по месяцам. После указания нужных настроек необходимо нажать «Сохранить».
- Подключенный аккаунт Google Sheets должен иметь доступ к конкретной таблице.
- Убедитесь, что первая строка — это строка с заголовками столбцов. В случае, если столбец будет содержать числовое значение — возникнет ошибка при выгрузке данных.
- Не используйте в своей таблице повторяющиеся заголовки .
- Не ставьте знаки препинания в название вашего листа.
- В вашей таблице не должно быть пустых строк/столбцов, между строками/столбцами, которые содержат данные.
- В случае если заголовки столбцов будут написаны на русском языке, то их наименования будут преобразованы в транслит.
Переходим к настройке получателя. В предложенных получателях выбираем тот, который настроили в п.3 и переходим в «Настройка получателя».
Далее необходимо выбрать нужный проект, датасет и таблицу. Название таблицы в BigQuery можно изменить. После выбора всех полей необходимо нажать «Сохранить».
Финальным шагом является запуск потока, либо его сохранение. Для запуска потока необходимо нажать «Сохранить и запустить поток». Для сохранения потока без его запуска необходимо нажать «Сохранить поток».
В итоге получаем таблицу в BigQuery со всеми данными из Google Sheets.
На этом процесс создания потока из Google Sheets в выбранную СУБД завершается. Данные будут выгружаться автоматически на ежедневной основе в выбранную Вами таблицу.