Прием данных в databricks lakehouse

Статья
03/01/2024

Azure Databricks предлагает различные способы приема данных в lakehouse с помощью Delta Lake. Databricks рекомендует использовать автозагрузчик для добавочного приема данных из облачного хранилища объектов. Пользовательский интерфейс добавления данных предоставляет ряд вариантов быстрого отправки локальных файлов или подключения к внешним источникам данных.

Запуск первой рабочей нагрузки ETL

Если вы не использовали автозагрузчик в Azure Databricks, начните с руководства. См. статью о выполнении первой рабочей нагрузки извлечения, преобразования и загрузки в Azure Databricks.

Автозагрузчик

Автозагрузчик инкрементно и эффективно обрабатывает новые файлы данных по мере их поступления в облачное хранилище без дополнительной настройки. Автозагрузчик предоставляет источник структурированной потоковой передачи с именем cloudFiles. При наличии пути к входному каталогу в облачном хранилище файлов источник cloudFiles автоматически обрабатывает новые файлы по мере их поступления, при этом также обрабатывает существующие файлы в этом каталоге.

Автоматизация ETL с помощью разностных динамических таблиц и автозагрузчика

Вы можете упростить развертывание масштабируемой, добавочной инфраструктуры приема с помощью автозагрузчика и разностных динамических таблиц. Обратите внимание, что Разностные динамические таблицы не используют стандартное интерактивное выполнение, найденное в записных книжках, вместо этого подчеркивая развертывание инфраструктуры, готовой к рабочей среде.

Отправка локальных файлов данных или подключение внешних источников данных

Вы можете безопасно отправлять локальные файлы данных или получать данные из внешних источников для создания таблиц. См. раздел "Загрузка данных" с помощью пользовательского интерфейса добавления данных.

Прием данных в Azure Databricks с помощью сторонних средств

Azure Databricks проверяет интеграцию технологических партнеров, которые позволяют получать данные в Azure Databricks. Эти интеграции обеспечивают масштабируемый прием данных из различных источников в Azure Databricks с минимальным написанием кода. См . статью "Партнеры по технологиям". Некоторые партнеры по технологиям представлены в Подключение партнера Databricks, который предоставляет пользовательский интерфейс, упрощающий подключение сторонних средств к данным lakehouse.

COPY INTO;

COPY INTO позволяет пользователям SQL идемпотентно и постепенно прием данных из облачного хранилища объектов в таблицы Delta. Ее можно использовать в Databricks SQL, записных книжках и заданиях Databricks.

Сценарии использования COPY INTO и Автозагрузчика

Ниже приведены некоторые аспекты, которые следует учитывать при выборе между автозагрузчиком и COPY INTO:

Если вы собираетесь принимать файлы в количестве нескольких тысяч, вы можете использовать COPY INTO. Если предполагается, что файлы со временем будут исчисляться миллионами или более, используйте Автозагрузчик. Автозагрузчик требует меньше общих операций для обнаружения файлов по сравнению с COPY INTO и может разделить обработку на несколько пакетов, что означает, что автозагрузчик является менее дорогостоящим и более эффективным в масштабе.
Если схема данных будет часто развиваться, Автозагрузчик предоставит лучшие примитивы для вывода и развития схемы. Дополнительные сведения см. в статье Настройка развития и вывода схемы в автозагрузчике.
Загрузка подмножества повторно отправленных файлов может быть немного проще управлять с COPY INTOпомощью. При использовании Автозагрузчика повторная обработка выбранного подмножества файлов усложняется. Однако можно использовать COPY INTO для перезагрузки подмножества файлов во время одновременного запуска потока автозагрузчика.
Для более масштабируемого и надежного приема файлов автозагрузчик позволяет пользователям SQL использовать потоковые таблицы. См. сведения о загрузке данных с помощью потоковых таблиц в Databricks SQL.

Краткий обзор и демонстрация автозагрузчика, а также COPY INTOпросмотрите следующее видео YouTube (2 минуты).

Просмотр метаданных файла, записанных во время приема данных

Apache Spark автоматически записывает данные об исходных файлах во время загрузки данных. Azure Databricks позволяет получить доступ к этим данным с помощью столбца метаданных файла.

Отправка экспорта электронной таблицы в Azure Databricks

Используйте таблицу "Создание или изменение таблицы из страницы отправки файлов" для отправки CSV-файлов, TSV или JSON-файлов. См. статью "Создание или изменение таблицы с помощью отправки файлов".

Перенос приложений данных в Azure Databricks

Перенос существующих приложений данных в Azure Databricks, чтобы работать с данными из многих исходных систем на одной платформе. См. статью "Миграция приложений данных в Azure Databricks".