Массовое копирование из базы данных в Azure Data Explorer с помощью шаблона Фабрики данных Azure

Azure Data Explorer — это быстрая, полностью управляемая служба анализа данных. Он предлагает анализ в реальном времени больших объемов данных, которые поступают из многих источников, таких как приложения, веб-сайты и устройства Интернета вещей.

Чтобы скопировать данные из базы данных в Oracle Server, Netezza, Teradata или из SQL Server в Azure Data Explorer, необходимо загрузить огромный объем данных из нескольких таблиц. Обычно данные должны быть разделены в каждой таблице, чтобы можно было загружать строки из одной таблицы с использованием нескольких параллельных потоков. В этой статье описывается шаблон для этих сценариев.

Шаблоны Фабрики данных Azure — это предопределенные конвейеры фабрики данных. Эти шаблоны позволяют быстро начать работу с фабрикой данных и сократить время разработки проектов интеграции данных.

Шаблон Массовое копирование из базы данных в Azure Data Explorer создается с помощью действий поиска и ForEach. Для более быстрого копирования данных можно использовать шаблон для создания множества конвейеров для каждой базы данных или для каждой таблицы.

Важно!

Обязательно используйте инструмент, соответствующий объему копируемых данных.

  • Используйте шаблон Массовое копирование из базы данных в Azure Data Explorer, чтобы скопировать большие объемы данных из баз данных, таких как SQL Server и Google BigQuery, в Azure Data Explorer.
  • Используйте инструмент Копирование данных из фабрики данных, чтобы скопировать несколько таблиц с небольшим или умеренным объемом данных в Azure Data Explorer.

Предварительные требования

Создание ControlTableDataset

ControlTableDataset указывает, какие данные будут копироваться из источника в место назначения в конвейере. Количество строк определяет общее количество конвейеров, необходимых для копирования данных. Необходимо определить ControlTableDataset как часть исходной базы данных.

Пример формата исходной таблицы SQL Server показан в следующем коде.

CREATE TABLE control_table (
PartitionId int,
SourceQuery varchar(255),
ADXTableName varchar(255)
);

Элементы кода описаны в следующей таблице.

Свойство Описание Пример
PartitionId Порядок копирования 1
SourceQuery Запрос, указывающий, какие данные будут копироваться во время выполнения конвейера.
select * from table where lastmodifiedtime LastModifytime >= ''2015-01-01 00:00:00''>
ADXTableName Имя целевой таблицы MyAdxTable

Если ваш ControlTableDataset имеет другой формат, создайте сопоставимый ControlTableDataset для вашего формата.

Использование шаблона "Массовое копирование из базы данных в Azure Data Explorer"

  1. На панели Начало работы выберите Создать конвейер из шаблона, чтобы открыть панель Галерея шаблонов.

    Панель

  2. Выберите шаблон Массовое копирование из базы данных в Azure Data Explorer.

    Шаблон

  3. На панели Массовое копирование из базы данных в Azure Data Explorer в разделе Пользовательские входные данные укажите свои наборы данных, выполнив следующие действия.

    a. В раскрывающемся списке ControlTableDataset выберите связанную службу для таблицы управления, которая указывает, какие данные копируются из источника в место назначения и где будет расположено место назначения.

    b. В раскрывающемся списке SourceDataset выберите связанную службу для исходной базы данных.

    c. В раскрывающемся списке AzureDataExplorerTable выберите таблицу Azure Data Explorer. Если набора данных не существует, создайте связанную службу Azure Data Explorer, чтобы добавить набор данных.

    d. Щелкните Использовать этот шаблон.

    Панель

  4. Выберите область на холсте за пределами действий, чтобы получить доступ к конвейеру шаблона. Выберите вкладку Параметры, чтобы указать параметры для таблицы, включая Имя (имя таблицы управления) и Значение по умолчанию (имена столбцов).

    Параметры конвейера.

  5. В разделе Поиск выберите GetPartitionList, чтобы просмотреть параметры по умолчанию. Запрос создается автоматически.

  6. Выберите действие команды ForEachPartition, перейдите на вкладку Параметры и выполните следующие действия.

    a. В поле Число пакетов введите число от 1 до 50. Этот выбор определяет количество конвейеров, которые работают параллельно, пока не будет достигнуто количество строк ControlTableDataset.

    b. Чтобы обеспечить параллельную работу пакетов конвейера, не устанавливайте флажок Последовательно.

    Параметры ForEachPartition.

    Совет

    Рекомендуется запускать несколько конвейеров параллельно, чтобы копирование ваших данных выполнялось быстрее. Чтобы повысить эффективность, разделите данные в исходной таблице и выделите одну секцию для каждого конвейера в соответствии с датой и таблицей.

  7. Выберите Проверить все, чтобы проверить конвейер Фабрики данных Azure, а затем просмотрите результат на панели Выходные данные проверки конвейера.

    Проверка конвейеров шаблонов.

  8. При необходимости выберите параметр Отладка, а затем щелкните Добавить триггер для запуска конвейера.

    Кнопки

Теперь можно использовать шаблон для эффективного копирования больших объемов данных из баз данных и таблиц.