Question 1

Что такое Фабрика данных Azure?

Accepted Answer

Фабрика данных — это полностью управляемая облачная служба извлечения, преобразования, загрузки и интеграции данных, которая автоматизирует перемещение и преобразование данных. Как на фабрике сырье превращается в готовую продукцию с помощью оборудования, так и в фабриках данных Azure необработанные данные собираются и преобразовываются в готовые к использованию сведения с помощью специальных служб.

Фабрика данных Azure позволяет создавать управляемые данными рабочие процессы для перемещения данных между локальными и облачными хранилищами данных. Эти данные можно обрабатывать и преобразовывать, используя средство под названием "Поток данных". ADF поддерживает также внешние вычислительные подсистемы для выполнения запрограммированных вручную преобразований с помощью служб вычислений, таких как Azure HDInsight, Azure Databricks и среды выполнения интеграции SQL Server Integration Services (SSIS).

С помощью фабрики данных вы можете выполнить обработку данных, используя облачную службу на основе Azure или собственную вычислительную среду с локальным размещением, например SSIS, SQL Server или Oracle. Для созданного конвейера, который выполняет необходимое действие, можно запланировать периодический запуск (например, ежечасно, ежедневно или еженедельно), запуск по временному окну или по некоторому событию. Дополнительную информацию см. в статье Общие сведения о службе фабрики данных Azure, службе интеграции данных в облаке.

Question 2

Рекомендации по соответствию требованиям и безопасности

Accepted Answer

Фабрика данных Azure сертифицирована по ряду стандартов соответствия, включая SOC 1, 2, 3, HIPAA BAAи HITRUST. Полный список сертификатов, который постоянно пополняется, можно найти здесь. Цифровые копии отчетов об аудите и сертификатов соответствия можно найти в центре управления безопасностью служб.

Потоки управления и масштабирование

Чтобы обеспечить поддержку разнообразных потоков и шаблонов интеграции в современных хранилищах данных, Фабрика данных реализует новую гибкую модель конвейеров данных. Это предполагает парадигму полноценного программирования потока управления, в том числе условное выполнение, ветвление в конвейерах данных и возможность явно передавать параметры внутри потоков и между ними. В потоке управления можно также преобразовывать данные путем отправки действий во внешние подсистемы выполнения и организовывать потоки данных, включая перемещение данных в большом масштабе, с применением действия Copy.

Фабрика данных позволяет создать любой поток для своего сценария интеграции данных и запускать его по запросу или постоянно по расписанию. Ниже приведены несколько общих потоков, которые эта модель поддерживает.

Потоки управления:
- В конвейере можно создать цепочку из последовательно выполняемых действий.
- Действия в конвейере могут разветвляться.
- Параметры:
  - Параметры можно определять на уровне конвейера, а аргументы передавать при вызове конвейера по запросу или из триггера.
  - Действия могут использовать аргументы, передаваемые в конвейер.
- Передача пользовательского состояния:
  - Выходные данные действия, в том числе состояние, можно использовать в следующем действии конвейера.
- Контейнеры циклов:
  - Действие forEach перебирает в цикле указанную коллекцию действий.
Потоки на основе триггеров:
- Конвейеры можно активировать по запросу, по времени или в ответ на разделы сетки событий
Разностные потоки:
- С помощью параметров можно определять уровень пиковой активности для разностного копирования при перемещении таблиц измерений или справочных таблиц из локального или облачного реляционного хранилища в озеро данных.

Дополнительные сведения см. в статье Ветвления и создание цепочки действий в конвейере фабрики данных.

Конвейеры без кода как средство преобразования данных в большом масштабе

Новый браузерный инструментарий позволяет писать и развертывать конвейеры без кода с помощью современного интерактивного веб-интерфейса.

Пользовательский веб-интерфейс Фабрики данных представляет собой среду проектирования без написания кода, которую разработчики, занимающиеся визуализацией данных, и специалисты по обработке и анализу данных могут использовать для создания конвейеров. Он полностью интегрирован с Visual Studio Codespace Git и обеспечивает интеграцию для CI/CD и итеративной разработки с параметрами отладки.

Расширенный кроссплатформенный пакет SDK для опытных пользователей

В Фабрике данных версии 2 доступен широкий ассортимент пакетов SDK, которые можно использовать для создания, администрирования и мониторинга конвейеров средствами предпочитаемой IDE, в том числе следующими.

Пакет SDK для Python
PowerShell CLI
Пакет SDK для C#

Пользователи пакета SDK для C# могут также использовать задокументированные REST API для обмена данными с Фабрикой данных версии 2.

Итеративная разработка и отладка с использованием визуальных средств

Визуальные инструменты фабрики данных Azure позволяют выполнять последовательную разработку и отладку. Вы можете создавать конвейеры и выполнять тестовые запуски с помощью функции Отладка на холсте конвейера, не написав ни строки кода. Просмотреть результаты тестовых запусков можно в окне Выходные данные на холсте конвейера. После успешных тестовых запусков можно добавить дополнительные действия в конвейер и продолжать отладку итеративным методом. Выполняемые тестовые запуски можно также отменить.

Перед выбором функции Отладка необязательно публиковать изменения в службе фабрики данных. Это помогает в сценариях, когда перед обновлением рабочих процессов фабрики данных в среде разработки, тестирования и рабочей среде необходимо убедиться, что добавленные элементы и изменения работают так, как ожидалось.

Развертывание пакетов SSIS в Azure

Если вы хотите перемещать рабочие нагрузки служб SSIS, то создайте фабрику данных и подготовьте среду выполнения интеграции Azure SSIS. Среда выполнения интеграции Azure SSIS — это полностью управляемый кластер виртуальных машин (узлов) Azure, выделенный для выполнения пакетов служб SSIS в облаке. Пошаговые инструкции см. в руководстве Развертывание пакетов служб интеграции SQL Server (SSIS) в Azure.

Пакеты SDK

Если вам, как опытному пользователю, нужен программный интерфейс, вам понравится широкий выбор пакетов SDK в Фабрике данных Azure, которые позволяют создавать конвейеры, управлять ими или отслеживать их из любой удобной интегрированной среды разработки. Поддерживаются такие языки, как .NET, Python, PowerShell и REST.

Наблюдение

Фабрики данных можно отслеживать с помощью PowerShell, пакета SDK и визуальных средств наблюдения в браузерном пользовательском интерфейсе. Вы можете отслеживать пользовательские потоки, запускаемые по требованию, на основе триггера и по времени, и управлять ими эффективно и без лишних затрат. Вы также можете отменять существующие задачи, просматривать общие сведения о сбоях, детализировать сбои для получения подробных сообщений об ошибках и выполнять отладку неполадок на одной панели, без переключения контекста или перехода между экранами.

Новые возможности служб SSIS в Фабрике данных

С момента первоначального выпуска общедоступной предварительной версии в 2017 году в Фабрике данных были добавлены следующие возможности и компоненты для служб SSIS.

Поддержка трех дополнительных конфигураций и вариантов Базы данных SQL Azure для размещения базы данных проектов и пакетов SSIS (SSISDB)
База данных SQL с конечными точками службы для виртуальной сети
Управляемый экземпляр SQL
Эластичный пул
Поддержка виртуальной сети Azure Resource Manager поверх классической виртуальной сети (которая будет считаться устаревшей), что позволяет внедрить или присоединить среду выполнения интеграции Azure SSIS к виртуальной сети, настроенной для Базы данных SQL, с доступом к конечным точкам службы для виртуальной сети, Управляемому экземпляру и локальным данным. Дополнительные сведения см. также в статье Присоединение среды выполнения интеграции Azure SSIS к виртуальной сети
Поддержка проверки подлинности Microsoft Entra и проверки подлинности SQL для подключения к SSISDB, что позволяет аутентификации Microsoft Entra с помощью управляемого удостоверения Фабрики данных для ресурсов Azure
Поддержка использования существующей лицензии на SQL Server для существенной экономии благодаря программе "Преимущество гибридного использования Azure"
Поддержка выпуска Enterprise среды выполнения интеграции Azure SSIS, что позволяет использовать расширенные и премиум-возможности, интерфейс выборочной установки для дополнительных компонентов или расширений и экосистему партнеров. Дополнительные сведения см. в статье Выпуск Enterprise, выборочная установка и сторонние расширения для служб SSIS в ADF
Более глубокая интеграция служб SSIS в Фабрику данных, что позволяет вызывать и инициировать действия выполнения пакетов служб SSIS первого класса в конвейерах Фабрики данных и планировать их в SSMS. Дополнительные сведения см. в статье Модернизация и расширение рабочих процессов ETL/ELT с помощью операций MSSQL Integration Services в конвейерах ADF

Question 3

Что такое среда выполнения интеграции?

Accepted Answer

Среда выполнения интеграции — это вычислительная инфраструктура, с помощью которой Фабрика данных Azure обеспечивает перечисленные ниже возможности интеграции данных в разных сетевых средах.

Перемещение данных. Среда выполнения интеграции перемещает данные между исходными и конечными хранилищами данных, обеспечивая при этом поддержку встроенных соединителей, преобразования формата, сопоставления столбцов, а также производительной и масштабируемой передачи данных.
Поток данных: для создания потока данных запустите Поток данных в управляемой вычислительной среде Azure.
Диспетчеризация действий. Для преобразования данных среда выполнения интеграции предоставляет возможность выполнять пакеты SSIS в собственном коде.
Выполнение пакетов SSIS. Среда выполнения интеграции выполняет пакеты SSIS в собственном коде в управляемой среде вычислений Azure. Среда выполнения интеграции также поддерживает отправку и отслеживание действий по преобразованию, выполняющихся в различных службах вычисления, таких как Azure HDInsight, Машинное обучение Azure, База данных SQL и SQL Server.

Вы можете развертывать один экземпляр среды выполнения интеграции или несколько по необходимости, чтобы переместить или преобразовать данные. Среда выполнения интеграции может работать в общедоступной сети Azure или в частной сети (локальной сети, виртуальной сети Azure или виртуальном частном облаке Amazon Web Services [VPC]). В фабрике данных действия определяют выполняемые операции. Связанная служба обозначает целевое хранилище данных или службу вычислений. Среда выполнения интеграции соединяет между собой действия и связанные службы. На нее ссылаются связанные с ней службы или действия, а кроме того она предоставляет вычислительную среду, в которой действие выполняется или из которой оно диспетчеризируется. Такая схема позволяет выполнять действия в регионе, который максимально близко расположен к целевому хранилищу данных или службе вычислений, обеспечивает высокую производительность и соблюдение требований по безопасности и соответствию.

Среды выполнения интеграции можно создать в Фабрике данных Azure через центр управления и с помощью любых действий, наборов данных или потоков данных, которые на них ссылаются. Дополнительные сведения см. в статье Среда выполнения интеграции в фабрике данных Azure.

Question 4

Что такое ограничение количества сред выполнения интеграции?

Accepted Answer

В фабрике данных нет жестких ограничений на количество экземпляров среды выполнения интеграции. Однако есть ограничение на число ядер виртуальной машины, которые среда выполнения интеграции может использовать для каждой подписки при выполнении пакетов служб SSIS. Дополнительные сведения см. в разделе Ограничения фабрики данных.

Question 5

Какие основные концепции в фабрике данных Azure?

Accepted Answer

В подписке Azure может быть один или несколько экземпляров фабрики данных Azure. Фабрика данных Azure содержит четыре ключевых компонента. Они образуют платформу, на которой можно создавать управляемые данными рабочие процессы, предусматривающие перемещение и преобразование данных.

Конвейеры

Фабрика данных может иметь один или несколько конвейеров. Конвейер — это логическая группа действий, которые выполняют определенный блок задач. Действия в конвейере совместно выполняют задачу. Например, конвейер может включать группу действий, которые принимают данные из большого двоичного объекта Azure и выполняют запрос Hive в кластере HDInsight для секционирования данных. Преимуществом является то, что конвейер позволяет управлять группами действий, а не каждым отдельным действием. Вы можете связать вместе действия в конвейере, чтобы выполнять их последовательно, или выполнять их параллельно и независимо друг от друга.

Потоки данных

Потоки данных — это объекты, создаваемые визуально в Фабрике данных, которые преобразуют данные в большом масштабе в серверных службах Spark. Разбираться в программировании или внутренних компонентах Spark не требуется: Просто спроектируйте свое намерение преобразования данных с помощью графиков (сопоставление) или электронных таблиц (активность запросов Power).

Процедуры

Действия представляют отдельные этапы обработки в конвейере. Например, с помощью действия Copy можно скопировать данные из одного хранилища данных в другое. Точно так же можно использовать действие Hive, которое выполняет запрос Hive к кластеру Azure HDInsight для преобразования или анализа данных. Фабрика данных поддерживает три типа действий: действия перемещения данных, действия преобразования данных и действия управления.

Наборы данных

Наборы данных представляют структуры данных в хранилищах. Эти структуры указывают данные, необходимые для использования в действиях, разделяя их на входные и выходные.

Связанные службы

Связанные службы напоминают строки подключения, определяющие сведения о подключении, необходимые для подключения фабрики данных к внешним ресурсам. Таким образом, набор данных представляет структуру данных, а связанная служба определяет подключение к источнику данных. Например, связанная служба хранилища Azure определяет строку подключения для подключения к учетной записи хранения Azure. А набор данных больших двоичных объектов Azure определяет контейнер больших двоичных объектов и папку, которая содержит данные.

Связанные службы используются в фабрике данных для двух целей:

Для представления хранилища данных, включая, помимо прочего, экземпляр SQL Server, экземпляр базы данных Oracle, общую папку и учетную запись хранилища BLOB-объектов Azure. Список поддерживаемых хранилищ данных см. в статье Действие копирования в фабрике данных Azure.
Для представления вычислительного ресурса, в котором можно выполнить действие. Например, действие HDInsightHive выполняется в кластере Hadoop в HDInsight. Список поддерживаемых действий преобразования и вычислительных сред см. в статье Преобразование данных в фабрике данных Azure.

Триггеры

Триггеры обозначают единицу обработки, которая определяет время запуска для выполнения конвейера. Существует несколько типов триггеров для разных событий.

Запуски конвейера

Запуск конвейера — это экземпляр выполнения конвейера. Запуск конвейера обычно выполняется путем передачи аргументов для параметров, определенных в конвейере. Вы можете передать аргументы вручную или в определении триггера.

Параметры

Параметры представляют собой пары "ключ — значение" в конфигурации только для чтения. Вы определяете параметры в конвейере и передаете для них аргументы во время выполнения из контекста запуска. Контекст запуска создается триггером или из конвейера, который выполняется вручную. Действия в конвейере используют значения параметров.

Набор данных — это строго типизированный параметр и сущность, на которую можно ссылаться и которую можно использовать повторно. Действие может ссылаться на наборы данных и использовать параметры, заданные в определении набора данных.

Связанная служба также является строго типизированным параметром, который содержит сведения о подключении к хранилищу данных или среде вычислений. Это также сущность, доступная для ссылки или повторного использования.

Потоки управления

Потоки управления выполняют оркестрацию действий в конвейере, которая включает цепочки действий в последовательности, ветвление и параметры, определяемые на уровне конвейера, а также аргументы, которые передаются во время вызова конвейера по запросу или из триггера. Сюда также входит передача пользовательского состояния и контейнеры циклов (то есть итераторы forEach).

Дополнительные сведения о понятиях фабрики данных см. в следующих статьях:

Question 6

Какая модель ценообразования применяется для фабрики данных?

Accepted Answer

Подробные сведения о ценах на фабрику данных Azure см. на этой странице.

Question 7

Как оставаться в курсе последних новостей о фабрике данных?

Accepted Answer

Чтобы узнавать о последних новостях о фабрике данных Azure, используйте следующие сайты:

Question 8

Техническое глубокое погружение

Accepted Answer

Как запланировать конвейер?

Для планирования конвейера можно использовать триггер планировщика или триггер по временному окну. Триггер использует календарное расписание с указанием времени, которое позволяет планировать конвейеры, выполняемые периодически или по повторяющимся шаблонам на основе календаря (например, еженедельно по понедельникам в 18:00 и по четвергам в 21:00). Дополнительные сведения см. в статье Выполнение конвейера и триггеры в фабрике данных Azure.

Можно ли передать параметры в выполнение конвейера?

Да, параметры являются одной из главных концепций в Фабрике данных. Вы можете определить параметры на уровне конвейера и передать аргументы при выполнении конвейера, запускаемого по требованию или с помощью триггера.

Можно ли определить значения по умолчанию для параметров конвейера?

Да. Вы можете определить значения по умолчанию для параметров в конвейерах.

Может ли действие в конвейере использовать аргументы, передаваемые в конвейер?

Да. Каждое действие в рамках конвейера может использовать значение параметра, переданное в конвейер и запущенное с помощью конструкции @parameter.

Может ли свойство из выходных данных действия использоваться в другом действии?

Да. Выходные данные действия могут использоваться в последующем действии. Для этого применяется конструкция @activity.

Как корректно обрабатывать значения null в выходных данных действия?

Для корректной обработки значений null в выражениях можно использовать конструкцию @coalesce.

Сколько действий конвейера можно выполнять одновременно?

Допускается не более 50 одновременных действий конвейера. 51-е действие конвейера будет помещено в очередь до открытия свободного слота. Допускается не более 800 параллельных внешних действий, после чего они будут в очереди таким же образом.

Question 9

Сопоставление потоков данных

Accepted Answer

Мне нужна помощь в устранении неполадок с логикой потока данных. Какие сведения необходимо предоставить, чтобы получить помощь?

Если вам нужна помощь Майкрософт в решении проблем с потоками данных, предоставьте соответствующие файлы поддержки конвейера ADF. Этот ZIP-файл содержит сценарий кода программной части из вашего графика потока данных. В пользовательском интерфейсе ADF выберите ... рядом с конвейером и выберите "Скачать файлы поддержки".

Как получить доступ к данным с помощью остальных 90 типов наборов данных в Фабрике данных?

В настоящее время функция потока данных для сопоставления разрешает использовать в качестве источника и приемника Базу данных SQL Azure, Azure Synapse Analytics, текстовые файлы с разделителями из хранилища BLOB-объектов Azure или Azure Data Lake Storage 2-го поколения, а также файлы Parquet из хранилища BLOB-объектов или Data Lake Storage 2-го поколения.

Используйте действие Copy для промежуточного размещения данных из других соединителей, а затем выполните действие Потока данных для преобразования. Например, сначала конвейер скопирует данные в хранилище BLOB-объектов, а затем действие Потока данных преобразует эти данные с помощью набора данных из источника.

Доступна ли локальная среда выполнения интеграции для потоков данных?

Локальная среда IR — это конструкция конвейера ADF, которую можно использовать с действием копирования для получения или перемещения данных в локальные или виртуальные машины источников данных и приемников. Виртуальные машины, используемые для локальной среды IR, можно размещать в той же виртуальной сети, что и защищенные хранилища данных, для доступа к этим хранилищам из ADF. Используя потоки данных, вы сможете достичь тех же конечных результатов с помощью Azure IR с управляемой виртуальной сетью.

Может ли вычислительный модуль потока данных обслуживать несколько клиентов?

Кластеры никогда не используются совместно. Мы гарантируем изоляцию для каждого задания, выполняемого в рабочей среде. Для отладки один пользователь получает один кластер, и все операции отладки будут относиться к кластеру, инициированному этим пользователем.

Существует ли способ записи атрибутов в Cosmos DB в том же порядке, что и в приемнике в потоке данных ADF?

Для Cosmos DB базовый формат каждого документа — это объект JSON, который является неупорядоченным набором пар name/value, поэтому порядок не может быть зарезервирован.

Почему пользователю недоступен предварительный просмотр данных в потоках данных?

Необходимо проверить разрешения пользовательской роли. Предварительный просмотр данных в потоке данных предполагает выполнение нескольких действий. Сначала проверьте сетевой трафик во время отладки в браузере. Выполните все действия. Дополнительные сведения см. у поставщика ресурсов.

Можно ли в ADF вычислить значение нового столбца по существующему столбцу из сопоставления?

Вы можете использовать преобразование "Производный" в потоке данных сопоставления для создания нового столбца в нужной логике. При создании производного столбца можно либо сформировать новый столбец, либо изменить существующий. В текстовом поле Столбец введите столбец, который вы создаете. Чтобы переопределить в своей схеме существующий столбец, можно использовать раскрывающийся список столбцов. Чтобы создать выражение производного столбца, выберите текстовое поле "Ввод выражения". Начните вводить выражение, либо откройте построитель логических выражений.

Почему предварительный просмотр потока данных для сопоставления завершается сбоем из-за истечения времени ожидания шлюза?

Попробуйте использовать кластер большего размера и измените ограничения для строк в параметрах отладки на меньшее значение, чтобы уменьшить размер выходных данных отладки.

Как параметризовать имя столбца в потоке данных?

Имя столбца может быть параметризовано аналогично другим свойствам. Как и в производном столбце, клиент может использовать $ColumnNameParam = toString(byName($myColumnNameParamInData)). Эти параметры могут передаваться из выполняемого конвейера в Потоки данных.

Какие регионы поддерживаются для первичной обработки данных?

Фабрика данных доступна в следующих регионах. Функция Power Query доступна во всех регионах потока данных. Если она недоступна в вашем регионе, обратитесь в службу поддержки.

В чем разница между потоком данных сопоставления и действием Power Query (обработка данных)?

Поток данных для сопоставления позволяет преобразовывать данные в большом масштабе без какого-либо кодирования. Вы можете создать задание преобразования данных на холсте потока данных, создав серию преобразований. Начните с произвольным количеством исходных преобразований, за которыми следуют шаги преобразования данных. Завершите поток данных, задав приемник, который будет служить пунктом назначения для полученных результатов. Поток данных для сопоставления отлично подходит для того, чтобы сопоставлять и преобразовывать данные с известными и неизвестными схемами в приемниках и источниках.

Первичная обработка данных Power Query позволяет выполнять гибкую подготовку и исследование данных с помощью редактора гибридных приложений Power Query Online в любом масштабе посредством выполнения Spark. С распространением озер данных иногда требуется просто исследовать набор данных или создать набор данных в озере. При этом не выполняется сопоставление с известным целевым объектом.

Поддерживаемые типы данных SQL

Первичная обработка данных Power Query поддерживает следующие типы данных в SQL. При использовании неподдерживаемого типа данных возникнет ошибка проверки.

short
двойной точности
real
с плавающей запятой
char
nchar
varchar
nvarchar
integer
INT
bit
boolean
smallint
tinyint
bigint
длинный
text
Дата
datetime
datetime2
smalldatetime
TIMESTAMP
uniqueidentifier
xml

Часто задаваемые вопросы о Фабрике данных Azure