Интеграция данных с помощью Фабрики данных Azure и Azure Data Share

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

По мере того, как клиенты приступают к реализации своих современных проектов по созданию хранилищ данных и аналитики, им требуется не только больше данных, но и большая прозрачность по всему пространству данных. В этом семинаре подробно описано, как усовершенствования Фабрики данных Azure и Azure Data Share упрощают интеграцию данных и управление ими в Azure.

От включения бесплатного кода ETL/ELT до создания комплексного представления о данных, улучшения в Фабрика данных Azure позволяют инженерам по обработке и анализу данных уверенно получать больше данных и, следовательно, больше ценности в вашей организации. Azure Data Share позволяет выполнять бизнес-обмен бизнесом в управляемом режиме.

В этом семинаре вы будете использовать Фабрику данных Azure (ADF) для приема данных из службы "База данных SQL Azure" в Azure Data Lake Storage 2-го поколения (ADLS 2-го поколения). После загрузки данных в озеро вы преобразуете их с помощью потоков данных сопоставления, собственной службы преобразования фабрики данных, и перенесете их в Azure Synapse Analytics. Затем вы поделитесь таблицей с преобразованными данными и некоторыми дополнительными данными, используя Azure Data Share.

В этой тестовой службе используются данные такси Нью-Йорка. Чтобы импортировать их в базу данных в службе "База данных SQL", скачайте BACPAC-файл данных о такси. Выберите параметр "Скачать необработанный файл" в GitHub.

Необходимые компоненты

  • Подписка Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.

  • База данных SQL Azure. Если у вас нет База данных SQL Azure, узнайте, как создать База данных SQL.

  • Azure Data Lake Storage 2-го поколения учетной записи хранения. Если у вас нет учетной записи хранения ADLS 2-го поколения, узнайте, как создать учетную запись хранения ADLS 2-го поколения.

  • Azure Synapse Analytics. Если у вас нет рабочей области Azure Synapse Analytics, узнайте, как приступить к работе с Azure Synapse Analytics.

  • Фабрика данных Azure. Если вы не создали фабрику данных, узнайте, как создать фабрику данных.

  • Azure Data Share: если вы не создали общую папку данных, узнайте, как создать общую папку данных.

Настройка среды Фабрики данных Azure

В этом разделе описано, как получить доступ к Фабрика данных Azure пользовательскому интерфейсу (ADF) из портал Azure. После использования UX ADF вы настроите три связанные службы для каждого из хранилищ данных, которые мы используем: База данных SQL Azure, ADLS 2-го поколения и Azure Synapse Analytics.

В Фабрика данных Azure связанных службах определите сведения о подключении к внешним ресурсам. В настоящее время Фабрика данных Azure поддерживает более 85 соединителей.

Открытие пользовательского интерфейса Фабрики данных Azure

  1. Откройте портал Azure в Microsoft Edge или Google Chrome.

  2. В верхней части страницы в строке поиска найдите "Фабрики данных".

  3. Выберите ресурс фабрики данных, чтобы открыть его ресурсы на панели слева.

    Screenshot from the Azure portal of a data factories overview page.

  4. Выберите Открыть студию Фабрики данных Azure. Кроме того, к студии Фабрики данных можно получить доступ непосредственно на сайте adf.azure.com.

    Screenshot of the Azure Data Factory home page in the Azure portal.

  5. Вы перенаправляетесь на домашнюю страницу ADF в портал Azure. На этой странице содержатся руководства, видео-инструкции и ссылки на учебники для изучения концепций фабрики данных. Выберите значок карандаша на левой боковой панели, чтобы начать создание.

    Screenshot from the Azure portal of Portal configure.

Создание связанной службы Базы данных SQL Azure

  1. Чтобы создать связанную службу, выберите концентратор Управление на левой боковой панели, на панели Подключения выберите Связанные службы, после чего выберите Создать, чтобы добавить новую связанную службу.

    Screenshot from the Azure portal of creating a new linked service.

  2. Первая связанная служба, настроенная, является База данных SQL Azure. С помощью строки поиска можно отфильтровать список хранилищ данных. Выберите плитку База данных SQL Azure и нажмите "Продолжить".

    Screenshot from the Azure portal of creating a new Azure SQL Database linked service.

  3. В области конфигурации База данных SQL введите "SQLDB" в качестве имени связанной службы. Введите свои учетные данные, чтобы обеспечить подключение фабрики данных к базе данных. Если вы используете проверку подлинности SQL, введите имя сервера, базу данных, имя пользователя и пароль. Чтобы проверить правильность сведений о подключении, выберите Проверить подключение. По завершении нажмите кнопку Создать.

    Screenshot from the Azure portal of configuring a new Azure SQL Database linked service, with a successfully tested connection.

Создание связанной службы Azure Synapse Analytics

  1. Повторите этот же процесс, чтобы добавить связанную службу Azure Synapse Analytics. На вкладке "Подключения" выберите Создать. Выберите плитку Azure Synapse Analytics и нажмите кнопку "Продолжить".

    Screenshot from the Azure portal of creating a new Azure Synapse Analytics linked service.

  2. В области конфигурации связанной службы введите "SQLDW" в качестве имени связанной службы. Введите свои учетные данные, чтобы обеспечить подключение фабрики данных к базе данных. Если вы используете проверку подлинности SQL, введите имя сервера, базу данных, имя пользователя и пароль. Чтобы проверить правильность сведений о подключении, выберите Проверить подключение. По завершении нажмите кнопку Создать.

    Screenshot from the Azure portal of configuring a new Azure Synapse Analytics linked service named SQLDW.

Создание связанной службы Azure Data Lake Storage 2-го поколения

  1. Последняя связанная служба, необходимая для этой лаборатории, является Azure Data Lake Storage 2-го поколения. На вкладке "Подключения" выберите Создать. Выберите плитку Azure Data Lake Storage 2-го поколения и нажмите "Продолжить".

    Screenshot from the Azure portal of creating a new ADLS Gen2 linked service.

  2. В панели конфигурации связанной службы введите "ADLSGen2" в качестве имени связанной службы. Если вы используете проверку подлинности ключа учетной записи, выберите учетную запись хранения ADLS 2-го поколения в раскрывающемся списке имени учетной записи служба хранилища. Чтобы проверить правильность сведений о подключении, выберите Проверить подключение. По завершении нажмите кнопку Создать.

    Screenshot from the Azure portal of configuring a new ADLS Gen2 linked service.

Включение режима отладки потоков данных

В разделе "Преобразование данных с помощью потока данных сопоставления" вы создаете потоки данных сопоставления. Перед построением потоков данных сопоставления рекомендовано включить режим отладки, который позволяет в считанные секунды протестировать логику преобразования на активном кластере spark.

Чтобы включить режим отладки, нажмите на ползунок Отладка потока данных на верхней панели холста потока данных или холста конвейера, если у вас есть действия Поток данных. Нажмите кнопку ОК, когда появится диалоговое окно подтверждения. Кластер начинается примерно в 5–7 минут. Продолжайте прием данных из База данных SQL Azure в ADLS 2-го поколения с помощью действия копирования во время инициализации.

Screenshot from the Azure portal of the Factory Resources pages, with the data flow debug button enabled.

Screenshot that shows where the Data flow debug slider is after an object is created.

Прием данных с помощью действия копирования

В этом разделе вы создадите конвейер с действием копирования, которое выполняет прием одной таблицы из База данных SQL Azure в учетную запись хранения ADLS 2-го поколения. Вы узнаете, как добавить конвейер, настроить набор данных и выполнить отладку конвейера с помощью пользовательского интерфейса ADF. Шаблон конфигурации, используемый в этом разделе, применяется к копированию из реляционного хранилища данных в файловое хранилище данных.

В Фабрике данных Azure конвейеры являются логической группой действий, которые совместно выполняют задачу. Действие определяет операцию, выполняемую для данных. Набор данных указывает на данные, которые нужно использовать в связанной службе.

Создание конвейера с действием копирования

  1. Выберите значок "плюс" на панели ресурсов фабрики, чтобы открыть меню нового ресурса. Выберите Конвейер.

    Screenshot from the Azure portal of creating a new pipeline.

  2. Во вкладке Общие холста конвейера выберите описательное имя для конвейера, например "IngestAndTransformTaxiData".

    Screenshot from the Azure portal of new Ingest and Transform Taxi data object.

  3. В панели действий холста конвейера откройте меню-гармошку Move and Transform (Перемещение и преобразование) и перетащите действие Копирование данных на холст. Назовите действие копирования описательным именем, например "IngestIntoADLS".

    Screenshot from the Azure portal of adding a copy data step.

Настройка исходного набора данных базы данных SQL Azure

  1. Откройте вкладку Источник действия копирования. Чтобы создать набор данных, выберите Создать. Источник будет таблицей dbo.TripData , расположенной в связанной службе SQLDB, настроенной ранее.

    Screenshot from the Azure portal of creating a new dataset in the Copy Data source option.

  2. Выполните поиск по запросу База данных SQL Azure и выберите "Продолжить".

    Screenshot from the Azure portal of creating a new dataset in Azure SQL Database.

  3. Вызовите набор данных "TripData". Выберите "SQLDB" в качестве связанной службы. Выберите имя dbo.TripData таблицы из раскрывающегося списка имен таблицы. Импортируйте схему From connection/store (из подключения/хранилища). Закончив, выберите OK.

    Screenshot from the Azure portal of the properties page of creating a new dataset in Azure SQL Database.

Вы успешно создали свой первый исходный набор данных! Убедитесь, что в настройках источника в поле запроса на использование выбрано значение по умолчанию Таблица.

Настройка приемного набора данных ADLS 2-го поколения

  1. Откройте вкладку Приемник действия копирования. Чтобы создать набор данных, выберите Создать.

    Screenshot from the Azure portal of creating a new dataset in the Copy Data sink option.

  2. Выполните поиск по фразе Azure Data Lake Storage 2-го поколения и выберите "Продолжить".

    Screenshot from the Azure portal of creating a new data in ADLS Gen2.

  3. Во время записи в CSV-файл выберите DelimitedText на панели выбора формата. Выберите "Продолжить".

    Screenshot from the Azure portal of the format page when creating a new data in ADLS Gen2.

  4. Назовите приемный набор данных "TripDataCSV". Выберите "ADLSGen2" в качестве связанной службы. Введите расположение для записи CSV-файла. Данные можно, например, записать в файл trip-data.csv контейнера staging-container. Установите Использовать первую строку в качестве заголовка на true, если хотите, чтобы выходные данные имели заголовки. Поскольку в месте назначения еще нет файла, установите для пункта Импорт схемы значение Нет. Закончив, выберите OK.

    Screenshot from the Azure portal of the properties page of creating a new data in ADLS Gen2.

Тестирование действия копирования с помощью запуска отладки конвейера

  1. Выполните отладку, чтобы проверить корректность работы действия копирования, нажав Отладка в верхней части холста конвейера. Выполнение отладки позволяет выполнить сквозную проверку конвейера, либо проверку до точки останова, прежде чем опубликовать его в службе фабрики данных.

    Screenshot from the Azure portal of the debug button.

  2. Чтобы следить за выполнением отладки, перейдите на вкладку Выходные данные холста конвейера. Экран мониторинга автоматически обновляется каждые 20 секунд или при нажатии кнопки обновления вручную. Действие копирования имеет специальное представление мониторинга, к которому можно получить доступ, выбрав значок глазных очков в столбце "Действия ".

    Screenshot from the Azure portal of the monitoring button.

  3. Представление мониторинга копирования предоставляет сведения о процессе выполнения и характеристиках производительности. Вы можете просматривать такие сведения, как прочитанные/записанные данные, прочитанные/записанные строки, прочитанные/записанные файлы и пропускная способность. Если все правильно настроено, в приемнике ADLS должно быть записано 49 999 строк.

    Screenshot from the Azure portal of the performance details of the copy monitoring view.

  4. Прежде чем перейти к следующему разделу, рекомендуется опубликовать изменения в службе фабрики данных, выбрав "Опубликовать все " на верхней панели фабрики. Хотя в этой тестовой службе и не обсуждалось, Фабрика данных Azure поддерживает полную git-интеграцию. Интеграция Git позволяет выполнять управление версиями, итеративное сохранение в репозитории, а также совместную работу в фабрике данных. Дополнительные сведения см. Source Control in Azure Data Factory (Система управления версиями в фабрике данных Azure).

    Screenshot from the Azure portal of the publish all button.

Преобразование данных с помощью функции сопоставления потоков данных

Теперь, когда вы успешно скопировали данные в Azure Data Lake Storage, пришло время объединить и скомпоновать эти данные в хранилище данных. Мы используем поток данных сопоставления, визуально разработанный службой преобразования Фабрика данных Azure. Потоки данных сопоставления позволяют пользователям разрабатывать логические безкодовые преобразования и выполнять их на кластерах spark, управляемых службой ADF.

Поток данных, созданный на этом шаге, объединяет набор данных TripDataCSV, созданный в предыдущем разделе, с таблицей dbo.TripFares , хранящейся в SQLDB, на основе четырех ключевых столбцов. Затем данные суммируются по столбцу payment_type для вычисления среднего значения по определенным полям и записываются в таблицу Azure Synapse Analytics.

Добавление действия потока данных в конвейер

  1. В панели действий холста конвейера откройте меню-гармошку Move and Transform (Перемещение и преобразование) и перетащите действие Поток данных на холст.

    Screenshot from the Azure portal of the data flow option in the Move & Transform menu.

  2. В открывшейся боковой панели выберите Create new data flow (Создать новый поток данных) и выберите Поток данных для сопоставления. Нажмите ОК.

    Screenshot from the Azure portal of adding a new mapping data flow.

  3. Вы направляетесь на холст потока данных, в котором вы будете создавать логику преобразования. На вкладке "Общие" назовите свой поток данных "JoinAndAggregateData".

    Screenshot from the Azure portal of the Join And Aggregate Data flow.

Настройка источника данных CSV для поездки

  1. Первое, что вы хотите сделать — это настроить два преобразования источника. Первый источник указывает на набор данных с разделителями TripDataCSV. Чтобы добавить преобразование источника, выберите поле Добавить источник на холсте.

    Screenshot from the Azure portal of the add source button in a new data flow.

  2. Присвойте источнику имя TripDataCSV и выберите набор данных TripDataCSV из раскрывающегося списка источника. Если вы помните, вы не импортировали схему изначально при создании этого набора данных, поскольку в нем не было данных. Так как trip-data.csv теперь существует, выберите Изменить, чтобы перейти на вкладку настроек набора данных.

    Screenshot from the Azure portal of the edit source dataset button in the data flow options.

  3. Перейдите на вкладку Схема и выберите Импорт схемы. Выберите From connection/store (Из подключения/хранилища), чтобы импортировать непосредственно из хранилища файлов. Должны появиться 14 столбцов строки типа.

    Screenshot from the Azure portal of the schema source selection.

  4. Вернитесь к потоку данных "JoinAndAggregateData". Если ваш отладочный кластер запущен (обозначен зеленым кружком рядом с ползунком отладки), вы можете создать моментальный снимок данных на вкладке Предварительный просмотр данных. Выберите Обновить, чтобы получить данные предварительного просмотра.

    Screenshot from the Azure portal of the data flow preview.

Примечание.

В предварительном просмотре данные не записываются.

Настройка тарифов на поездку База данных SQL источника

  1. Второй источник, который вы добавляете точки в таблице dbo.TripFaresБаза данных SQL. В источнике TripDataCSV есть другое поле "Добавить источник ". Выберите его, чтобы добавить новое преобразование источника.

    Screenshot from the Azure portal of adding another data source to a data flow.

  2. Назовите этот источник "TripFaresSQL". Выберите "Создать" рядом с полем исходного набора данных, чтобы создать новый набор данных База данных SQL.

    Screenshot from the Azure portal of the new source dataset on another copy data step in the data flow.

  3. Выберите плитку База данных SQL Azure и нажмите "Продолжить". Возможно, многие соединители в фабрике данных не поддерживаются в потоке данных сопоставления. Чтобы преобразовать данные из одного из этих источников, загрузите их в поддерживаемый источник с помощью действия копирования.

    Screenshot from the Azure portal of adding a new Azure SQL Database dataset to the data flow.

  4. Вызовите набор данных "TripFares". Выберите "SQLDB" в качестве связанной службы. Выберите имя dbo.TripFares таблицы из раскрывающегося списка имен таблицы. Импортируйте схему From connection/store (из подключения/хранилища). Закончив, выберите OK.

    Screenshot from the Azure portal of the properties of adding a new Azure SQL Database dataset to the data flow.

  5. Чтобы проверить свои данные, вызовите предварительный просмотр данных на вкладке Предварительный просмотр данных.

    Screenshot from the Azure portal of the data preview of another data source in the data flow.

Внутреннее соединение TripDataCSV и TripFaresSQL

  1. Чтобы добавить новое преобразование, выберите значок плюса в правом нижнем углу "TripDataCSV". В разделе Multiple inputs/outputs (Несколько входных/выходных данных) выберите Присоединить.

    Screenshot from the Azure portal of the join button in data sources in a data flow.

  2. Назовите преобразование соединения "InnerJoinWithTripFares". Выберите TripFaresSQL в раскрывающемся списке справа. Выберите в качестве типа соединения Внутреннее. Дополнительные сведения о различных типах соединения в потоке данных для сопоставления см. join types (Типы соединения).

    Выберите столбцы, которые нужно сопоставить из каждого потока, в раскрывающемся списке условий соединения. Чтобы добавить дополнительное условие присоединения, выберите значок плюса рядом с существующим условием. По умолчанию все условия соединения объединены с оператором "И". Это означает, что для совпадения нужно выполнить все условия. В этой тестовой службе мы хотим сопоставить столбцы medallion, hack_license, vendor_id, и pickup_datetime

    Screenshot from the Azure portal of data flow join settings.

  3. Убедитесь, что успешно соединили 25 колонок, используя предварительный просмотр данных.

    Screenshot from the Azure portal of the data preview of a data flow with joined data sources.

Агрегирование по payment_type

  1. После завершения преобразования соединения добавьте агрегатное преобразование, выбрав значок плюса рядом с InnerJoinWithTripFares. Выберите Статическая обработка в разделе Schema modifier (Модификатор схемы).

    Screenshot from the Azure portal of the new aggregate button.

  2. Назовите преобразование статистической обработки "AggregateByPaymentType". Выберите payment_type как группу по столбцам.

    Screenshot from the Azure portal of aggregate settings.

  3. Перейдите на вкладку "Агрегаты ". Укажите два агрегата:

    • Средний тариф, сгруппированный по типу оплаты;
    • Общее расстояние поездки, сгруппированное по типу оплаты.

    Сначала вы создадите выражение "средний тариф". В текстовом поле с пометкой Add or select a column (Добавить или выбрать столбец), введите "average_fare".

    Screenshot from the Azure portal of the Grouped by option in aggregate settings.

  4. Чтобы ввести выражение агрегирования, выберите синее поле с меткой ВВОД, которое открывает построитель выражений потока данных, инструмент, используемый для визуального создания выражений потока данных с помощью входной схемы, встроенных функций и операций, а также пользовательских параметров. Дополнительные сведения о возможностях конструктора выражений см. Build expressions in mapping data flow(Создание выражений в потоке данных сопоставления).

    Чтобы получить средний тариф, используйте функцию агрегации avg() для агрегирования столбца total_amount, приведенного к целому числу с toInteger(). В языке выражения потока данных это определяется как avg(toInteger(total_amount)). После завершения настройки нажмите Сохранить и завершить.

    Screenshot from the Azure portal of the Visual Expression Builder showing an aggregate function avg(toInteger(total_amount)).

  5. Чтобы добавить дополнительное агрегатное выражение, выберите значок "плюс" рядом с average_fare. Выберите Добавить столбец.

    Screenshot from the Azure portal of the add column button in the aggregate settings grouped by option.

  6. В текстовом поле с пометкой Add or select a column (Добавить или выбрать столбец), введите "total_trip_distance". Аналогично к последнему шагу, откройте построитель выражений, чтобы ввести выражение.

    Чтобы получить данные об общей дистанции поездки, используйте функцию агрегации sum() для агрегирования столбца trip_distance, приведенного к целому числу с toInteger(). В языке выражения потока данных это определяется как sum(toInteger(trip_distance)). После завершения настройки нажмите Сохранить и завершить.

    Screenshot from the Azure portal of two columns in the aggregate settings grouped by option.

  7. Проверьте логику преобразования на вкладке "Предварительный просмотр данных". Как видно, есть значительно меньше строк и столбцов, чем раньше. Только три столбца "Группировать по" и "Агрегирование", определенные в этом преобразовании, продолжают передавать данные в нисходящем направлении. Так как в образце всего пять групп типа оплаты, выводится только пять строк.

    Screenshot from the Azure portal of aggregate data preview.

Настройка приемника Azure Synapse Analytics

  1. Теперь,после завершения логики преобразования, мы готовы к передаче данных в таблицу Azure Synapse Analytics. Добавьте преобразование "приемник" в раздел Назначение.

    Screenshot from the Azure portal of the add sink button in the data flow.

  2. Назовите приемник "SQLDWSink". Выберите Создать рядом с полем набора данных приемника, чтобы создать новый набор данных Azure Synapse Analytics.

    Screenshot from the Azure portal of a new sink dataset button in the sink settings.

  3. Выберите плитку Azure Synapse Analytics и нажмите кнопку "Продолжить".

    Screenshot from the Azure portal of a new Azure Synapse Analytics dataset for a new data sink.

  4. Вызовите набор данных "AggregatedTaxiData". Выберите "SQLDW" в качестве связанной службы. Выберите "Создать новую таблицу" и назовите новую таблицуdbo.AggregateTaxiData. Закончив, выберите OK.

    Screenshot from the Azure portal of creating a new table for the data sink.

  5. Перейдите на вкладку Параметры приемника. Поскольку мы создаем новую таблицу, необходимо выбрать Recreate table (Создать таблицу повторно) в разделе действия таблицы. Снимите флажок с пункта Enable staging (Включить промежуточный процесс), который переключает поведение на построковую вставку или вставку в пакет.

    Screenshot from the Azure portal of data sink settings, the recreate table option.

Вы успешно создали свой поток данных. Теперь пора выполнить его в действии конвейера.

Комплексная отладка конвейера

  1. Вернитесь на вкладку конвейера IngestAndTransformData. Обратите внимание на зеленое поле в действии копирования "IngestIntoADLS". Перетащите его в действие потока данных "JoinAndAggregateData". При этом создается "при успешном выполнении", что приводит к выполнению действия потока данных только в том случае, если копирование прошло успешно.

    Screenshot from the Azure portal of a green success pipeline.

  2. Как и для действия копирования, выберите Отладка, чтобы выполнить отладку. Для выполнения отладки действие потока данных использует активный кластер отладки вместо спинирования нового кластера. Выполнение этого конвейера занимает чуть более минуты.

    Screenshot from the Azure portal of the data flow debug button for the on success pipeline.

  3. Как и в случае с действием копирования, поток данных имеет специальное представление мониторинга, доступ к которому осуществляется с помощью иконки "Очки" по завершении действия.

    Screenshot from the Azure portal of the output monitor on a pipeline.

  4. В представлении мониторинга можно увидеть упрощенный граф потока данных, а также время выполнения и строки на каждом этапе выполнения. Если все сделано правильно, то в этой деятельности вы должны были объединить 49 999 строк в пять.

    Screenshot from the Azure portal of the output monitor details on a pipeline.

  5. Вы можете выбрать преобразование, чтобы получить дополнительную информацию о его выполнении, такую как сведения о секционировании и новых/обновленных/удаленных столбцах.

    Screenshot from the Azure portal of stream information on the pipeline output monitor.

Теперь часть, посвященную фабрике данных в этой тестовой службе завершено. Опубликуйте свои ресурсы, если хотите использовать их с помощью триггеров. Вы успешно запустили конвейер, который передавал данные из базы данных SQL Azure в Azure Data Lake Storage с помощью действия копирования, а затем объединили эти данные в Azure Synapse Analytics. Чтобы убедиться, что данные успешно записаны, взгляните на SQL Server.

Совместное использование данных с помощью Azure Data Share

В этом разделе описано, как настроить новую общую папку данных с помощью портал Azure. Это включает создание общего ресурса данных, содержащего наборы данных из Azure Data Lake Storage 2-го поколения и Azure Synapse Analytics. Затем вы настроите расписание моментальных снимков, которое предоставит потребителям данных возможность автоматически обновлять данные, к которым для них предоставлен общий доступ. После этого вы отправите приглашение получателям доступа к общему ресурсу данных.

После создания общего ресурса данных вы переключите джойстик и станете потребителем данных. Будучи потребителем данных, вы пройдете через процесс принятия приглашения к общему ресурсу данных, настраивая место получения данных, и сопоставляя наборы данных с различными местами хранения. Затем вы активируете моментальный снимок, который будет копировать данные, к которым вы поделились, в указанное место назначения.

Общий доступ к данным (поток поставщика данных)

  1. Откройте портал Azure в Microsoft Edge или Google Chrome.

  2. Используя строку поиска в верхней части страницы, выполните поиск по фразе Общие ресурсы данных.

    Screenshot from the Azure portal of searching for data shares in the Azure portal search bar.

  3. Выберите учетную запись общего ресурса данных со словом "Provider" в имени. Например, DataProvider0102.

  4. Выберите команду Начать совместное использование данных.

    Screenshot from the Azure portal of the start sharing your data button.

  5. Выберите +Cоздать, чтобы начать настройку нового общий ресурс данных общей папки данных.

  6. Укажите для параметра Имя общего ресурса имя по своему усмотрению. Это имя общего ресурса, которое будет отображаться потребителем данных, поэтому обязательно присвойте ему описательное имя, например TaxiData.

  7. В разделе Описаниевведите предложение, в котором описано содержимое общего ресурса данных. Общая папка данных содержит данные о поездке на такси по всему миру, которые хранятся в различных магазинах, включая Azure Synapse Analytics и Azure Data Lake служба хранилища.

  8. В разделе Условия использованияукажите набор условий, которым должен соответствовать потребитель данных. Некоторые примеры включают "Не распространять эти данные за пределы организации" или "Обратиться к юридическому соглашению".

    Screenshot from the Azure portal of the Data Share details in Sent Shares.

  9. Выберите Продолжить.

  10. Выберите Добавить наборы данных

    Screenshot from the Azure portal of the Add dataset button in the Data Share in Sent Shares.

  11. Щелкните Azure Synapse Analytics, чтобы выбрать таблицу из Azure Synapse Analytics, в которую попали ваши преобразования из ADF.

  12. Перед продолжением вы запустите скрипт. Предоставленный сценарий создает пользователя в базе данных SQL, чтобы позволить MSI Azure Data Share аутентифицироваться от его имени.

    Важно!

    Перед выполнением скрипта необходимо настроить себя как Администратор Active Directory для логического СЕРВЕРА SQL База данных SQL Azure.

  13. Откройте новую вкладку и перейдите на портал Azure. Скопируйте предоставленный скрипт для создания пользователя в базе данных, для данных которой вы хотите предоставить общий доступ. Для этого войдите в базу данных EDW с помощью редактора запросов портал Azure с помощью проверки подлинности Microsoft Entra. Необходимо изменить пользователя в следующем примере скрипта:

    CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; 
    ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
    
  14. Вернитесь к Azure Data Share, в котором вы добавляли наборы данных в общий ресурс данных.

  15. Выберите EDW, а затем AggregatedTaxiData для таблицы.

  16. Выберите Добавить набор данных

    Теперь у нас есть таблица SQL, которая является частью набора данных. Далее мы добавим дополнительные наборы данных из Azure Data Lake служба хранилища.

  17. Выберите "Добавить набор данных" и выберите Azure Data Lake Storage 2-го поколения

    Screenshot from the Azure portal of add an ADLS Gen2 dataset.

  18. Выберите Далее

  19. Разверните wwtaxidata. Разверните Сведения о такси в Бостоне. Вы можете предоставить общий доступ к уровню файла.

  20. Выберите папку Сведения о такси в Бостоне, чтобы добавить всю папку в общий ресурс данных.

  21. Выберите Добавить наборы данных

  22. Просмотрите добавленные наборы данных. К вашему общему ресурсу данных должна быть добавлена таблица SQL и папка ADLS 2-го поколения.

  23. Выберите Продолжить

  24. На этом экране вы можете добавить получателей для общего доступа к данным. Получатели, которых вы добавите, получат приглашения для доступа к общему ресурсу данных. Для этой лаборатории необходимо добавить два адреса электронной почты:

    1. Адрес электронной почты подписки Azure, с помощью которой вы выполнили вход.

      Screenshot from the Azure portal of the Data Share add recipients.

    2. Добавьте вымышленного потребителя данных с именем janedoe@fabrikam.com.

  25. На этом экране можно настроить пункт "Параметр моментального снимка" для потребителя данных. Это позволяет им получать регулярные обновления данных через интервал, определенный вами.

  26. Проверьте расписание моментальных снимков и настройте почасовое обновление данных с помощью раскрывающегося списка повторений .

  27. Нажмите кнопку создания.

    Теперь вы имеете активный общий ресурс данных. Просмотрим, что выступает поставщиком данных при создании общего ресурса данных.

  28. Выберите созданный общий доступ к данным под заголовком DataProvider. Вы можете перейти к нему, выбрав Отправленные общие папки в Общий ресурс данных.

  29. Выберите пункт "Расписание моментальных снимков". Вы можете отключить расписание снимков по вашему выбору.

  30. Затем выберите вкладку "Наборы данных". Вы можете добавить дополнительные наборы данных в эту общую папку данных после его создания.

  31. Выберите вкладку "Общие подписки ". Подписки общего доступа еще не существуют, так как ваш потребитель данных еще не принял приглашение.

  32. Перейдите на вкладку "Приглашения". Здесь вы увидите список ожидающих приглашений.

    Screenshot from the Azure portal of Pending invitations.

  33. Выберите приглашение для janedoe@fabrikam.com. Выберите команду Удалить. Если ваш получатель еще не принял приглашение, он больше не сможет этого сделать.

  34. Выберите вкладку "Журнал ". Пока ничего не отображается, так как ваш потребитель данных еще не принял приглашение и активировал моментальный снимок.

Получение данных (поток потребителя данных)

Теперь, после просмотра общего ресурса данных, мы готовы поменять контекст и переключить на работу в качестве потребителя данных.

В вашем почтовом ящике должно быть приглашение Azure Data Share от Microsoft Azure. Запустите Outlook Web Access (outlook.com) и войдите с помощью учетных данных, предоставленных для подписки Azure.

В письме, которое вы должны были получить, нажмите "Просмотреть приглашение >". На данном этапе вы будете имитировать опыт потребителя данных при принятии приглашения поставщиков данных на доступ к их общему ресурсу данных.

Screenshot from Outlook of an Email invitation.

Возможно, вам будет предложено выбрать подписку. Убедитесь, что выбрали подписку, с помощью которой работали в этой тестовой службе.

  1. Выберите приглашение под названием DataProvider.

  2. На этом экране приглашения обратите внимание на различные сведения о общей папке данных, настроенной ранее в качестве поставщика данных. Просмотрите детали и примите условия использования, если они предоставлены.

  3. Выберите подписку и группу ресурсов, уже существующие в тестовой службе.

  4. Для пункта Учетная запись Data Share выберите DataConsumer. Кроме того, вы можете создать новую учетную запись Data Share.

  5. Рядом с именем полученной общей папки обратите внимание, что имя общего ресурса по умолчанию — это имя, указанное поставщиком данных. Дайте ресурсу понятное имя, которое описывает данные, которые вы собираетесь получить, например TaxiDataShare.

    Screenshot from the Azure portal of the page to Accept and Configure a data share.

  6. Вы можете выбрать между вариантами Accept and configure now (Принять и настроить) или Accept and configure later (Принять и настроить позже). Если вы решили принять и настроить сейчас, укажите учетную запись хранения, в которой должны быть скопированы все данные. Если вы выберете "Принять и настроить позже", наборы данных в общем ресурсе будут распакованы, и вам нужно будет сопоставить их вручную. Мы выберем это позже.

  7. Выберите Accept and configure later (Принять и настроить позже).

    При настройке этого параметра создается подписка на общую папку, но данные не помещается, так как назначение не было сопоставлено.

    Затем настройте сопоставления наборов данных для общей папки данных.

  8. Выберите "Received Share" (Полученный общий ресурс) (имя, которое вы указали на шаге 5).

    Действие Активировать моментальный снимок будет выделено серым цветом, однако общий ресурс будет активен.

  9. Перейдите на вкладку "Наборы данных". Каждый набор данных не сопоставляется, что означает, что он не имеет назначения для копирования данных в.

    Screenshot from the Azure portal of unmapped datasets.

  10. Выберите таблицу Azure Synapse Analytics, а затем — + Сопоставить с целевым объектом.

  11. В правой части экрана выберите раскрывающийся список "Целевой тип данных".

    Вы можете сопоставить данные SQL с широким спектром хранилищ данных. В этом примере мы будем выполнять сопоставление с Базой данных SQL Azure.

    Screenshot from the Azure portal of map datasets to target.

    (Необязательно) Выберите Azure Data Lake Storage 2-го поколения в качестве целевого типа данных.

    (Дополнительно) Выберите подписку, группу ресурсов и учетную запись хранения, в которой вы работали.

    (Дополнительно) Вы можете выбрать получение данных в озере данных в формате CSV или parquet.

  12. Рядом с Целевой тип данных выберите Базу данных SQL.

  13. Выберите подписку, группу ресурсов и учетную запись хранения, в которой вы работали.

    Screenshot from the Azure portal of map datasets to a target Azure SQL Database.

  14. Перед тем, как продолжить, необходимо создать нового пользователя в SQL Server, запустив предоставленный скрипт. Скопируйте предоставленный скрипт в буфер обмена.

  15. Откройте новую вкладку портал Azure. Не закрывайте существующую вкладку, так как вам потребуется вернуться к ней через некоторое время.

  16. В новой открытой вкладке перейдите к пункту Базы данных SQL.

  17. Выберите базу данных SQL (она должна быть единственной в вашей подписке). Следите за тем, чтобы не выбрать хранилище данных.

  18. Выберите Редактор запросов (предварительная версия)

  19. Используйте проверку подлинности Microsoft Entra для входа в редактор запросов.

  20. Выполните запрос, предоставленный в общем ресурсе данных (скопированный в буфер обмена на шаге 14).

    Эта команда позволяет службе Azure Data Share использовать управляемые удостоверения для Служб Azure, чтобы выполнять проверку подлинности на SQL Server и иметь возможность копировать в него данные.

  21. Вернитесь на исходную вкладку и выберите Сопоставить с целевым объектом.

  22. Затем выберите папку Azure Data Lake Storage 2-го поколения, которая входит в набор данных, и сопоставите ее с учетной записью Хранилище BLOB-объектов Azure.

    Screenshot from the Azure portal of map datasets to a target Azure Blob Storage.

    Теперь, когда все наборы данных сопоставлены, вы готовы начать получать данные от поставщика данных.

    Screenshot from the Azure portal of received shares mapped.

  23. Выберите Сведения.

    Моментальный снимок триггера больше не серый, так как общий ресурс данных теперь имеет назначения для копирования.

  24. Выберите моментальный снимок триггера ->Полная копия.

    Screenshot from the Azure portal of the trigger snapshot, full copy option.

    При этом начинается копирование данных в новую учетную запись общего ресурса данных. В реальной ситуации эти данные поступают от стороннего производителя.

    Для получения данных требуется примерно 3–5 минут. Вы можете отслеживать ход выполнения, выбрав на вкладке "Журнал ".

    Подождите, перейдите к исходной общей папке данных (DataProvider) и просмотрите состояние вкладки "Общие подписки " и "Журнал ". Теперь есть активная подписка, и в качестве поставщика данных вы также можете отслеживать, когда потребитель данных начал получать данные, к которым им предоставлен доступ.

  25. Вернитесь к общей папке потребителя данных. Сразу после успешной активации перейдите к целевой базе данных SQL и озеру данных, чтобы проверить, что данные передано в соответствующие хранилища.

Поздравляем, вы завершили работу с тестовой службой!