Краткое руководство. Создание первого потока данных для получения и преобразования данных

Потоки данных — это самостоятельная облачная технология подготовки данных. В этой статье вы создадите первый поток данных, получите данные для потока данных, а затем преобразуете данные и опубликуете поток данных.

Необходимые компоненты

Перед началом работы требуются следующие предварительные требования:

Создание потока данных

В этом разделе вы создаете первый поток данных.

  1. Перейдите к интерфейсу фабрики данных.

    Screenshot with the data factory experience emphasized.

  2. Перейдите в рабочую область Microsoft Fabric.

    Screenshot of the workspaces window where you navigate to your workspace.

  3. Выберите "Создать" и выберите "Поток данных 2-го поколения".

    Screenshot with the Dataflow Gen2 selection emphasized.

Получить данные

Давайте получим некоторые данные! В этом примере вы получаете данные из службы OData. Чтобы получить данные в потоке данных, выполните следующие действия.

  1. В редакторе потока данных выберите " Получить данные " и нажмите кнопку "Дополнительно".

    Screenshot with the Get Data option selected and More emphasized in the drop-down box.

  2. В разделе "Выбор источника данных" выберите "Просмотреть больше".

    Screenshot of Get data source with View more emphasized.

  3. В новом источнике выберите "Другие>OData" в качестве источника данных.

    Screenshot of Get data source with the Other category and the OData connector emphasized.

  4. Введите URL-адрес https://services.odata.org/v4/northwind/northwind.svc/и нажмите кнопку "Далее".

    Screenshot of the OData data source where you enter the data URL.

  5. Выберите таблицы "Заказы и клиенты", а затем нажмите кнопку "Создать".

    Screenshot of the Power Query navigator with the Customers and Orders tables emphasized.

Дополнительные сведения о работе с данными и функциональных возможностях см. в статье "Получение данных".

Применение преобразований и публикация

Теперь вы загрузили данные в первый поток данных, поздравляем! Теперь пришло время применить несколько преобразований, чтобы перенести эти данные в нужную форму.

Вы собираетесь выполнить эту задачу из редактора Power Query. Подробный обзор редактора Power Query можно найти в пользовательском интерфейсе Power Query.

Выполните следующие действия, чтобы применить преобразования и опубликовать:

  1. Убедитесь, что средства профилирования данных включены, перейдя к глобальным параметрам> для дома.>

    Screenshot of Global options with the Column profile selections emphasized.

    Кроме того, убедитесь, что вы включили представление схемы с помощью параметров на вкладке "Вид " на ленте редактора Power Query или щелкните значок представления схемы в правой нижней части окна Power Query.

    Screenshot of the overall look of Power Query diagram view.

  2. В таблице "Заказы" вычислите общее количество заказов на каждого клиента. Чтобы достичь этой цели, выберите столбец CustomerID в предварительном просмотре данных и выберите группировать повкладке "Преобразование " на ленте.

    Screenshot showing the Orders table selected, and Group by emphasized in the Transform tab.

  3. Количество строк выполняется в виде агрегирования в группе By. Дополнительные сведения о возможностях Group By см. в разделе "Группирование" или "Суммирование строк".

    Screenshot of Group by, with the Count rows operation selected.

  4. После группировки данных в таблице Orders мы получим таблицу с двумя столбцами с CustomerID и Count в качестве столбцов.

    Screenshot of the two column table.

  5. Затем необходимо объединить данные из таблицы "Клиенты" с числом заказов на клиента. Чтобы объединить данные, выберите запрос "Клиенты" в представлении диаграммы и используйте меню "⋮" для доступа к запросам слияния в качестве нового преобразования.

    Screenshot of the dataflow editor, with the vertical ellipsis of the Customers table and Merge queries as new emphasized.

  6. Настройте операцию слияния, как показано на следующем снимке экрана, выбрав CustomerID в качестве соответствующего столбца в обеих таблицах. Затем выберите ОК.

    Screenshot of the Merge window.

    Снимок экрана: окно слияния с левой таблицей для слияния, заданной в таблице Customers, и правой таблицей для слияния, заданной в таблице Orders. Столбец CustomerID выбран для таблиц "Клиенты" и "Заказы". Кроме того, тип соединения имеет значение "Левый внешний". Все остальные выборы задаются по умолчанию.

  7. После выполнения запросов слияния в качестве новой операции вы получите новый запрос со всеми столбцами из таблицы Customers и одного столбца с вложенными данными из таблицы Orders.

    Screenshot of the dataflows editor with the new Merge query added to the right of the Customers and Orders tables.

  8. В этом примере вы заинтересованы только в подмножестве столбцов в таблице Customers. Вы выбираете эти столбцы с помощью представления схемы. Включите представление схемы в кнопке переключателя в правом нижнем углу редактора потоков данных.

    Screenshot of the dataflows editor with the schema view button emphasized in the bottom-right corner.

  9. Представление схемы предоставляет ориентированное представление в сведениях о схеме таблицы, включая имена столбцов и типы данных. Представление схемы содержит набор средств схемы, доступных на вкладке контекстной ленты. В этом сценарии вы выбираете столбцы CustomerID, CompanyName и Orders (2), а затем нажмите кнопку "Удалить столбцы" и выберите "Удалить другие столбцы" на вкладке "Средства схемы".

    Screenshot of the schema view showing all of the available column names, with the CustomerID, CompanyName, and Orders (2) columns emphasized.

    Screenshot of the schema tools menu with Remove other columns emphasized.

  10. Столбец Orders (2) содержит вложенные сведения, полученные из операции слияния, которую вы выполнили несколько шагов назад. Теперь переключитесь в представление данных, нажав кнопку "Показать представление данных" рядом с кнопкой "Показать представление схемы" в правом нижнем углу пользовательского интерфейса. Затем используйте преобразование "Развернуть столбец " в заголовке столбца Orders (2) для выбора столбца Count .

    Screenshot for using data view.

  11. В качестве последней операции вы хотите ранжировать клиентов на основе их количества заказов. Выберите столбец Count и нажмите кнопку "Ранжирование столбца" на вкладке "Добавить столбец" на ленте.

    Screenshot of the dataflows editor with the Count column selected.

  12. Сохраните параметры по умолчанию в столбце ранжирования. Затем нажмите кнопку "ОК ", чтобы применить это преобразование.

    Screenshot of the Rank window with all default settings displayed.

  13. Теперь переименуйте полученный запрос в качестве ранжированных клиентов с помощью области параметров запроса справа от экрана.

    Screenshot of the dataflows editor with the Ranked Customers name emphasized under the query settings properties.

  14. Вы завершили преобразование и объединение данных. Таким образом, теперь вы настраиваете параметры назначения выходных данных. Выберите назначение данных в нижней части области параметров запроса.

    Screenshot of the dataflows editor with the location of the Data destination selection emphasized.

  15. На этом шаге можно настроить выходные данные в lakehouse, если у вас есть один доступный, или пропустить этот шаг, если вы этого не сделали. В рамках этого интерфейса вы можете настроить целевой lakehouse и таблицу для результатов запроса в дополнение к методу обновления (добавление или замена).

    Screenshot of the Connect to data destination window with lakehouse selected.

    Screenshot of the Choose destination settings window.

  16. Поток данных теперь готов к публикации. Просмотрите запросы в представлении диаграммы и выберите " Опубликовать".

    Screenshot of the dataflows editor with the Publish button on the lower-right side emphasized.

    Теперь вы вернелись в рабочую область. Значок спиннера рядом с именем потока данных указывает, что публикация выполняется. После завершения публикации поток данных будет готов к обновлению!

    Важно!

    При создании первого поколения Dataflow 2-го поколения в рабочей области элементы Lakehouse и Warehouse подготавливаются вместе с соответствующими конечными точками аналитики SQL и семантической моделями. Эти элементы разделяются всеми потоками данных в рабочей области и требуются для работы потока данных 2-го поколения, не следует удалять и не предназначены для непосредственного использования пользователями. Элементы — это сведения о реализации потока данных 2-го поколения. Элементы не отображаются в рабочей области, но могут быть доступны в других интерфейсах, таких как записная книжка, конечная точка аналитики SQL, Lakehouse и хранилище. Элементы можно распознать по их префиксу в имени. Префикс элементов — DataflowsStaging.

  17. В рабочей области выберите значок "Запланировать обновление ".

    Screenshot of the workspace with the schedule refresh icon emphasized.

  18. Включите запланированное обновление, нажмите кнопку "Добавить еще раз" и настройте обновление, как показано на следующем снимке экрана.

    Screenshot showing how to select another time.

    Снимок экрана: параметры запланированного обновления с включенным запланированным обновлением, частота обновления— Daily, часовой пояс, заданный для координированного универсального времени, и время 4:00. Кнопка "Добавить другое время", владелец потока данных и кнопка "Применить" все выделены.

Очистка ресурсов

Если вы не собираетесь продолжать использовать этот поток данных, удалите поток данных, выполнив следующие действия.

  1. Перейдите в рабочую область Microsoft Fabric.

    Screenshot of the workspaces window where you navigate to your workspace.

  2. Выберите вертикальное многоточие рядом с именем потока данных и нажмите кнопку "Удалить".

    Screenshot with the three vertical dots and the delete option in the drop-down menu emphasized.

  3. Выберите "Удалить" , чтобы подтвердить удаление потока данных.

    Screenshot of the Delete dataflow window, with the Delete button emphasized.

Поток данных в этом примере показывает, как загружать и преобразовывать данные в поток данных 2-го поколения. Вы научились выполнять следующие задачи:

  • Создание потока данных 2-го поколения.
  • Преобразовать данные.
  • Настройте параметры назначения для преобразованных данных.
  • Запустите и запланируйте конвейер данных.

Перейдите к следующей статье, чтобы узнать, как создать первый конвейер данных.