Потоки данных в Azure Synapse Analytics

Что такое потоки данных?

Потоки данных — это визуально спроектированные преобразования данных в Azure Synapse Analytics. Потоки данных позволяют инженерам по обработке данных разрабатывать логику преобразования данных без написания кода. Результирующие потоки данных выполняются в качестве действий в конвейерах Azure Synapse Analytics, использующих кластеры Apache Spark с горизонтальным увеличением масштаба. Действия потока данных можно применять через уже существующие средства планирования, управления, потока и мониторинга в Azure Synapse Analytics.

Потоки данных обеспечивают полностью визуальный интерфейс без необходимости написания кода. Потоки данных выполняются в кластерах выполнения, управляемых Synapse, для обработки данных с горизонтальным масштабированием. Azure Synapse Analytics обрабатывает любое преобразование кода, оптимизацию пути и выполнение заданий потока данных.

Начало работы

Потоки данных создаются на панели "Разработка" в студии Synapse. Чтобы создать поток данных, щелкните знак "плюс" рядом с параметром Разработка, а затем выберите Поток данных.

Новый поток данных

Это действие выполняет переход к холсту потока данных, где можно создать логику преобразования. Выберите Добавить источник, чтобы начать настройку преобразования источника. Дополнительные сведения см. в статье Преобразование источника.

Создание потоков данных

У потока данных есть уникальный холст, упрощающий создание логики преобразования. Холст потока данных разделен на три части: верхняя панель, диаграмма и панель конфигурации.

На снимке экрана показан холст потока данных с отмеченными верхней панелью, диаграммой и панелью конфигурации.

График

Диаграмма отображает поток преобразования. Здесь показан журнал преобразований источника данных по мере их передачи в один или несколько приемников. Чтобы добавить новый источник, выберите Добавить источник. Чтобы добавить новое преобразование, щелкните знак "плюс" в правом нижнем углу существующего преобразования. Узнайте больше о том, как управлять диаграммой потока данных.

На снимке экрана показана часть диаграммы холста с текстовым полем поиска.

Панель конфигурации

На панели конфигурации отображаются параметры, относящиеся к текущему выбранному преобразованию. Если преобразование не выбрано, то отображается поток данных. В общей конфигурации потока данных можно добавить параметры с помощью вкладки Параметры. Дополнительные сведения см. в статье Параметры потока данных.

Каждое преобразование содержит по крайней мере четыре вкладки конфигурации.

Параметры преобразования

Первая вкладка в области конфигурации каждого преобразования содержит параметры, относящиеся к этому преобразованию. Дополнительные сведения см. на странице документации по преобразованию.

Вкладка

Оптимизация

Вкладка Оптимизация содержит параметры для настройки схем секционирования. Чтобы узнать больше о том, как оптимизировать потоки данных, см. руководство по повышению производительности потока данных для сопоставления.

Снимок экрана: вкладка

Изучение

Вкладка Проверка содержит метаданные потока данных, который вы преобразуете. Можно просмотреть количество столбцов, изменить столбцы, добавить столбцы, типы данных, порядок столбцов и ссылки на столбцы. Проверка — это представление метаданных только для чтения. Для просмотра метаданных в области Проверка не нужно включать режим отладки.

Вкладка

Во время изменения формы ваших данных путем преобразований вы увидите, как метаданные изменяют поток, с помощью области Проверка. Метаданные не будут отображаться в области Проверка, если в преобразовании источника не определена схема. Отсутствие метаданных часто встречается в сценариях смещения схемы.

Предварительный просмотр данных

Если включен режим отладки, на вкладке Предварительный просмотр данных отображается интерактивный моментальный снимок данных при каждом преобразовании. Дополнительные сведения см. в статье Предварительный просмотр данных в режиме отладки.

Верхняя панель

Верхняя панель содержит действия, влияющие на весь поток данных, например параметры проверки и отладки. Можно также просмотреть базовый код JSON и скрипт потока данных для логики преобразования.

Доступные преобразования

Просмотрите Общие сведения о преобразовании потока данных для сопоставления, чтобы получить список доступных преобразований.

Действие потока данных

Потоки данных выполняются в конвейерах Azure Synapse Analytics с помощью действия потока данных. Все, что пользователь должен сделать, — это указать, какую среду выполнения интеграции использовать, и передать значения параметров. Дополнительные сведения см. в статье о среде выполнения интеграции Azure.

Режим отладки

Режим отладки позволяет интерактивно просматривать результаты каждого шага преобразования во время сборки и отладки потоков данных. Сеанс отладки можно использовать как при построении логики потока данных, так и при выполнении отладки конвейера с действиями потока данных. Чтобы узнать больше, см. документацию по режиму отладки.

Мониторинг потоков данных

Поток данных интегрируется с имеющимися возможностями мониторинга Azure Synapse Analytics. Сведения о том, как интерпретировать выходные данные мониторинга потока данных, см. в статье Мониторинг потоков данных для сопоставления.

Группа Azure Synapse Analytics создала рекомендации по настройке производительности, которые помогут вам оптимизировать время выполнения потоков данных после создания бизнес-логики.

Дальнейшие шаги