Потоковая передача потоков данных (предварительная версия)

Организации хотят работать с данными по мере их поступления, а не через несколько дней или недель. Концепция Power BI проста: сегодня исчезнут различия между пакетными данными, данными в реальном времени и потоковыми данными. Пользователи должны иметь возможность работать со всеми данными, как только они станут доступны.

Аналитикам обычно требуется помощь технических специалистов в работе с источниками потоковых данных, подготовкой данных, сложными временными операциями и визуализацией данных в реальном времени. ИТ-отделы часто полагаются на системы, созданные по индивидуальному заказу, и на комбинацию технологий от различных поставщиков для своевременного анализа данных. Без этой сложности они не могут предоставить лицам, принимающим решения, информацию почти в реальном времени.

Потоки данных потоковой передачи позволяют авторам подключаться, принимать, смешивать, моделировать и строить отчеты на основе потоковых данных, близких к реальному времени, непосредственно в службе Power BI. Служба позволяет выполнять операции без кода с перетаскиванием.

При необходимости пользователи также могут смешивать потоковые данные с пакетными. Это делается с помощью пользовательского интерфейса, который включает представление диаграммы для упрощения гибридных приложений данных. Последний созданный артефакт — это поток данных, который можно использовать в реальном времени для создания высоко интерактивных отчетов, близких к реальному времени. Все возможности визуализации данных в Power BI работают с потоковыми данными так же, как с пакетными данными.

Screenshot that shows where to find streaming dataflows.

Пользователи могут выполнять операции подготовки данных, такие как объединения и фильтры. Они также могут выполнять агрегирование временных окон (например, переворачивание, скачкообразное переключение и окна сеанса) для групповых операций.

Для организаций потоки данных потоковой передачи в Power BI открывают следующие возможности:

  • Уверенное принятие решений почти в реальном времени. Организации могут быть более гибкими и предпринимать осмысленные действия, основанные на самых свежих данных.
  • Более демократичный доступ к потоковым данным. Организации могут сделать данные более доступными и более простыми для интерпретации с помощью решения без кода и сократить ИТ-ресурсы.
  • Сократите время получения аналитических данных с помощью решения для сквозной потоковой аналитики со встроенным хранилищем данных и бизнес-аналитикой.

Потоки потоковых данных поддерживают DirectQuery и автоматическое обнаружение обновления/изменения страницы. Эта поддержка позволяет пользователям создавать отчеты, которые обновляются практически в режиме реального времени с точностью до секунды, используя любой визуальный элемент, доступный в Power BI.

Требования

Прежде чем создавать свой первый поток потоковых данных, убедитесь, что вы соответствуете всем следующим требованиям.

  • Чтобы создать и запустить поток потоковых данных, вам потребуется рабочая область, которая является частью лицензии Премиум емкости или Премиум на пользователя (PPU) .

    Важно!

    Если вы используете лицензию PPU и хотите, чтобы другие пользователи использовали отчеты, созданные с потоками потоковых данных, которые обновляются в реальном времени, им также потребуется лицензия PPU. Затем они могут использовать отчеты с той же частотой обновления, которую вы установили, если это обновление выполняется быстрее, чем каждые 30 минут.

  • Включите потоки данных для вашего клиента. Дополнительные сведения см. в разделе Включение потоков данных в Power BI Premium.

  • Чтобы потоки потоковых данных работали в вашей Премиум емкости, необходимо включить расширенное ядро вычислений. Механизм включен по умолчанию, но администраторы мощности Power BI могут отключить его. В этом случае попросите администратора включить его.

    Расширенный вычислительный модуль доступен только в емкостях Premium P или Embedded A3 и более крупных емкостях. Чтобы использовать потоки данных потоковой передачи, требуется PPU, емкость Premium P любого размера, внедренная A3 или более крупная емкость. Дополнительные сведения о SKU Премиум и их спецификациях см. в разделе Емкость и SKU во встроенной аналитике Power BI.

  • Чтобы создавать отчеты, которые обновляются в режиме реального времени, убедитесь, что ваш администратор (емкость и/или Power BI для PPU) включил автоматическое обновление страницы. Также убедитесь, что администратор разрешил минимальный интервал обновления, соответствующий вашим потребностям. Дополнительные сведения см. в разделе Автоматическое обновление страницы в Power BI.

Создание потока данных потоковой передачи

Как и обычный поток данных, поток данных потоковой передачи представляет собой коллекцию сущностей (таблиц), создаваемых и управляемых в рабочих областях службы Power BI. Таблица — это набор полей, которые используются для хранения данных, как и таблица в базе данных.

Вы можете добавлять и редактировать таблицы в потоке данных прямо из рабочей области, в которой был создан поток данных. Основное отличие от обычных потоков данных заключается в том, что вам не нужно беспокоиться об обновлениях или частоте. Из-за характера потоковой передачи данных поступает непрерывный поток. Обновление будет постоянным или бесконечным, если вы его не остановите.

Примечание

В одной рабочей области может быть только один тип потока данных. Если у вас уже есть обычный поток данных в рабочем пространстве Премиум, вы не сможете создать поток потоковых данных (и наоборот).

Чтобы создать поток потоковых данных

  1. Откройте службу Power BI в браузере, а затем выберите рабочую область с поддержкой Премиум. (Потоковые потоки данных, как и обычные потоки данных, недоступны в Моя рабочая область.)

  2. Выберите раскрывающееся меню Создать и выберите Поток данных потоковой передачи.

    Screenshot that shows the New menu and the selection of streaming dataflow.

  3. На открывшейся боковой панели вы должны назвать свой поток потоковых данных. Введите имя в поле Имя (1), а затем выберите Создать (2).

    Screenshot that shows the Name box and the Create button.

    Появится пустая диаграмма потоковых потоков данных.

На следующем снимке экрана показан законченный поток данных. Он выделяет все разделы, доступные для разработки в пользовательском интерфейсе потокового потока данных.

Screenshot that shows an overview of the streaming dataflow UI.

  1. Лента. Разделы на ленте следуют порядку «классического» аналитического процесса: входные данные (также известные как источники данных), преобразования (потоковые операции ETL), выходы и кнопка для сохранения вашего прогресса.

  2. Представление диаграммы. Это графическое представление вашего потока данных, от входов до операций и выходов.

  3. Боковая панель. В зависимости от того, какой компонент вы выбрали в представлении схемы, у вас будут настройки для изменения каждого ввода, преобразования или вывода.

  4. Вкладки для предварительного просмотра данных, ошибок разработки и ошибок времени выполнения. Для каждой показанной карты предварительный просмотр данных покажет вам результаты для этого шага (в реальном времени для входов и по запросу для преобразований и выходов).

    Этот раздел также приводит сводку ошибок и предупреждений, которые могут возникнуть при разработке ваших потоков. Выбор каждой ошибки или предупреждения выберет это преобразование. Кроме того, у вас есть доступ к ошибкам времени выполнения после запуска потока данных, например к отброшенным сообщениям.

    Вы всегда можете минимизировать этот раздел потоковых потоков данных, щелкнув стрелку в правом верхнем углу.

Поток потоковых данных состоит из трех основных компонентов: потоковые входы, преобразования и выходы. Этих компонентов может быть сколько угодно. Можно иметь множество входов, параллельные ветви с множеством преобразований и множество выходов.

Добавить потоковый ввод

Чтобы добавить потоковый ввод, выберите значок на ленте и укажите информацию, необходимую для его настройки на боковой панели. По состоянию на июль 2021 года предварительная версия потоковых потоков данных поддерживает Центры событий Azure и Центр Интернета вещей Azure в качестве входных данных.

Центры событий Azure и службы Центр Интернета вещей Azure построены на общей архитектуре, чтобы облегчить быстрый и масштабируемый прием и использование событий. Центр Интернета вещей, в частности, адаптирован как центральный концентратор сообщений для связи в обоих направлениях между IoT-приложением и подключенными к нему устройствами.

Центры событий Azure

Центры событий Azure представляют собой платформу потоковой передачи больших данных и службу приема событий. Она может получать и обрабатывать миллионы событий в секунду. Данные, отправляемые в концентратор событий, можно преобразовывать и сохранять с помощью любого поставщика аналитики в реальном времени, а также с помощью адаптеров пакетной обработки или хранения.

Чтобы настроить концентратор событий в качестве входа для потоковых потоков данных, выберите значок Концентратор событий. Карточка появляется в представлении схемы, включая боковую панель для ее конфигурации.

Screenshot that shows the side pane for event hub configuration.

У вас есть возможность вставить строку подключения Центров событий. Потоки потоковых данных заполняют всю необходимую информацию, включая необязательную группу потребителей (по умолчанию это $Default). Если вы хотите ввести все поля вручную, вы можете включить переключатель ручного ввода, чтобы открыть их. Дополнительные сведения о строках подключения концентраторов событий можно найти в статье Получение строки подключения Центров событий.

После настройки учетных данных Центров событий и выбора Подключить вы можете добавить поля вручную, используя + Добавить поле, если вы знаете имена полей. Чтобы вместо этого автоматически определять поля и типы данных на основе выборки входящих сообщений, выберите Автоматическое определение полей. Выбор значка шестеренки позволяет при необходимости редактировать учетные данные.

Screenshot that shows input data options.

Когда потоки потоковых данных обнаруживают поля, вы увидите их в списке. Вы также увидите предварительный просмотр входящих сообщений в таблице предварительного просмотра данных под представлением диаграммы.

Вы всегда можете изменить имена полей, удалить или изменить тип данных, выбрав три точки ( ... ) рядом с каждым полем. Вы также можете раскрывать, выбирать и редактировать любые вложенные поля входящих сообщений, как показано на следующем изображении.

Screenshot that shows rename and data type options for input data.

Центр Интернета вещей Azure

Центр Интернета вещей — это управляемая служба, размещенная в облаке. Он действует как центральный концентратор сообщений для связи в обоих направлениях между приложением IoT и подключенными к нему устройствами. Вы можете надежно и безопасно подключить миллионы устройств и их серверные решения. К концентратору Интернета вещей можно подключить практически любое устройство.

Конфигурация Центра Интернета вещей аналогична конфигурации Центров событий из-за их общей архитектуры. Но есть некоторые различия, в том числе где найти строку подключения, совместимую с Центрами событий, для встроенной конечной точки. Вы можете узнать больше о встроенной конечной точке Центра Интернета вещей в статье Чтение сообщений между устройством и облаком из встроенной конечной точки.

Screenshot that shows the side pane for IoT Hub configuration.

После вставки строки подключения для встроенной конечной точки все функции по выбору, добавлению, автоопределению и редактированию полей, поступающих из Центра Интернета вещей, такие же, как и в Центрах событий. Вы также можете изменить учетные данные, щелкнув значок шестеренки.

Совет

Если у вас есть доступ к центрам событий или центру Интернета вещей на портале Azure вашей организации и вы хотите использовать его в качестве входных данных для потока потоковых данных, вы можете найти строки подключения в следующих местах.

Для Центров событий:

  1. В разделе Аналитика выберите Все службы>Центры событий.
  2. Выберите Пространство имен концентраторов событий>Сущности/Центры событий, а затем выберите имя концентратора событий.
  3. В списке Политики общего доступа выберите политику.
  4. Нажмите кнопку Копировать в буфер обмена рядом с полем Первичный ключ строки подключения.

Для Центра Интернета вещей:

  1. В разделе Интернет вещей выберите Все службы>Центры Интернета вещей.
  2. Выберите центр Интернета вещей, к которому вы хотите подключиться, а затем выберите Встроенные конечные точки.
  3. Нажмите кнопку Копировать в буфер обмена рядом с конечной точкой, совместимой с Центрами событий.

При использовании потоковых данных из Центров событий или Центра Интернета вещей у вас есть доступ к следующим полям времени метаданных в потоке потоковых данных.

  • EventProcessedUtcTime: дата и время обработки события.
  • EventEnqueuedUtcTime: дата и время получения события.

Ни одно из этих полей не отображается при предварительном просмотре ввода. Необходимо добавить их вручную.

Хранилище BLOB-объектов

Хранилище BLOB-объектов Azure — это решение корпорации Майкрософт для хранения объектов в облаке. Хранилище BLOB-объектов оптимизировано для хранения огромных объемов неструктурированных данных. Неструктурированные данные — это данные, которые не соответствуют определенной модели данных или определению, например текстовых или двоичных данных.

Большие двоичные объекты Azure можно использовать в качестве входных данных потоковой передачи и ссылки. Большие двоичные объекты потоковой передачи обычно проверяются каждую секунду на наличие обновлений. В отличие от потокового BLOB-объекта, ссылочный BLOB-объект загружается только в начале обновления. Это статические данные, которые не должны изменяться, и рекомендуемое ограничение для которого составляет 50 МБ или меньше.

Предполагается, что эталонные BLOB-объекты будут использоваться вместе с источниками потоковой передачи (например, С помощью join). Таким образом, поток данных потоковой передачи со ссылочным BLOB-объектом также должен иметь источник потоковой передачи.

Конфигурация больших двоичных объектов Azure немного отличается от конфигурации узла Концентратора событий Azure. Чтобы найти строку подключения к BLOB-объектам Azure, следуйте указаниям в разделе "Просмотр ключей доступа к учетной записи" этой статьи "Управление ключами доступа к учетной записи " служба хранилища Azure.

Streaming blob editor box.

После ввода строки подключения к BLOB-объектам необходимо также ввести имя контейнера, а также шаблон пути в каталоге, чтобы получить доступ к файлам, которые необходимо задать в качестве источника для потока данных.

Для больших двоичных объектов потоковой передачи шаблон пути к каталогу должен быть динамическим значением. Эта дата является частью пути к файлу большого двоичного объекта, на который ссылается {date}. Кроме того, звездочка () в шаблоне пути, например. {date}/{time}/.json не будет поддерживаться.

Например, если у вас есть большой двоичный объект с именем ExampleContainer, в котором хранятся вложенные JSON-файлы, где первый уровень — дата создания, а второй — час создания (например, 2021-10-21/16), то входные данные контейнера будут "ExampleContainer", шаблон пути к каталогу будет "{date}/{time}", где можно изменить шаблон даты и времени.

Blob example naming patterns.

После подключения большого двоичного объекта к конечной точке все функциональные возможности для выбора, добавления, автоматического определения и редактирования полей, поступающих из BLOB-объекта Azure, совпадают с значениями в Центрах событий. Вы также можете изменить учетные данные, щелкнув значок шестеренки.

Часто при работе с данными в режиме реального времени данные будут сокращены, а идентификаторы используются для представления объекта. Возможный вариант использования больших двоичных объектов также может быть эталонным для ваших источников потоковой передачи. Эталонные данные позволяют присоединять статические данные к потоковым данным для обогащения потоков для анализа. Давайте рассмотрим краткий пример, когда это будет полезно. Imagine установить датчики в разных универмагах, чтобы измерить, сколько людей въезжают в магазин в определенное время. Обычно идентификатор датчика необходимо объединить в статическую таблицу, чтобы указать, в каком универмаге и в каком расположении находится датчик. Теперь с эталонными данными можно объединить эти данные на этапе приема, чтобы упростить просмотр хранилища с наибольшим объемом выходных данных пользователей.

Примечание

Задание потоковых потоков данных извлекает данные из хранилища BLOB-объектов Azure или ADLS 2-го поколения каждую секунду, если файл BLOB-объекта доступен. В случае, если этот файл недоступен, применяется экспоненциально увеличивающаяся задержка с максимальным значением, равным 90 секундам.

Типы данных

Ниже перечислены доступные типы данных для полей потоков данных потоковой передачи.

  • DateTime: поле даты и времени в формате ISO.
  • Float: десятичное число.
  • Int: целое число.
  • Record: вложенный объект с несколькими записями.
  • String: текст.

Важно!

Типы данных, выбранные для потокового ввода, имеют важные последствия для вашего потокового потока данных. Выберите тип данных как можно раньше в потоке данных, чтобы не останавливать его позже для редактирования.

Добавить преобразование потоковых данных

Преобразования потоковых данных по своей сути отличаются от преобразований пакетных данных. Почти все потоковые данные имеют компонент времени, который влияет на выполнение любых задач по подготовке данных.

Чтобы добавить преобразование потоковых данных в поток данных, щелкните значок преобразования на ленте для этого преобразования. Соответствующая карта будет удалена на диаграмме. После того как вы выберете его, вы увидите боковую панель для этого преобразования, чтобы настроить его.

По состоянию на июль 2021 года потоки потоковых данных поддерживают следующие преобразования потоковой передачи.

Filter

Используйте преобразование Фильтр для фильтрации событий на основе значения поля во входных данных. В зависимости от типа данных (число или текст) преобразование сохранит значения, соответствующие выбранному условию.

Screenshot that shows configuration of the Filter transformation.

Примечание

Внутри каждой карты вы увидите информацию о том, что еще нужно для того, чтобы преобразование было готово. Например, когда вы добавляете новую карту, вы увидите сообщение «Требуется настройка». Если вам не хватает соединителя узла, вы увидите сообщение «Ошибка» или «Предупреждение».

Управление полями

Преобразование Управление полями позволяет добавлять, удалять или переименовывать поля, поступающие из ввода или другого преобразования. Настройки на боковой панели дают вам возможность добавить новое, выбрав Добавить поле или добавив все поля сразу.

Screenshot that shows configuration of the Manage fields transformation.

Совет

После настройки карты представление схемы дает вам представление о настройках самой карты. Например, в области Управление полями на предыдущем изображении вы можете увидеть первые три управляемых поля и присвоенные им новые имена. На каждой карте есть соответствующая информация.

Статистическое

Вы можете использовать преобразование Агрегат для вычисления агрегирования (Sum, Minimum, Maximum или Average) каждый раз, когда в течение определенного периода времени происходит новое событие. Эта операция также позволяет фильтровать или сегментировать агрегат на основе других измерений в данных. В одном преобразовании может быть один или несколько агрегатов.

Чтобы добавить агрегирование, щелкните значок преобразования. Затем подключите вход, выберите агрегирование, добавьте любой фильтр или измерения среза и выберите период времени, в течение которого будет вычисляться агрегирование. В этом примере мы вычисляем сумму дорожных сборов по состоянию, в котором находится транспортное средство, за последние 10 секунд.

Screenshot that shows configuration of the Aggregate transformation.

Чтобы добавить еще одно агрегирование к тому же преобразованию, выберите Добавить агрегатную функцию. Имейте в виду, что фильтр или срез будут применяться ко всем агрегациям в преобразовании.

Join

Используйте преобразование Объединение, чтобы объединить события из двух входов на основе выбранных пар полей. Если вы не выберете пару полей, по умолчанию соединение будет основано на времени. По умолчанию это преобразование отличается от пакетного.

Как и в случае с обычными соединениями, у вас есть разные варианты логики соединения:

  • Внутреннее соединение: включайте только записи из обеих таблиц, в которых совпадает пара. В этом примере номерной знак соответствует обоим входам.
  • Левое внешнее соединение: Включить все записи из левой (первой) таблицы и только записи из второй, которые соответствуют паре полей. Если совпадений нет, поля второго ввода будут пустыми.

Чтобы выбрать тип соединения, щелкните значок предпочтительного типа на боковой панели.

Затем выберите период времени, в течение которого нужно вычислить соединение. В этом примере соединение вычисляется за последние 10 секунд. Имейте в виду, что чем больше период, тем реже будет вывод — и тем больше ресурсов обработки вы будете использовать для преобразования.

По умолчанию включены все поля из обеих таблиц. Префиксы слева (первый узел) и справа (второй узел) в выходных данных помогают различать источник.

Screenshot that shows configuration of the Join transformation.

Group by

Используйте преобразование Группировать по для вычисления агрегатов по всем событиям в пределах определенного временного окна. У вас есть возможность группировать по значениям в одном или нескольких полях. Это похоже на преобразование Агрегирования, но предоставляет больше возможностей для агрегирования. Он также включает более сложные параметры временного окна. Так же как и в случае с Агрегированием, вы можете добавить более одного агрегирования для каждого преобразования.

В этом преобразовании доступны следующие агрегаты: Average, Count, Maximum, Minimum, Percentile (непрерывный и дискретный), Standard Deviation, Sum и Variance.

Чтобы настроить это преобразование

  1. Выберите желаемое агрегирование.
  2. Выберите поле, по которому вы хотите агрегировать.
  3. Выберите необязательное поле для группировки, если вы хотите получить агрегированный расчет по другому измерению или категории (например, по состоянию).
  4. Выберите функцию для временных окон.

Чтобы добавить еще одно агрегирование к тому же преобразованию, выберите Добавить агрегатную функцию. Имейте в виду, что поле Группировать по и оконная функция будут применяться ко всем агрегациям в преобразовании.

Screenshot that shows configuration of the Group by transformation.

Отметка времени для конца временного окна предоставляется как часть вывода преобразования для справки.

В следующем разделе этой статьи объясняется каждый тип временного окна, доступный для этого преобразования.

Union

Используйте преобразование Объединение для соединения двух или более входов для добавления событий с общими полями (с тем же именем и типом данных) в одну таблицу. Несовпадающие поля будут удалены и не будут включены в выходные данные.

Настройка функций временного окна

Временные окна — одна из самых сложных концепций потоковой передачи данных. Эта концепция лежит в основе потоковой аналитики.

С потоковыми потоками данных вы можете настроить временные окна при агрегировании данных в качестве опции для преобразования Группировать по.

Примечание

Имейте в виду, что все выходные результаты для оконных операций рассчитываются в конце временного окна. Результатом окна будет отдельное событие, основанное на агрегатной функции. Это событие будет иметь отметку времени конца окна, и все оконные функции определены с фиксированной длиной.

Diagram that shows three time windows on a graph.

На выбор предлагается пять видов временных окон: вращающийся, скачкообразный, скользящий, сеанс и моментальный снимок.

"Переворачивающееся" окно

Акробатика — наиболее распространенный тип временного окна. Ключевые характеристики переворачивающихся окон заключаются в том, что они повторяются, имеют одинаковую продолжительность и не перекрываются. Событие не может принадлежать более чем одному переворачивающемуся окну.

Diagram of a 10-second tumbling window.

Когда вы настраиваете переворачивающееся окно в потоковых потоках данных, вам необходимо указать продолжительность окна (в данном случае то же самое для всех окон). Вы также можете указать необязательное смещение. По умолчанию переворачивающиеся окна включают конец окна и исключают начало. Вы можете использовать этот параметр, чтобы изменить это поведение, включить события в начало окна и исключить те, которые находятся в конце.

Screenshot that shows duration and offset settings for a tumbling time window.

"Прыгающее" окно

"Прыгающие" окна — это окна, которые делают "прыжок" во времени вперед на фиксированный период. Вы можете думать о них как о вращающихся окнах, которые могут перекрываться и выходить чаще, чем размер окна. События могут принадлежать более чем одному набору результатов для окна скачкообразного изменения. Чтобы сделать окно скачкообразного перехода таким же, как и вращающееся окно, вы можете указать размер скачка таким же, как размер окна.

Diagram that shows a 10-second hopping window.

Когда вы настраиваете окно скачкообразного изменения в потоковых потоках данных, вам необходимо указать продолжительность окна (так же, как и в случае с переворачивающимися окнами). Вам также необходимо указать размер прыжка, который сообщает потокам потоковых данных, как часто вы хотите, чтобы агрегация рассчитывалась для определенной продолжительности.

Параметр смещения в "прыгающих" окнах предназначен для выполнения той же задачи, что и в "переворачивающихся" окнах: определения логики включения и исключения событий в начале и в конце "прыгающего" окна.

Screenshot that shows hop size, duration, and offset settings for a hopping time window.

"Скользящее" окно

Скользящие окна, в отличие от переворачивающихся или скачкообразных окон, вычисляют агрегирование только для моментов времени, когда содержимое окна действительно изменяется. Когда событие входит в окно или выходит из него, вычисляется агрегирование. Таким образом, у каждого окна есть по меньшей мере одно событие. Подобно перескакивающим окнам, события могут принадлежать более чем одному скользящему окну.

Diagram that shows a 10-second sliding window.

Единственный параметр, который вам нужен для скользящего окна, — это продолжительность, потому что сами события определяют, когда окно запускается. Логика смещения не требуется.

Screenshot that shows the duration setting for a sliding time window.

"Сеансовое" окно

"Сеансовое" окно — это наиболее сложный тип. Они группируют события, которые происходят в одинаковое время, отфильтровывая периоды времени, по которым нет данных. Для этого необходимо предоставить следующее.

  • Тайм-аут: сколько ждать, если нет новых данных.
  • Максимальная продолжительность: наибольшее время, в течение которого будет вычисляться агрегирование, если данные продолжают поступать.

Вы также можете определить раздел, если хотите.

Diagram that shows session windows with a five-minute timeout.

Окно сеанса настраивается непосредственно в боковой области для преобразования. Если вы предоставите раздел, агрегация будет группировать события вместе только для одного и того же ключа.

Screenshot that shows the duration, timeout, and partition settings for a session time window.

окно моментального снимка;

Окна моментальных снимков группируют события с одинаковой отметкой времени. В отличие от других окон, снимок не требует никаких параметров, потому что он использует время из системы.

Diagram that shows a snapshot window.

Определение выходных данных

После того как вы будете готовы с входами и преобразованиями, пора определить один или несколько выходов. По состоянию на июль 2021 года потоки потоковых данных поддерживают только один тип вывода: таблицу Power BI.

Этот вывод будет таблицей потока данных (то есть сущностью), которую вы можете использовать для создания отчетов в Power BI Desktop. Вам нужно соединить узлы предыдущего шага с создаваемым вами выходом, чтобы он заработал. После этого все, что вам нужно сделать, это назвать таблицу.

Screenshot that shows configuration of an output table.

После подключения к потоку данных эта таблица будет доступна для создания визуальных элементов, которые обновляются в реальном времени для ваших отчетов.

Предпросмотр данных и ошибки

Потоки потоковых данных предоставляют инструменты, которые помогут вам создавать, устранять неполадки и оценивать производительность вашего конвейера аналитики для потоковой передачи данных.

Начнем с предварительного просмотра данных.

Динамический предпросмотр входных данных

Когда вы подключаетесь к концентратору событий или концентратору IoT и выбираете его карточку в представлении диаграммы (вкладка Предварительный просмотр данных), вы получаете предварительный просмотр поступающих данных в реальном времени, если выполняются все следующие условия.

  • Данные отправляются.
  • Вход настроен правильно.
  • Добавлены поля.

Как показано на следующем снимке экрана, если вы хотите увидеть или детализировать что-то конкретное, вы можете приостановить предварительный просмотр (1). Или вы можете начать заново, если закончите.

Вы также можете просмотреть подробную информацию о конкретной записи («ячейка» в таблице), выбрав ее и затем выбрав Показать/Cкрыть подробности (2). На снимке экрана показан подробный вид вложенного объекта в записи.

Screenshot that shows a live data preview.

Статический предпросмотр преобразований и выходов

После добавления и настройки любых шагов в представлении схемы можно проверить их поведение, нажав кнопку статических данных.

После этого потоки потоковых данных оценивают все преобразования и выходные данные, которые настроены правильно. Затем потоки потоковых данных отображают результаты в предварительном просмотре статических данных, как показано на следующем изображении.

Screenshot that shows a static data preview.

Вы можете обновить предварительный просмотр, выбрав Обновить статический предварительный просмотр (1). Когда вы это делаете, потоки потоковых данных берут новые данные из входа и снова оценивают все преобразования и выходы с любыми обновлениями, которые вы могли выполнить. Также доступна опция Показать/Скрыть детали (2).

Ошибки разработки

Если у вас есть какие-либо ошибки или предупреждения при создании, на вкладке Ошибки разработки (1) они будут перечислены, как показано на следующем снимке экрана. Список включает подробную информацию об ошибке или предупреждении, тип карты (вход, преобразование или выход), уровень ошибки и описание ошибки или предупреждения (2). Когда вы выбираете любую из ошибок или предупреждений, будет выбрана соответствующая карта и откроется боковая панель конфигурации, где вы сможете внести необходимые изменения.

Screenshot that shows a list of authoring errors.

Ошибки среды выполнения

Последняя доступная вкладка в предварительном просмотре — это Ошибки времени выполнения (1), как показано на следующем снимке экрана. На этой вкладке перечислены все ошибки в процессе приема и анализа потокового потока данных после его запуска. Например, вы можете получить ошибку времени выполнения, если сообщение пришло поврежденным, и поток данных не может принять его и выполнить определенные преобразования.

Поскольку потоки данных могут выполняться в течение длительного периода времени, эта вкладка предлагает возможность фильтрации по временному интервалу и загрузки списка ошибок и обновления его при необходимости (2).

Screenshot that shows the tab for runtime errors, along with options for filtering, downloading, and refreshing.

Изменить настройки потоковой передачи данных

Как и в случае с обычными потоками данных, настройки потоковой передачи данных можно изменять в зависимости от потребностей владельцев и авторов. Следующие настройки уникальны для потоковых потоков данных. Что касается остальных настроек, из-за общей инфраструктуры между двумя типами потоков данных вы можете предположить, что их использование одинаково.

Screenshot that shows settings for a streaming dataflow.

  • Журнал обновлений: Поскольку потоковые потоки данных выполняются непрерывно, в журнале обновлений отображается только информация о том, когда поток данных был запущен, когда он был отменен или когда произошел сбой (с подробностями и кодами ошибок, если применимо). Эта информация аналогична той, что отображается для обычных потоков данных. Вы можете использовать эту информацию для устранения проблем или для предоставления запрошенной информации в службу поддержки Power BI.

  • Учетные данные источника данных: Этот параметр показывает входы, которые были настроены для конкретного потока потоковых данных.

  • Усовершенствованные настройки вычислительного механизма: потоковым потокам данных требуется усовершенствованный вычислительный движок для предоставления визуальных эффектов в реальном времени, поэтому этот параметр включен по умолчанию и не может быть изменен.

  • Срок хранения: этот параметр относится к потоковым потокам данных. Здесь вы можете определить, как долго вы хотите хранить данные в реальном времени для визуализации в отчетах. Исторические данные по умолчанию сохраняются в хранилище BLOB-объектов Azure. Этот параметр относится к стороне ваших данных в реальном времени (горячее хранилище). Минимальное значение — 1 день или 24 часа.

    Важно!

    Количество горячих данных, сохраняемых в течение этого срока хранения, напрямую влияет на производительность ваших визуальных элементов в реальном времени, когда вы создаете отчеты на основе этих данных. Чем больше у вас здесь удержания, тем больше на визуальные элементы в реальном времени в отчетах может повлиять низкая производительность. Если вам нужно выполнить исторический анализ, мы рекомендуем вам использовать холодное хранилище, предусмотренное для потоковых потоков данных.

Запуск и редактирование потоковой передачи данных

После сохранения и настройки потокового потока данных все готово для его запуска. Затем вы можете начать ввод данных в Power BI с помощью определенной вами логики потоковой аналитики.

Запуск потока данных потоковой передачи

Чтобы запустить поток потоковых данных, сначала сохраните поток данных и перейдите в рабочую область, где вы его создали. Наведите указатель мыши на поток данных и нажмите появившуюся кнопку воспроизведения. Всплывающее сообщение сообщает, что поток потоковых данных запускается.

Screenshot that shows the play button for starting a streaming dataflow.

Примечание

Может потребоваться до пяти минут, чтобы данные начали приниматься и вы увидели данные, поступающие для создания отчетов и панелей мониторинга в Power BI Desktop.

Редактирование потока данных потоковой передачи

Пока поток потоковых данных запущен, его нельзя редактировать. Но вы можете войти в поток потоковых данных, который находится в рабочем состоянии, и увидеть логику аналитики, на которой построен поток данных.

Когда вы переходите в работающий поток потоковых данных, все параметры редактирования отключаются и отображается сообщение: «Поток данных нельзя редактировать, пока он запущен. Остановите поток данных, если вы хотите продолжить". Предварительный просмотр данных также отключен.

Чтобы отредактировать поток потоковых данных, вы должны его остановить. Остановленный поток данных приведет к отсутствию данных.

Единственный доступ, доступный во время работы потокового потока данных, — это вкладка Ошибки времени выполнения, где вы можете отслеживать поведение своего потока данных на предмет отброшенных сообщений и подобных ситуаций.

Screenshot that shows the disabled data preview when a streaming dataflow is running.

Учитывайте хранение данных при редактировании потока данных

При редактировании потока данных необходимо учитывать и другие соображения. Подобно любым изменениям в схеме для обычных потоков данных, если вы внесете изменения в выходную таблицу, вы потеряете данные, которые уже были отправлены и сохранены в Power BI. Интерфейс предоставляет четкую информацию о последствиях любого из этих изменений в потоке потоковых данных, а также варианты изменений, которые вы делаете перед сохранением.

Этот опыт лучше показать на примере. На следующем снимке экрана показано сообщение, которое вы получите после добавления столбца в одну таблицу, изменения имени для второй таблицы и оставления третьей таблицы такой же, как и раньше.

Screenshot that shows a message about data changes after edits.

В этом примере данные, уже сохраненные в обеих таблицах, в которых были изменены схема и имя, будут удалены, если вы сохраните изменения. Для таблицы, которая осталась прежней, вы можете удалить любые старые данные и начать с нуля или сохранить их для последующего анализа вместе с новыми данными, которые поступают.

Необходимо учитывать эти нюансы при редактировании потоков данных потоковой передачи, особенно если вы собираетесь анализировать исторические данные позже.

Использование потока данных потоковой передачи

После запуска потока потоковых данных вы готовы приступить к созданию контента поверх потоковых данных. Нет никаких структурных изменений по сравнению с тем, что вам нужно сделать в настоящее время для создания отчетов, которые обновляются в реальном времени. Но есть некоторые нюансы и обновления, которые следует учитывать, чтобы вы могли воспользоваться этим новым типом подготовки данных для потоковой передачи данных.

Настроить хранилище данных

Как мы упоминали ранее, потоковые потоки данных сохраняют данные в следующих двух местах. Использование этих источников зависит от того, какой тип анализа вы пытаетесь провести.

  • Горячее хранилище (анализ в реальном времени) : По мере того, как данные поступают в Power BI из потоковых потоков данных, данные хранятся в горячем месте, к которому вы можете получить доступ с помощью визуальных элементов в реальном времени. Сколько данных сохраняется в этом хранилище, зависит от значения, которое вы определили для Срока хранения в настройках потоковой передачи данных. По умолчанию (и минимум) — 24 часа.
  • Холодное хранение (исторический анализ) : любой период времени, который не попадает в период, который вы определили для Срока хранения, сохраняется в холодном хранилище (больших двоичных объектах) в Power BI, чтобы вы могли использовать его при необходимости.

Примечание

Эти два места хранения данных частично совпадают. Если вам нужно использовать оба местоположения вместе (например, процентное изменение от дня к дню), вам, возможно, придется дедублировать ваши записи. Это зависит от выполняемых вами расчетов времени и политики хранения.

Подключение к потокам данных потоковой передачи из Power BI Desktop

В выпуске Power BI Desktop за июль 2021 г. доступен новый соединитель с именем Dataflows . В рамках этого нового коннектора для потоковых потоков данных вы увидите две таблицы, соответствующие описанному ранее хранилищу данных.

Чтобы подключиться к вашим данным для потоковой передачи данных

  1. Перейдите к разделу "Получить данные", найдите power platform и выберите соединитель потоков данных .

    Screenshot that shows where to find the Power Platform dataflows (Beta) connector in Power B I Desktop.

  2. Войдите в систему, используя свои учетные данные Power BI.

  3. Выберите рабочие области. Найдите тот, который содержит ваш поток данных потоковой передачи, и выберите этот поток данных. (В этом примере поток потоковых данных называется Платным.)

  4. Обратите внимание, что все ваши выходные таблицы отображаются дважды: одна для потоковых данных (горячая) и одна для архивных данных (холодная). Вы можете отличить их по меткам, добавленным после имен таблиц, и по значкам.

    Screenshot that shows output tables for streaming dataflows in Power B I Desktop.

  5. Подключитесь к потоковой передаче данных. Вариант архивных данных такой же, доступен только в режиме импорта. Выберите таблицы с метками Потоковая передача и Горячий уровень доступа, а затем выберите Загрузить.

    Screenshot that shows hot output tables selected for streaming dataflows in Power B I Desktop.

  6. Когда вас попросят выбрать режим хранения, выберите DirectQuery, если ваша цель — создавать визуальные эффекты в реальном времени.

    Screenshot that shows the storage mode selected for streaming dataflows in Power B I Desktop.

Теперь вы можете создавать визуальные элементы, меры и многое другое, используя функции, доступные в Power BI Desktop.

Примечание

Обычный соединитель потоков данных Power BI по-прежнему доступен и будет работать с потоковыми потоками данных с двумя оговорками.

  • он позволяет подключаться только к горячему хранилищу;
  • предварительный просмотр данных в соединителе не работает с потоками данных потоковой передачи.

Включение автоматического обновления страниц для визуальных элементов в режиме реального времени

После того как ваш отчет будет готов и вы добавите весь контент, которым хотите поделиться, остается единственный шаг — убедиться, что ваши визуальные эффекты обновляются в реальном времени. Для этого вы можете использовать функцию, называемую автоматическим обновлением страницы. Эта функция позволяет обновлять визуальные элементы из источника DirectQuery с частотой в одну секунду.

Дополнительные сведения о функции см. в разделе Автоматическое обновление страницы в Power BI. Эта информация включает в себя сведения о том, как его использовать, как настроить и как связаться со своим администратором, если у вас возникнут проблемы. Ниже приведены основные сведения о настройке.

  1. Перейдите на страницу отчета, где вы хотите, чтобы визуальные элементы обновлялись в режиме реального времени.

  2. Очистите все визуальные элементы на странице. Если возможно, выберите фон страницы.

  3. Перейдите на панель форматирования (1) и включите переключатель Обновления страницы (2).

    Screenshot that shows selections for turning on automatic page refresh.

  4. Установите желаемую частоту (до каждой секунды, если это разрешил администратор) и наслаждайтесь обновлениями визуальных элементов в реальном времени.

    Screenshot that shows frequency settings for automatic page refresh.

  5. Чтобы поделиться отчетом в реальном времени, сначала опубликуйте его в службе Power BI. Затем вы можете настроить свои учетные данные для потока данных для набора данных и поделиться им.

Совет

Если ваш отчет обновляется не так быстро, как вам нужно, или в режиме реального времени, проверьте документацию на автоматическое обновление страницы. Следуйте часто задаваемым вопросам и инструкциям по устранению неполадок, чтобы выяснить, почему может возникнуть эта проблема.

Рекомендации и ограничения

Общие ограничения

  • Подписка Power BI Premium (емкость или PPU) требуется для создания и запуска потоков потоковых данных.
  • Для каждой рабочей области допускается только один тип потока данных.
  • Связывание обычных потоков данных и потоков данных потоковой передачи невозможно.
  • Емкости меньше A3 не позволяют использовать потоки потоковых данных.
  • Если потоки данных или усовершенствованный механизм вычислений не включены в клиенте, вы не сможете создавать или запускать потоковые потоки данных.
  • Рабочие области, подключенные к учетной записи хранения, не поддерживаются.
  • Каждый поток потоковых данных может обеспечивать пропускную способность до 1 мегабайта в секунду.

Доступность

Предварительный просмотр потоковых данных недоступен в следующих регионах.

  • Центральная Индия
  • Северная Германия
  • Восточная Норвегия;
  • Западная Норвегия
  • Центральная часть ОАЭ.
  • Северная часть ЮАР;
  • Западная часть ЮАР
  • Северная Швейцария
  • Западная Швейцария
  • Юго-Восточная Бразилия

Лицензирование

Количество потоков потоковых данных, разрешенных для каждого клиента, зависит от используемой лицензии.

  • Для обычных емкостей используйте следующую формулу для расчета максимального количества потоков данных, разрешенных в емкости.

    Максимальное количество потоков данных потоковой передачи на емкость = количество виртуальных ядер в емкости x 5

    Например, P1 имеет 8 виртуальных ядер: 8 * 5 = 40 потоковых потоков данных.

  • Для Премиум на пользователя разрешен один поток потоковых данных для каждого пользователя. Если другой пользователь хочет использовать поток потоковых данных в рабочем пространстве PPU, ему также понадобится лицензия PPU.

Создание потоков данных

Когда вы разрабатываете потоки потоковых данных, помните о следующих соображениях.

  • Потоки потоковых данных могут быть изменены только их владельцами и только в том случае, если они не запущены.
  • Потоки потоковых данных недоступны в Моя рабочая область.

Подключение из Power BI Desktop

Вы можете получить доступ к холодному хранилищу только с помощью соединителя потоков данных Power Platform (бета) , доступного начиная с июльского обновления Power BI Desktop 2021 года. Существующий соединитель потоков данных Power BI позволяет подключаться только к хранилищу потоковых данных (горячему). Предварительный просмотр данных коннектора не работает.

Дальнейшие действия

В этой статье представлен обзор самостоятельной подготовки потоковых данных с использованием потоковых данных. В следующих статьях представлена информация о том, как протестировать эту возможность и как использовать другие функции потоковой передачи данных в Power BI.