Запись данных из Центров событий в формате Parquet

В этой статье объясняется, как использовать редактор без кода для автоматического сбора данных потоковой передачи в Центрах событий в учетной записи Azure Data Lake Storage 2-го поколения в формате Parquet.

Предварительные требования

  • Пространство имен Центры событий Azure с концентратором событий и учетной записью Azure Data Lake Storage 2-го поколения с контейнером для хранения захваченных данных. Эти ресурсы должны быть общедоступными и не могут находиться за брандмауэром или быть защищенными в виртуальной сети Azure.

    Если у вас нет концентратора событий, создайте его, следуя инструкциям из статьи Краткое руководство. Создание концентратора событий.

    Если у вас нет учетной записи Data Lake Storage 2-го поколения, создайте ее, следуя инструкциям из статьи Создание учетной записи хранения.

  • Данные в Центрах событий должны быть сериализованы в формате JSON, CSV или Avro. В целях тестирования выберите Создать данные (предварительная версия) в меню слева, выберите Запасы данных для набора данных, а затем нажмите кнопку Отправить.

    Снимок экрана: страница

Настройка задания для записи данных

Чтобы настроить задание Stream Analytics для записи данных в Azure Data Lake Storage 2-го поколения, выполните следующие действия.

  1. На портале Azure перейдите к концентратору событий.

  2. В меню слева выберите Обработка данных в разделе Компоненты. Затем нажмите кнопку Пуск в карта Запись данных в ADLS 2-го поколения в формате Parquet.

    Снимок экрана: карточки для начала обработки данных Центров событий.

  3. Введите имя задания Stream Analytics и нажмите кнопку Создать.

    Снимок экрана: окно

  4. Укажите тип сериализации данных в Центрах событий и метод проверки подлинности , который задание использует для подключения к Центрам событий. В этом случае выберите Подключиться.

    Снимок экрана: конфигурация подключения Центров событий.

  5. После успешной установки подключения вы увидите:

    • Наличие полей во входных данных. Вы можете нажать кнопку Добавить поле или выбрать символ с тремя точками рядом с каждым полем, чтобы при необходимости удалить, переименовать его или изменить его имя.

    • Динамический пример входящих данных в таблице Предварительный просмотр данных в представлении диаграммы. Он периодически обновляется. Вы можете выбрать Приостановить предварительный просмотр потоковой передачи, чтобы просмотреть статическое представление примера входных данных.

      Снимок экрана: пример данных на вкладке

  6. Выберите плитку Azure Data Lake Storage 2-го поколения, чтобы изменить конфигурацию.

  7. На странице настройки Azure Data Lake Storage 2-го поколения сделайте следующее:

    1. В раскрывающемся меню выберите подписку, имя учетной записи хранения и контейнер.

    2. После выбора подписки значения для способа проверки подлинности и ключа учетной записи хранения должны быть заданы автоматически.

    3. Выберите Parquet для параметра Формат сериализации .

      Снимок экрана: страница конфигурации Data Lake Storage 2-го поколения.

    4. Для потоковой передачи больших двоичных объектов шаблон пути к каталогу должен представлять собой динамическое значение. Дата должна быть частью пути к файлу для большого двоичного объекта, на который ссылаются как {date}. Дополнительные сведения о пользовательских шаблонах путей см. в статье Секционирование выходных данных пользовательского большого двоичного объекта Azure Stream Analytics.

      Снимок экрана: окно

    5. Щелкните Подключиться.

  8. После установки подключения вы увидите поля, которые присутствуют в выходных данных.

  9. Выберите команду Сохранить на панели команд, чтобы сохранить конфигурацию.

    Снимок экрана: кнопка

  10. Выберите команду Запустить на панели команд, чтобы запустить потоковую передачу для записи данных. Затем в окне запуска задания Stream Analytics выполните следующие действия.

    1. Выберите время начала создания выходных данных.

    2. Выберите тарифный план.

    3. Выберите число единиц потоковой передачи, с которыми выполняется задание. Единицы потоковой передачи представляют вычислительные ресурсы, выделяемые для выполнения задания Stream Analytics. Дополнительные сведения см. в разделе Единицы потоковой передачи в Azure Stream Analytics.

      Снимок экрана: окно

  11. Задание Stream Analytics должно появиться на вкладке Задания Stream Analytics на странице Обработка данных для концентратора событий.

    Снимок экрана: задание Stream Analytics на странице

Проверка выходных данных

  1. На странице экземпляра Центров событий для концентратора событий выберите Создать данные, Выберите Данные о запасах для набора данных, а затем нажмите кнопку Отправить , чтобы отправить некоторые примеры данных в концентратор событий.

  2. Убедитесь, что файлы Parquet создаются в контейнере Azure Data Lake Storage.

    Снимок экрана: созданные файлы Parquet в контейнере ADLS.

  3. Выберите Обработка данных в меню слева. Перейдите на вкладку Задания Stream Analytics . Выберите Открыть метрики , чтобы отслеживать их.

    Снимок экрана: выделенная ссылка

    Ниже приведен пример снимка экрана метрик с событиями ввода и вывода.

    Снимок экрана: метрики задания Stream Analytics.

Дальнейшие действия

Теперь вы знаете, как использовать бескодовый редактор Stream Analytics для создания задания, которое записывает данные Центров событий в Azure Data Lake Storage 2-го поколения в формате Parquet. Теперь вы можете ознакомиться с более подробной информацией о Azure Stream Analytics и о том, как выполнять мониторинг созданного задания.