Запись данных из Центров событий в формате Parquet

Статья
08/16/2023

В этой статье объясняется, как использовать редактор без кода для автоматического сбора данных потоковой передачи в Центрах событий в учетной записи Azure Data Lake Storage 2-го поколения в формате Parquet.

Предварительные требования

Пространство имен Центры событий Azure с концентратором событий и учетной записью Azure Data Lake Storage 2-го поколения с контейнером для хранения захваченных данных. Эти ресурсы должны быть общедоступными и не могут находиться за брандмауэром или быть защищенными в виртуальной сети Azure.

Если у вас нет концентратора событий, создайте его, следуя инструкциям из статьи Краткое руководство. Создание концентратора событий.

Если у вас нет учетной записи Data Lake Storage 2-го поколения, создайте ее, следуя инструкциям из статьи Создание учетной записи хранения.
Данные в Центрах событий должны быть сериализованы в формате JSON, CSV или Avro. В целях тестирования выберите Создать данные (предварительная версия) в меню слева, выберите Запасы данных для набора данных, а затем нажмите кнопку Отправить.

Настройка задания для записи данных

Чтобы настроить задание Stream Analytics для записи данных в Azure Data Lake Storage 2-го поколения, выполните следующие действия.

На портале Azure перейдите к концентратору событий.
В меню слева выберите Обработка данных в разделе Компоненты. Затем нажмите кнопку Пуск в карта Запись данных в ADLS 2-го поколения в формате Parquet.
Введите имя задания Stream Analytics и нажмите кнопку Создать.
Укажите тип сериализации данных в Центрах событий и метод проверки подлинности , который задание использует для подключения к Центрам событий. В этом случае выберите Подключиться.
После успешной установки подключения вы увидите:
- Наличие полей во входных данных. Вы можете нажать кнопку Добавить поле или выбрать символ с тремя точками рядом с каждым полем, чтобы при необходимости удалить, переименовать его или изменить его имя.
- Динамический пример входящих данных в таблице Предварительный просмотр данных в представлении диаграммы. Он периодически обновляется. Вы можете выбрать Приостановить предварительный просмотр потоковой передачи, чтобы просмотреть статическое представление примера входных данных.
Выберите плитку Azure Data Lake Storage 2-го поколения, чтобы изменить конфигурацию.
На странице настройки Azure Data Lake Storage 2-го поколения сделайте следующее:
1. В раскрывающемся меню выберите подписку, имя учетной записи хранения и контейнер.
2. После выбора подписки значения для способа проверки подлинности и ключа учетной записи хранения должны быть заданы автоматически.
3. Выберите Parquet для параметра Формат сериализации .
4. Для потоковой передачи больших двоичных объектов шаблон пути к каталогу должен представлять собой динамическое значение. Дата должна быть частью пути к файлу для большого двоичного объекта, на который ссылаются как {date}. Дополнительные сведения о пользовательских шаблонах путей см. в статье Секционирование выходных данных пользовательского большого двоичного объекта Azure Stream Analytics.
5. Щелкните Подключиться.
После установки подключения вы увидите поля, которые присутствуют в выходных данных.
Выберите команду Сохранить на панели команд, чтобы сохранить конфигурацию.
Выберите команду Запустить на панели команд, чтобы запустить потоковую передачу для записи данных. Затем в окне запуска задания Stream Analytics выполните следующие действия.
1. Выберите время начала создания выходных данных.
2. Выберите тарифный план.
3. Выберите число единиц потоковой передачи, с которыми выполняется задание. Единицы потоковой передачи представляют вычислительные ресурсы, выделяемые для выполнения задания Stream Analytics. Дополнительные сведения см. в разделе Единицы потоковой передачи в Azure Stream Analytics.
Задание Stream Analytics должно появиться на вкладке Задания Stream Analytics на странице Обработка данных для концентратора событий.

Проверка выходных данных

На странице экземпляра Центров событий для концентратора событий выберите Создать данные, Выберите Данные о запасах для набора данных, а затем нажмите кнопку Отправить , чтобы отправить некоторые примеры данных в концентратор событий.
Убедитесь, что файлы Parquet создаются в контейнере Azure Data Lake Storage.
Выберите Обработка данных в меню слева. Перейдите на вкладку Задания Stream Analytics . Выберите Открыть метрики , чтобы отслеживать их.

Ниже приведен пример снимка экрана метрик с событиями ввода и вывода.

Дальнейшие действия

Теперь вы знаете, как использовать бескодовый редактор Stream Analytics для создания задания, которое записывает данные Центров событий в Azure Data Lake Storage 2-го поколения в формате Parquet. Теперь вы можете ознакомиться с более подробной информацией о Azure Stream Analytics и о том, как выполнять мониторинг созданного задания.

Share via

Запись данных из Центров событий в формате Parquet

Предварительные требования

Настройка задания для записи данных

Проверка выходных данных

Дальнейшие действия

Дополнительные ресурсы