Потоковая передача данных из большого двоичного объекта службы хранилища Azure в Azure Data Lake Storage 1-го поколения с помощью Azure Stream Analytics

Статья
05/30/2018

Из этой статьи вы узнаете, как использовать Azure Data Lake Storage 1-го поколения в качестве целевого объекта для выходных данных задания Azure Stream Analytics. В этой статье показан простой сценарий, в котором данные считываются из большого двоичного объекта службы хранилища Azure (входные данные) и записываются в Data Lake Storage 1-го поколения (выходные данные).

Предварительные требования

Перед началом работы с этим учебником необходимо иметь следующее:

Подписка Azure. См. страницу бесплатной пробной версии Azure.
Учетная запись хранения Azure. Контейнер больших двоичных объектов из этой учетной записи будет использоваться для ввода данных для задания Stream Analytics. Для работы с этим руководством предполагается, что у вас есть учетная запись хранилища с именем storageforasa, а в ней — контейнер с именем storageforasacontainer. После создания контейнера отправьте в него образец файла данных.
Учетная запись Data Lake Storage 1-го поколения. Следуйте инструкциям из статьи Начало работы с Azure Data Lake Storage Gen1 с помощью портала Azure. Предположим, у вас есть учетная запись Data Lake Storage 1-го поколения myadlsg1.

Создание задания Stream Analytics

Для начала нужно создать задание Stream Analytics с источником входных данных и целевым объектом для выходных данных. В этом руководстве источником является контейнер больших двоичных объектов Azure, а целевым объектом — Data Lake Storage 1-го поколения.

Выполните вход на портал Azure.
В области слева щелкните Задания Stream Analytics, а затем нажмите кнопку Добавить.

Примечание

Следите за тем, чтобы задание создавалось в той же области, в которой расположена учетная запись хранения. Иначе вам придется заплатить за перемещение данных между регионами.

Создание входных данных большого двоичного объекта для задания

Откройте страницу задания Stream Analytics, на панели слева перейдите на вкладку Входные данные и выберите команду Добавить.
В колонке Создание входных данных введите следующие значения.
- Входной псевдоним — введите уникальное имя для этих входных данных задания.
- Тип источника — выберите Поток данных.
- Источник — выберите Хранилище больших двоичных объектов.
- Подписка — выберите Использовать хранилище BLOB-объектов из текущей подписки.
- Учетная запись хранилища — выберите учетную запись, которую вы создали при подготовке необходимых условий.
- Контейнер — выберите контейнер, который вы создали в этой учетной записи.
- Формат сериализации событий — выберите CSV.
- Разделитель — выберите Табуляция.
- Кодировка — выберите UTF-8.
  
  Нажмите кнопку Создать. Портал добавит входные данные и проверит подключение к ним.

Создание выходных данных Data Lake Storage 1-го поколения для задания

Откройте страницу задания Stream Analytics, перейдите на вкладку Выходные данные, щелкните Добавить и выберите Data Lake Storage 1-го поколения.
В колонке Новые выходные данные введите следующие значения.
- Выходной псевдоним — введите уникальное имя для этих выходных данных задания. Это понятное имя, которое используется в запросах для направления выходных данных запроса в соответствующую учетную запись Data Lake Storage 1-го поколения.
- Появится запрос на авторизацию доступа к учетной записи Data Lake Storage 1-го поколения. Щелкните Авторизовать.
В колонке Новые выходные данные продолжайте ввод значений.
- Имя учетной записи — выберите учетную запись Data Lake Storage 1-го поколения, которую вы создали там, куда хотите отправлять результаты задания.
- Шаблон префикса в пути — введите путь для сохранения файлов в указанной учетной записи Data Lake Storage 1-го поколения.
- Формат даты — если в префиксе пути используется маркер даты, вы можете выбрать формат даты для упорядочивания своих файлов.
- Формат времени — если в префиксе пути используется маркер времени, вы можете выбрать формат времени для упорядочивания своих файлов.
- Формат сериализации событий — выберите CSV.
- Разделитель — выберите Табуляция.
- Кодировка — выберите UTF-8.
  
  Нажмите кнопку Создать. Портал добавит выходные данные и проверит подключение к ним.

Выполнение задания Stream Analytics

Чтобы выполнить задание Stream Analytics, нужно запустить выполнение запроса на вкладке Запрос. В этом руководстве предложен пример запроса, в котором вы можете заменить заполнители псевдонимами входных и выходных данных задания, как показано на снимке экрана ниже.
Щелкните Сохранить в верхней части экрана, а затем на вкладке Обзор щелкните Запустить. В диалоговом окне выберите Настраиваемое время и установите текущие дату и время.

Щелкните Пуск, чтобы начать задание. Для запуска задания может потребоваться несколько минут.
Чтобы запустить задание выбора данных из большого двоичного объекта, скопируйте образец файла данных в контейнер больших двоичных объектов. Его можно получить из репозитория Git Azure Data Lake. В нашем примере мы скопируем файл vehicle1_09142014.csv. Чтобы передать данные в контейнер больших двоичных объектов, можно использовать различные клиенты, например обозреватель хранилищ Azure.
На вкладке Обзор в разделе Мониторинг можно наблюдать за ходом обработки данных.
А теперь можно проверить, появились ли выходные данные задания в учетной записи Data Lake Storage 1-го поколения.

В области обозревателя данных Azure Data Explorer можно увидеть, что выходные данные записаны в папку, указанную в параметрах выходных данных Data Lake Storage 1-го поколения (streamanalytics/job/output/{date}/{time}).

См. также раздел

Создание кластера HDInsight для работы с Data Lake Storage 1-го поколения