Анализ задач специалиста по инжинирингу данных

Ниже представлен пример комплексного подхода к разработке проекта инжиниринга данных, предусматривающего пять этапов: источник, прием, подготовка, анализ и использование.

Здравоохранительное учреждение Contoso Health Network недавно развернуло устройства Интернета вещей в своем реанимационном отделении. Цели проекта следующие:

  • сбор данных мониторинга биометрических показателей пациентов в реальном времени с целью помочь врачам в лечении пациентов;
  • сохранение биометрических данных для дальнейшего анализа в исследовательском центре Contoso;
  • определение методов ухода и лечения, которые улучшают качество обслуживания и снижают вероятность повторной госпитализации, с помощью Машинного обучения Azure;
  • визуализация истории данных для главврача Contoso.

Рассмотрев поставленную задачу, технический архитектор учреждения Contoso предлагает следующие технологии:

  • Центр Интернета вещей Azure — для записи данных в режиме реального времени с устройств Интернета вещей в реанимационном отделении.
  • Azure Stream Analytics — для потоковой передачи и обогащения данных Интернета вещей, создания окон, агрегирования и интеграции Машинного обучения Azure.
  • Azure Data Lake Storage 2-го поколения — для оперативного сохранения биометрических данных.
  • Фабрика данных Azure — для выполнения процесса ELTL (извлечение, загрузка, преобразование и загрузка) с целью перемещения данных из Data Lake Store в Хранилище данных SQL Azure.
  • Хранилище данных SQL Azure — для предоставления служб хранения данных, позволяющих выполнить требования главврача.
  • Power BI — для создания панели мониторинга пациентов. Часть этой панели мониторинга будет содержать данные телеметрии реального времени о состоянии пациента. В другой части будут отражаться сведения о состоянии пациента из журнала.
  • Машинное обучение Azure — для обработки необработанных и агрегированных данных. Исследователи будут использовать это решение для прогнозной аналитики в отношении повторной госпитализации пациентов.

Специалист по инжинирингу данных Contoso создает план работы для реализации операций ELTL. Он включает в себя рабочий процесс подготовки и комплексный рабочий процесс.

Рабочий процесс подготовки:

  1. Подготовьте Azure Data Lake Storage 2-го поколения.
  2. Подготовьте Хранилище данных SQL Azure.
  3. Подготовьте Центр Интернета вещей Azure.
  4. Подготовьте Azure Stream Analytics.
  5. Подготовьте Машинное обучение Azure.
  6. Подготовьте Фабрику данных Azure.
  7. Подготовьте Power BI.

Комплексный рабочий процесс:

  1. Настройте Центр Интернета вещей Azure для записи данных с устройств Интернета вещей в реанимационном отделении.
  2. Подключите Центр Интернета вещей Azure к Azure Stream Analytics. Настройте функции создания окон для данных реанимационного отделения. Они будут агрегировать данные для каждого окна. Одновременно настройте Центр Интернета вещей для потоковой передачи данных в Azure Data Lake Storage с помощью Функций Azure.
  3. Настройте Функции Azure для сохранения агрегатов Azure Stream Analytics в Azure Data Lake Storage 2-го поколения.
  4. Используйте Фабрику данных Azure для загрузки данных из Data Lake в Хранилище данных SQL Azure, чтобы выполнить требования главврача. Загруженные в Хранилище данных SQL Azure данные могут преобразовываться.
  5. Параллельно подключите службу Машинного обучения Azure к Azure Data Lake Storage для осуществления прогнозной аналитики.
  6. Подключите Power BI к Stream Analytics, чтобы извлекать агрегаты реального времени для данных пациента. Подключите Хранилище данных SQL, чтобы извлекать исторические данные для создания комбинированной панели мониторинга.

На схеме ниже показана общая структура решения.

Обобщенная схема архитектуры решения