Интерактивные запросы в HDInsight

Фабрика данных
Data Lake Storage
HDInsight
Power BI

Концепция решения

если вы хотите узнать больше о том, как получить дополнительные сведения о возможных вариантах использования, альтернативных службах, рекомендациях по реализации или ценах, сообщите нам о GitHub.

быстрое интерактивное SQL, например запросы с масштабированием структурированных или неструктурированных данных с помощью Apache Hive LLAP в Azure HDInsight.

Architecture

Схема архитектуры . Скачайте SVG этой архитектуры.

Поток данных

  1. Перемещение данных между облаком Azure или любым другим облаком, не использующим Azure, с помощью фабрики данных Azure
  2. Создайте зону размещения данных с помощью службы Azure Data Lake Gen2, которая также является первичной учетной записью хранения для кластера Hadoop Azure HDInsight.
  3. Выполнение процедур ELT с помощью фабрики данных Azure или Hive для преобразования входящих данных в HDFS
  4. Создание внешних таблиц в Hive с помощью этих данных в HDFS
  5. используйте Power BI для интерпретации этих данных и создания новых визуализаций

Компоненты

  • Фабрика данных Azure — это гибридная служба интеграции данных, которая позволяет создавать, планировать и координировать рабочие процессы ETL/ELT.
  • Azure Data Lake Storage — это набор возможностей, таких как семантика файловой системы, и защита на уровне файлов, предназначенная для аналитики больших данных, созданной в хранилище Blob-объектов Azure.
  • Azure HDInsight позволяет легко, быстро и экономично обрабатывать большие объемы данных. Вы можете использовать такие популярные платформы с открытым кодом, как Hadoop, Spark, Hive, LLAP, Kafka, Storm, R и другие.
  • Power BI — это набор инструментов бизнес-аналитики, которые обеспечивают целостное представление обо всей вашей организации. Подключение к сотням источников данных, упрощению подготовки данных и нерегламентированному анализу.

См. также: