Interakcyjne wykonywanie zapytań za pomocą usługi HDInsight

Data Factory
Data Lake Storage
HDInsight
Power BI

Pomysł na rozwiązanie

Jeśli chcesz, abyśmy rozszerzyli ten artykuł o więcej informacji, takich jak potencjalne przypadki użycia, alternatywne usługi, zagadnienia dotyczące implementacji lub wskazówki dotyczące cen, daj nam znać, GitHub opinie!

Szybkie, interaktywne zapytania SQL na dużą skalę na podstawie danych ze strukturą lub bez struktury za pomocą Apache Hive LLAP na Azure HDInsight.

Architektura

Diagram architektury Pobierz format SVG tej architektury.

Przepływ danych

  1. Przenoszenie danych między chmurą platformy Azure lub dowolną inną chmurą spoza platformy Azure przy użyciu Azure Data Factory
  2. Tworzenie strefy docelowej danych przy użyciu usługi Azure Data Lake Gen2, która jest również podstawowym kontem magazynu dla klastra hadoop usługi Azure HDInsights
  3. Uruchamianie procedur ELT przy użyciu Azure Data Factory lub Hive w celu przekształcania danych przychodzących w systemie plików HDFS
  4. Tworzenie tabel zewnętrznych w programie Hive przy użyciu tych danych w systemie plików HDFS
  5. Używanie Power BI do interpretowania tych danych i tworzenia nowych wizualizacji

Składniki

  • Azure Data Factory to hybrydowa usługa integracji danych, która umożliwia tworzenie, planowanie i organizowanie przepływów pracy ETL/ELT.
  • Usługa Azure Data Lake Storage to zestaw funkcji, takich jak semantyka systemu plików i zabezpieczenia na poziomie plików przeznaczone do analizy danych big data, które są wbudowane w usługę Azure Blob Storage.
  • Azure HDInsight przetwarzanie ogromnych ilości danych jest łatwe, szybkie i ekonomiczne. Można używać z nią najpopularniejszych platform typu „open source” takich jak Hadoop, Spark, Hive, LLAP, Kafka, Storm, R i nie tylko.
  • Power BI to zestaw narzędzi do analizy biznesowej, które zapewniają szczegółowe informacje w całej organizacji. Połączenie do setek źródeł danych, uprościć wstępne przetwarzanie danych i prowadzić analizę adhoc.

Zobacz też

  • Tworzenie potoku danych w celu uzyskania szczegółowych informacji o sprzedaży w Azure HDInsight tworzenie potoku danych typu end-to-end, który wykonuje operacje wyodrębniania, przekształcania i ładowania (ETL).
  • Visualize Apache Hive data with Microsoft Power BI learn how to connect Microsoft Power BI Desktop to Azure HDInsight using ODBC and visualize Apache Hive data (Wizualizowanie danych Power BI Desktop Microsoft Azure HDInsight ODBC i wizualizowanie Apache Hive danych.
  • Apache Hive i HiveQL na platformie Azure HDInsight to system magazynu danych dla usługi Apache Hadoop. Program Hive umożliwia podsumowywowanie, wykonywanie zapytań i analizowanie danych. Zapytania Hive są pisane w języku HiveQL, który jest językiem zapytań podobnym do SQL.