Interactieve query's uitvoeren met HDInsight

Data Factory
Data Lake Storage
HDInsight
Power BI

Oplossingsidee

Als u wilt dat we dit artikel uitbreiden met meer informatie, zoals mogelijke use cases, alternatieve services, implementatieoverwegingen of prijsinformatie, laat het ons dan weten met GitHub Feedback!

Voer snelle, interactieve SQL zoals query's op schaal uit over gestructureerde of ongestructureerde gegevens met Apache Hive LLAP op Azure HDInsight.

Architectuur

Architectuurdiagram Download een SVG van deze architectuur.

Gegevensstroom

  1. Gegevens verplaatsen tussen een Azure-cloud of een andere niet-Azure-cloud met behulp van Azure Data Factory
  2. Een gegevenslandingszone maken met behulp van de Azure Data Lake Gen2-service. Dit is ook het primaire opslagaccount voor het Hadoop-cluster van Azure HDInsights
  3. ELT-procedures uitvoeren met behulp Azure Data Factory of Hive om binnenkomende gegevens in HDFS te transformeren
  4. Externe tabellen in Hive maken met behulp van deze gegevens in HDFS
  5. Gebruik Power BI om deze gegevens te interpreteren en nieuwe visualisaties te maken

Onderdelen

  • Azure Data Factory is een hybride gegevensintegratieservice waarmee u uw ETL-/ELT-werkstromen kunt maken, plannen en beheren.
  • Azure Data Lake Storage is een set mogelijkheden zoals semantiek van het bestandssysteem en beveiliging op bestandsniveau die is toegewezen aan big data-analyses die zijn gebouwd op Azure Blob Storage.
  • Azure HDInsight maakt het eenvoudig, snel en rendabel om enorme hoeveelheden gegevens te verwerken. U kunt de populairste opensourcekaders gebruiken, zoals Hadoop, Spark, Hive, LLAP, Kafka, Storm, R enz.
  • Power BI is een suite met hulpprogramma's voor bedrijfsanalyse die inzichten in uw organisatie bieden. Verbinding maken honderden gegevensbronnen, vereenvoudigt de gegevensvoorbereiding en maakt ad-hoc-analyse mogelijk.

Zie ook

  • Maak een gegevenspijplijn om verkoopinzichten af te leiden in Azure HDInsight een end-to-end gegevenspijplijn te bouwen die ETL-bewerkingen (extraheren, transformeren en laden) uitvoert.
  • Visualiseer Apache Hive gegevens met Microsoft Power BI hoe u Microsoft Power BI Desktop verbinding kunt Azure HDInsight met behulp van ODBC en hoe u uw Apache Hive visualiseren.
  • Apache Hive en HiveQL op Azure HDInsight is een datawarehousesysteem voor Apache Hadoop. Met Hive kunt u gegevens samenvatten, query's uitvoeren en gegevens analyseren. Hive-query's worden geschreven in HiveQL, een querytaal die vergelijkbaar is met SQL.