Interaktivní dotazování pomocí služby HDInsight

Data Factory
Data Lake Storage
HDInsight
Power BI

Nápad řešení Solution Idea

Pokud se chcete podívat, jak nás rozšířit tento článek o další informace, podrobnosti implementace, doprovodné materiály nebo příklady kódu, dejte nám vědět s názory na GitHubu.If you'd like to see us expand this article with more information, implementation details, pricing guidance, or code examples, let us know with GitHub Feedback!

Provádějte rychlé interaktivní dotazy podobné dotazům SQL ve velkém rozsahu prostřednictvím strukturovaných nebo nestrukturovaných dat s Apache Hive LLAP v Azure HDInsight.Perform fast, interactive SQL like queries at scale over structured or unstructured data with Apache Hive LLAP on Azure HDInsight.

ArchitekturaArchitecture

Diagram architektury Stáhnout SVG této architektury.Architecture Diagram Download an SVG of this architecture.

Data FlowData Flow

  1. Přesun dat mezi cloudem Azure nebo jakýmkoli jiným cloudem mimo Azure pomocí Azure Data FactoryMove data between Azure cloud or any other non Azure cloud using Azure Data Factory
  2. Vytvořte zónu pro vykládku dat pomocí služby Azure Data Lake Gen2, což je také primární účet úložiště pro cluster Azure HDInsights Hadoop.Create a data landing zone using Azure Data Lake Gen2 service, which is also the primary storage account for the Azure HDInsights hadoop cluster
  3. Spuštění procedur ELT pomocí Azure Data Factory nebo podregistru pro transformaci příchozích dat v HDFSRun ELT procedures using Azure Data Factory or Hive to transform incoming data in HDFS
  4. Vytvoření externích tabulek v podregistru pomocí těchto dat v HDFSCreate external tables in Hive using this data in HDFS
  5. Pomocí Power BI interpretovat tato data a vytvářet nové vizualizaceUse Power BI to interpret this data and create new visualizations

KomponentyComponents

  • Azure Data Factory je služba pro integraci hybridních dat, která umožňuje vytváření, plánování a orchestraci vašich pracovních postupů ETL/ELT.Azure Data Factory is a hybrid data integration service that allows you to create, schedule and orchestrate your ETL/ELT workflows.
  • Azure Data Lake Storage je sada funkcí, jako je sémantika systému souborů, a zabezpečení na úrovni souborů vyhrazené pro analýzy velkých objemů dat založené na službě Azure Blob Storage.Azure Data Lake Storage is a set of capabilities such as file system semantics, and file-level security dedicated to big data analytics built on Azure Blob storage.
  • Azure HDInsight zajišťuje snadné, rychlé a nákladově efektivní zpracování obrovského objemu dat.Azure HDInsight makes it easy, fast, and cost-effective to process massive amounts of data. Můžete využít nejoblíbenější opensourcové architektury, jako jsou Hadoop, Spark, Hive, LLAP, Kafka, Storm, R a další.You can use the most popular open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, R, and more.
  • Power BI je sada nástrojů pro obchodní analýzy, které poskytují přehledy napříč vaší organizací.Power BI is a suite of business analytics tools that deliver insights throughout your organization. Připojte se ke stovkám zdrojů dat, Zjednodušte přípravu dat a proveďte analýzu ad hoc.Connect to hundreds of data sources, simplify data prep, and drive adhoc analysis.

Viz takéSee Also