Query interattive con HDInsight

Data Factory
Data Lake Storage
HDInsight
Power BI

Idea della soluzione

Se si desidera vedere questo articolo con altre informazioni, ad esempio potenziali casi d'uso, servizi alternativi, considerazioni sull'implementazione o linee guida sui prezzi, è possibile inviare commenti e suggerimenti GitHub!

Eseguire operazioni rapide e interattive SQL query su larga scala su dati strutturati o non strutturati con Apache Hive LLAP Azure HDInsight.

Architettura

Diagramma dell'architettura Scaricare una versione SVG di questa architettura.

Flusso di dati

  1. Spostare i dati tra il cloud di Azure o qualsiasi altro cloud non di Azure usando Azure Data Factory
  2. Creare una zona di destinazione dei dati usando il servizio Azure Data Lake Gen2, che è anche l'account di archiviazione primario per il cluster Hadoop di Azure HDInsights
  3. Eseguire procedure ELT usando Azure Data Factory o Hive per trasformare i dati in ingresso in HDFS
  4. Creare tabelle esterne in Hive usando questi dati in HDFS
  5. Usare Power BI per interpretare questi dati e creare nuove visualizzazioni

Componenti

  • Azure Data Factory è un servizio di integrazione dei dati ibrido che consente di creare, pianificare e orchestrare i flussi di lavoro ETL/ELT.
  • Azure Data Lake Archiviazione è un set di funzionalità come la semantica file system e la sicurezza a livello di file dedicata all'analisi dei Big Data basata sull'archiviazione BLOB di Azure.
  • Azure HDInsight consente di elaborare grandi quantità di dati in modo semplice, rapido ed economicamente conveniente. È possibile usare i framework open source più diffusi, ad esempio Hadoop, Spark, Hive, LLAP, Kafka, Storm, R e altri.
  • Power BI è un gruppo di strumenti di Analisi business che consente di distribuire informazioni dettagliate in tutta l'organizzazione. Connessione a centinaia di origini dati, semplificare la preparazione dei dati e guidare l'analisi adhoc.

Vedere anche

  • Creare una pipeline di dati per derivare informazioni dettagliate sulle vendite in Azure HDInsight creare una pipeline di dati end-to-end che esegue operazioni di estrazione, trasformazione e caricamento (ETL).
  • Visualizzare Apache Hive dati con Microsoft Power BI informazioni su come connettere Microsoft Power BI Desktop a Azure HDInsight usando ODBC e visualizzare i Apache Hive dati.
  • Apache Hive e HiveQL Azure HDInsight è un sistema data warehouse per Apache Hadoop. Hive consente di eseguire attività di riepilogo, query e analisi dei dati. Le query di Hive sono scritte in HiveQL, linguaggio di query simile a SQL.