Consulta interativa com o HDInsight

Data Factory
Data Lake Storage
HDInsight
Power BI

Ideia da solução

se você quiser nos ver, expanda este artigo com mais informações, como casos de uso em potencial, serviços alternativos, considerações sobre implementação ou diretrizes de preços, fale conosco com GitHub comentários!

Execute tarefas rápidas e SQL como consultas em escala sobre dados estruturados ou não estruturados com Apache Hive LLAP no Azure HDInsight.

Arquitetura

Diagrama de arquitetura Baixe um SVG dessa arquitetura.

Fluxo de Dados

  1. Mover dados entre a nuvem do Azure ou qualquer outra nuvem não Azure usando Azure Data Factory
  2. Criar uma zona de destino de dados usando o serviço Azure Data Lake Gen2, que também é a conta de armazenamento primária para o cluster hadoop do Azure HDInsights
  3. Executar procedimentos ELT usando Azure Data Factory hive para transformar dados de entrada no HDFS
  4. Criar tabelas externas no Hive usando esses dados no HDFS
  5. Use Power BI para interpretar esses dados e criar novas visualizações

Componentes

  • Azure Data Factory é um serviço de integração de dados híbrido que permite criar, agendar e orquestrar seus fluxos de trabalho ETL/ELT.
  • O Azure Data Lake Armazenamento é um conjunto de recursos como semântica do sistema de arquivos e segurança em nível de arquivo dedicada à análise de Big Data criada no Armazenamento de Blob do Azure.
  • Azure HDInsight torna fácil, rápido e econômico processar grandes quantidades de dados. Você pode usar as estruturas de código aberto mais populares, como Hadoop, Spark, Hive, LLAP, Kafka, Storm, R e muito mais.
  • O Power BI é um pacote de ferramentas de análise de negócios que fornece insights a toda a organização. Conexão a centenas de fontes de dados, simplifique a preparação de dados e conduza a análise de adimplidade.

Consulte Também

  • Crie um pipeline de dados para derivar insights de vendas Azure HDInsight criar um pipeline de dados de ponta a ponta que executa operações de ETL (extração, transformação e carregamento).
  • Visualize Apache Hive dados com o Microsoft Power BI saiba como conectar o Microsoft Power BI Desktop ao Azure HDInsight usando o ODBC e visualizar Apache Hive dados.
  • Apache Hive HiveQL no Azure HDInsight é um data warehouse para Apache Hadoop. O Hive permite o resumo de dados, consultas e análise de dados. Consultas de hive são escritas em HiveQL, que é uma linguagem de consulta semelhante ao SQL.