Consulta interativa com o HDInsight

Data Factory
Data Lake Storage
HDInsight
Power BI

Ideia da solução

se você quiser nos ver, expanda este artigo com mais informações, como casos de uso em potencial, serviços alternativos, considerações sobre implementação ou diretrizes de preços, fale conosco com GitHub comentários!

execute SQL rápidas e interativas, como consultas em escala de dados estruturados ou não estruturados com Apache Hive LLAP no Azure HDInsight.

Arquitetura

Diagrama de arquiteturaBaixe um SVG dessa arquitetura.

Fluxo de dados

  1. Mover dados entre a nuvem do Azure ou qualquer outra nuvem que não seja do Azure usando Azure Data Factory
  2. Criar uma zona de aterrissagem de dados usando Azure Data Lake serviço Gen2, que também é a conta de armazenamento principal para o cluster do Azure HDInsights Hadoop
  3. Executar procedimentos ELT usando Azure Data Factory ou Hive para transformar dados de entrada no HDFS
  4. Criar tabelas externas no hive usando esses dados no HDFS
  5. Use Power BI para interpretar esses dados e criar novas visualizações

Componentes

  • Azure data Factory é um serviço de integração de dados híbrido que permite criar, agendar e orquestrar seus fluxos de trabalho ETL/ELT.
  • Azure Data Lake Storage é um conjunto de recursos, como a semântica do sistema de arquivos, e segurança de nível de arquivo dedicada ao Big Data analytics criada no armazenamento de blobs do Azure.
  • O Azure HDInsight torna mais fácil, rápido e econômico processar grandes quantidades de dados. Você pode usar as estruturas de código aberto mais populares, como Hadoop, Spark, Hive, LLAP, Kafka, Storm, R e muito mais.
  • O Power BI é um pacote de ferramentas de análise de negócios que fornece insights a toda a organização. Conexão a centenas de fontes de dados, simplificar a preparação de dados e conduzir a análise adhoc.

Confira também