O que é o Azure HDInsight?

O Azure HDInsight é um serviço de análise gerido, de espetro completo e open-source na cloud para empresas. Com o HDInsight, você pode usar estruturas de código aberto, como Apache Spark, Apache Hive, LLAP, Apache Kafka, Hadoop e muito mais, em seu ambiente do Azure.

O que é o HDInsight e a pilha de tecnologia do Hadoop?

O Azure HDInsight é uma plataforma de cluster gerenciado que facilita a execução de estruturas de big data como Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Hadoop e outras em seu ambiente do Azure. Ele foi projetado para lidar com grandes volumes de dados com alta velocidade e eficiência.

Por que devo usar o Azure HDInsight?

Capacidade Description
Cloud nativa O Azure HDInsight permite criar clusters otimizados para Spark, Interactive query (LLAP), Kafka, HBase e Hadoop no Azure. O HDInsight também oferece um SLA de ponto a ponto em todas as suas cargas de trabalho de produção.
Baixo custo e dimensionável O HDInsight permite dimensionar cargas de trabalho para cima ou para baixo. Você pode reduzir custos criando clusters sob demanda e pagando apenas pelo que usar. Também pode criar pipelines de dados para operacionalizar as tarefas. Acomputação e o armazenamento desacoplados fornecem um maior desempenho e flexibilidade.
Seguro e conforme O HDInsight permite que você proteja seus ativos de dados corporativos com a Rede Virtual do Azure, criptografia e integração com o Microsoft Entra ID. O HDInsight também cumpre os padrões de conformidade mais populares da indústria e do governo.
Monitorização O Azure HDInsight integra-se com os logs do Azure Monitor para fornecer uma interface única com a qual você pode monitorar todos os seus clusters.
Disponibilidade global O HDInsight está disponível em mais regiões do que qualquer outra oferta de análise de big data . O Azure HDInsight também está disponível no Azure Government, na China e na Alemanha, o que lhe permite satisfazer as suas necessidades empresariais nas principais áreas soberanas.
Produtividade O Azure HDInsight permite-lhe utilizar ferramentas produtivas avançadas para o Hadoop e o Spark com os seus ambientes de desenvolvimento preferidos. Esses ambientes de desenvolvimento incluem Visual Studio, VS Code, Eclipse e IntelliJ para suporte a Scala, Python, Java e .NET.
Extensibilidade Você pode estender os clusters HDInsight com componentes instalados (Hue, Presto, etc.) usando ações de script, adicionando nós de borda ou integrando-se a outros aplicativos certificados por big data . O HDInsight permite a integração perfeita com as soluções mais populares de macrodados com uma implementação de um só clique.

What is big data? (O que são os macrodados?)

Os macrodados são recolhidos em volumes cada vez maiores, a velocidades mais rápidas e numa variedade de formatos mais ampla do que nunca. Podem ser históricos (ou seja, armazenados) ou em tempo real (ou seja, transmitidos da origem). Veja Scenarios for using HDInsight (Cenários para utilizar o HDInsight) para saber mais sobre os casos de utilização mais comuns de macrodados.

Tipos de clusters no HDInsight

O HDInsight inclui tipos de clusters específicos e capacidades de personalização de clusters, como a possibilidade de adicionar componentes, utilitários e linguagens. O HDInsight oferece os seguintes tipos de cluster:

Tipo de Cluster Description Começar Agora
Apache Hadoop Uma estrutura que usa HDFS, gerenciamento de recursos YARN e um modelo de programação MapReduce simples para processar e analisar dados em lote em paralelo. Criar um cluster Apache Hadoop
Apache Spark Uma estrutura de processamento paralelo de código aberto que suporta processamento na memória para aumentar o desempenho de aplicativos de análise de big data. Veja O que é o Apache Spark no HDInsight? Criar um cluster Apache Spark
Apache HBase Um banco de dados NoSQL construído no Hadoop que fornece acesso aleatório e forte consistência para grandes quantidades de dados não estruturados e semiestruturados - potencialmente bilhões de linhas vezes milhões de colunas. Veja O que é o HBase no HDInsight? Criar um cluster Apache HBase
Consulta interativa Apache Cache na memória para consultas interativas e mais rápidas do Hive. Veja Use Interactive Query in HDInsight (Utilizar o Interactive Query no HDInsight). Criar um cluster de Consulta Interativa
Apache Kafka Uma plataforma de código aberto é usada para criar pipelines de dados e aplicativos de streaming. O Kafka também fornece uma funcionalidade de fila de mensagens que lhe permite publicar e subscrever transmissões de dados. Consulte Introduction to Apache Kafka on HDInsight (Introdução ao Apache Kafka no HDInsight). Criar um cluster Apache Kafka

Cenários para utilizar o HDInsight

O Azure HDInsight pode ser usado para vários cenários no processamento de big data . Podem ser dados históricos (dados que já são coletados e armazenados) ou dados em tempo real (dados que são transmitidos diretamente da fonte). Os cenários para processar esses dados podem ser resumidos nas seguintes categorias:

Processamento em lotes (ETL)

A extração, transformação e carregamento (ETL) é um processo onde os dados estruturados ou não estruturados são extraídos de origens de dados heterogéneas. Depois, são transformados num formato estruturado e carregados para um arquivo de dados. Pode utilizar os dados transformados para ciência de dados ou armazenamento de dados.

Armazenamento de dados

Pode utilizar o HDInsight para executar consultas interativas em escalas de petabytes sobre dados estruturados ou não estruturados em qualquer formato. Também pode criar modelos ao ligá-las a ferramentas de BI.

HDInsight architecture: Data warehousing.

Internet das Coisas (IoT)

Você pode usar o HDInsight para processar dados de streaming recebidos em tempo real de diferentes tipos de dispositivos. Para obter mais informações, leia esta mensagem do blogue do Azure que anuncia a pré-visualização pública do Apache Kafka no HDInsight com os discos geridos do Azure.

Screenshot of the HDInsight architecture: Internet of Things.

Híbrido

Você pode usar o HDInsight para estender sua infraestrutura de big data local existente para o Azure para aplicar os recursos avançados de análise da nuvem.

HDInsight architecture: Hybrid.

Componentes de código aberto no HDInsight

O Azure HDInsight permite criar clusters com estruturas de código aberto, como Spark, Hive, LLAP, Kafka, Hadoop e HBase. Por padrão, esses clusters incluem vários componentes de código aberto, como Apache Ambari, Avro, Apache Hive 3, HCatalog, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie e Apache ZooKeeper.

Linguagens de programação no HDInsight

Os clusters do HDInsight, incluindo Spark, HBase, Kafka, Hadoop, entre outros, suportam muitas linguagens de programação. Contudo, algumas não estão instaladas por predefinição. Para bibliotecas, módulos ou pacotes que não estão instalados por padrão, use uma ação de script para instalar o componente.

Linguagem de programação Informação
Suporte de linguagens de programação predefinidas Por predefinição, os clusters do HDInsight suportam:
  • Java
  • Python
  • .NET
  • Ir
Linguagens de máquina virtual de Java (JVM) Podem ser executadas muitas outras linguagens que não Java nas máquinas virtuais Java (JVM). No entanto, se você executar alguns desses idiomas, talvez seja necessário instalar mais componentes no cluster. Os seguintes idiomas baseados em JVM são suportados em clusters HDInsight:
  • Clojure
  • Jython (Python para Java)
  • Scala
Linguagens específicas do Hadoop Os clusters HDInsight oferecem suporte aos seguintes idiomas específicos da pilha de tecnologia Hadoop:
  • Pig Latin para tarefas do Pig
  • HiveQL para tarefas do Hive e SparkSQL

Ferramentas de desenvolvimento para HDInsight

Pode utilizar as ferramentas de desenvolvimento HDInsight, incluindo IntelliJ, Eclipse, Visual Studio Code e Visual Studio, para criar e submeter tarefas e consultas de dados HDInsight com integração simplificada no Azure.

  • Kit de ferramentas do Azure para IntelliJ 10
  • Kit de ferramentas do Azure para Eclipse 6
  • Ferramentas do Azure HDInsight para VS Code 13
  • Ferramentas de data lake do Azure para Visual Studio 9

Business intelligence no HDInsight

As ferramentas de business intelligence (BI) familiares obtêm, analisam e reportam dados integrados no HDInsight através do suplemento Power Query ou Microsoft Hive ODBC Driver:

Residência de dados na região

O Spark, o Hadoop e o LLAP não armazenam dados do cliente, portanto, esses serviços satisfazem automaticamente os requisitos de residência de dados na região especificados na Central de Confiabilidade.

Kafka e HBase armazenam dados de clientes. Esses dados são armazenados automaticamente pelo Kafka e pelo HBase em uma única região, portanto, esse serviço atende aos requisitos de residência de dados na região especificados na Central de Confiabilidade.

Ferramentas familiares de business intelligence (BI) recuperam, analisam e relatam dados integrados ao HDInsight usando o suplemento Power Query ou o driver ODBC do Microsoft Hive.

Próximos passos