O que é o Apache Hadoop no Azure HDInsight?What is Apache Hadoop in Azure HDInsight?

Este artigo fornece uma introdução ao Apache Hadoop no Azure HDInsight.This article provides an introduction to Apache Hadoop on Azure HDInsight. O HDInsight do Azure é um serviço de análise totalmente gerenciado, completo e de fonte aberta na nuvem para empresas.Azure HDInsight is a fully managed, full-spectrum, open-source analytics service in the cloud for enterprises. Você pode usar estruturas de software livre como Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R e outros.You can use open-source frameworks such as Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, and more.

O que é o HDInsight e a pilha de tecnologias do Hadoop?What is HDInsight and the Hadoop technology stack?

O Apache Hadoop era a estrutura de código aberto original para processamento distribuído e análise de conjuntos de Big Data em clusters.Apache Hadoop was the original open-source framework for distributed processing and analysis of big data sets on clusters. A pilha de tecnologias do Hadoop inclui software e utilitários relacionados, inclusive Apache Hive, Apache HBase, Spark, Kafka e muitos outros.The Hadoop technology stack includes related software and utilities, including Apache Hive, Apache HBase, Spark, Kafka, and many others.

O Azure HDInsight é uma distribuição de nuvem dos componentes do Hadoop.Azure HDInsight is a cloud distribution of Hadoop components. O Azure HDInsight torna mais fácil, rápido e econômico processar grandes quantidades de dados.Azure HDInsight makes it easy, fast, and cost-effective to process massive amounts of data. Você pode usar as estruturas de código aberto mais populares, como Hadoop, Spark, Hive, LLAP, Kafka, Storm, R e muito mais.You can use the most popular open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, R, and more. Com essas estruturas, você pode habilitar uma grande variedade de cenários, como extração, transformação e carregamento (ETL), data warehouse, aprendizado de máquina e IoT.With these frameworks, you can enable a broad range of scenarios such as extract, transform, and load (ETL), data warehousing, machine learning, and IoT.

Para ver os componentes disponíveis da pilha de tecnologia do Hadoop no HDInsight, confira Componentes e versões disponíveis com o HDInsight.To see available Hadoop technology stack components on HDInsight, see Components and versions available with HDInsight. Para ler mais sobre o Hadoop no HDInsight, consulte a Página de recursos do Azure para HDInsight.To read more about Hadoop in HDInsight, see the Azure features page for HDInsight.

O que é big data?What is big data?

Mais do que nunca, o Big Data está sendo coletado em volumes crescentes, em velocidades mais altas e em uma maior variedade de formatos.Big data is collected in escalating volumes, at higher velocities, and in a greater variety of formats than ever before. Ele pode ser histórico (referente a dados armazenados) ou em tempo real (o que significa que é transmitido da fonte).It can be historical (meaning stored) or real time (meaning streamed from the source). Consulte Cenários de uso do HDInsight para saber mais sobre os casos de uso mais comuns de Big Data.See Scenarios for using HDInsight to learn about the most common use cases for big data.

Por que devo usar o Hadoop no HDInsight?Why should I use Hadoop on HDInsight?

Esta seção lista os recursos do Azure HDInsight.This section lists the capabilities of Azure HDInsight.

RecursoCapability DESCRIÇÃODescription
Nativo de nuvemCloud native O Azure HDInsight permite a criação de cluster otimizados para Hadoop, Spark, Consulta interativa (LLAP), Kafka, Storm, HBase e  ML Services no Azure.Azure HDInsight enables you to create optimized clusters for Hadoop, Spark, Interactive query (LLAP), Kafka, Storm, HBase, and ML Services on Azure. O HDInsight também oferece um SLA de ponta a ponta em todas as suas cargas de trabalho de produção.HDInsight also provides an end-to-end SLA on all your production workloads.
De baixo custo e escalonávelLow-cost and scalable O HDInsight permite escalar as cargas de trabalho para cima ou para baixo.HDInsight enables you to scale workloads up or down. É possível reduzir os custos criando clusters sob demanda e pagando apenas pelo que for usado. You can reduce costs by creating clusters on demand and paying only for what you use. Você também pode compilar pipelines de dados para operacionalizar seus trabalhos.You can also build data pipelines to operationalize your jobs. A computação e o armazenamento desacoplados fornecem melhor desempenho e flexibilidade.Decoupled compute and storage provide better performance and flexibility.
Seguro e em conformidadeSecure and compliant O HDInsight permite a proteção dos ativos de dados corporativos com a Rede Virtual do Microsoft Azure, criptografia e integração com o Azure Active Directory.HDInsight enables you to protect your enterprise data assets with Azure Virtual Network, encryption, and integration with Azure Active Directory. O HDInsight também atende aos padrões de conformidade mais populares do setor e do governo.HDInsight also meets the most popular industry and government compliance standards.
MonitoramentoMonitoring O Azure HDInsight é integrado aos logs do Azure Monitor para fornecer uma interface única com a qual você pode monitorar todos os seus clusters.Azure HDInsight integrates with Azure Monitor logs to provide a single interface with which you can monitor all your clusters.
Disponibilidade globalGlobal availability O HDInsight está disponível em mais  regiões que qualquer outra oferta de análise de Big Data.HDInsight is available in more regions than any other big data analytics offering. O Azure HDInsight também está disponível no Azure Governamental, na China e na Alemanha, o que permite atender às necessidades da sua empresa nas principais áreas soberanas.Azure HDInsight is also available in Azure Government, China, and Germany, which allows you to meet your enterprise needs in key sovereign areas.
ProdutividadeProductivity O Microsoft Azure HDInsight permite que você use ferramentas produtivas avançadas para o Hadoop e o Spark com seus ambientes de desenvolvimento preferidos.Azure HDInsight enables you to use rich productive tools for Hadoop and Spark with your preferred development environments. Esses ambientes de desenvolvimento incluem Visual Studio, VSCode, Eclipse e IntelliJ para dar suporte ao Scala, Python, R, Java e .NET.These development environments include Visual Studio, VSCode, Eclipse, and IntelliJ for Scala, Python, R, Java, and .NET support. Os cientistas de dados também podem colaborar usando notebooks populares como o Jupyter e o Zeppelin.Data scientists can also collaborate using popular notebooks such as Jupyter and Zeppelin.
ExtensibilidadeExtensibility Você pode estender os clusters do HDInsight com componentes instalados (Hue, Presto, etc.) usando ações de script, adicionando nós de borda ou integrando outros aplicativos de Big Data certificados.You can extend the HDInsight clusters with installed components (Hue, Presto, and so on) by using script actions, by adding edge nodes, or by integrating with other big data certified applications. O HDInsight permite a integração perfeita com as soluções de Big Data mais populares com uma implantação com um clique.HDInsight enables seamless integration with the most popular big data solutions with a one-click deployment.

Cenários de uso do HDInsightScenarios for using HDInsight

O Azure HDInsight pode ser usado para uma variedade de cenários no processamento de Big Data.Azure HDInsight can be used for a variety of scenarios in big data processing. Podem ser dados históricos (dados que já estão coletados e armazenados) ou dados em tempo real (dados que são transmitidos diretamente da fonte).It can be historical data (data that's already collected and stored) or real-time data (data that's directly streamed from the source). Os cenários para processar esses dados podem ser resumidos nas seguintes categorias:The scenarios for processing such data can be summarized in the following categories:

Processamento em lotes (ETL)Batch processing (ETL)

Extração, transformação e carregamento (ETL) é um processo em que os dados estruturados ou não estruturados são extraídos de fontes de dados heterogêneas.Extract, transform, and load (ETL) is a process where unstructured or structured data is extracted from heterogeneous data sources. Em seguida, ele é transformado em um formato estruturado e carregado no repositório de dados.It's then transformed into a structured format and loaded into a data store. Você pode usar os dados transformados para ciência de dados ou data warehousing.You can use the transformed data for data science or data warehousing.

Data warehousingData warehousing

É possível usar o HDInsight para executar consultas interativas em escalas petabyte sobre dados estruturados ou não estruturados em qualquer formato.You can use HDInsight to perform interactive queries at petabyte scales over structured or unstructured data in any format. Também é possível criar modelos conectando-os a ferramentas de BI.You can also build models connecting them to BI tools. Para obter mais informações, leia esta história de cliente.For more information, read this customer story.

Arquitetura do HDInsight: Data warehousingHDInsight architecture: Data warehousing

Internet das coisas (IoT)Internet of Things (IoT)

Você pode usar o HDInsight para processar os dados de streaming recebidos em tempo real de uma variedade de dispositivos.You can use HDInsight to process streaming data that's received in real time from a variety of devices. Para obter mais informações, leia esta postagem de blog do Azure que informa a visualização pública do Apache Kafka no HDInsight com Azure Managed Disks.For more information, read this blog post from Azure that announces the public preview of Apache Kafka on HDInsight with Azure Managed disks.

Arquitetura do HDInsight: Internet das CoisasHDInsight architecture: Internet of Things

Ciência de dadosData science

Você pode usar o HDInsight para compilar aplicativos que extraem informações críticas dos dados.You can use HDInsight to build applications that extract critical insights from data. Você também pode usar o Azure Machine Learning antes disso para prever tendências futuras para seu negócio.You can also use Azure Machine Learning on top of that to predict future trends for your business. Para obter mais informações, leia esta história de cliente.For more information, read this customer story.

Arquitetura do HDInsight: Ciência de dadosHDInsight architecture: Data science

HíbridoHybrid

Você pode usar o HDInsight para estender sua infraestrutura de Big Data local existente ao Azure para aproveitar os recursos de análise avançada da nuvem.You can use HDInsight to extend your existing on-premises big data infrastructure to Azure to leverage the advanced analytics capabilities of the cloud.

Arquitetura do HDInsight: HíbridoHDInsight architecture: Hybrid

Tipos de cluster no HDInsightCluster types in HDInsight

O HDInsight inclui tipos específicos de cluster e recursos de personalização do cluster, como a capacidade de adicionar componentes, utilitários e idiomas.HDInsight includes specific cluster types and cluster customization capabilities, such as the capability to add components, utilities, and languages. O HDInsight oferece os seguintes tipos de cluster:HDInsight offers the following cluster types:

Tipo de clusterCluster Type DESCRIÇÃODescription
Apache HadoopApache Hadoop uma estrutura que usa HDFS, gerenciamento de recursos YARN e um modelo de programação MapReduce simples para processar e analisar dados em lote em paralelo.A framework that uses HDFS, YARN resource management, and a simple MapReduce programming model to process and analyze batch data in parallel.
Apache SparkApache Spark uma estrutura de processamento paralelo de software livre que dá suporte ao processamento na memória para melhorar o desempenho dos aplicativos de análise de Big Data.An open-source, parallel-processing framework that supports in-memory processing to boost the performance of big-data analysis applications. Confira O que é o Apache Spark no HDInsight?.See What is Apache Spark in HDInsight?.
HBase no ApacheApache HBase um banco de dados NoSQL baseado em Hadoop que fornece acesso aleatório e coerência forte para big data não estruturado e semiestruturado (potencialmente, bilhões de linhas vezes milhões de colunas).A NoSQL database built on Hadoop that provides random access and strong consistency for large amounts of unstructured and semi-structured data--potentially billions of rows times millions of columns. Confira O que é o HBase em HDInsight?See What is HBase on HDInsight?
ML ServicesML Services um servidor para hospedagem e gerenciamento paralelo, processos R distribuídos.A server for hosting and managing parallel, distributed R processes. Ele fornece aos cientistas de dados, estatísticos e programadores de R o acesso sob demanda a métodos escalonáveis e distribuídos de análise no HDInsight.It provides data scientists, statisticians, and R programmers with on-demand access to scalable, distributed methods of analytics on HDInsight. Consulte a Visão geral de ML Services no HDInsight.See Overview of ML Services on HDInsight.
Apache StormApache Storm um sistema de computação distribuído e em tempo real para processar rapidamente grandes fluxos de dados.A distributed, real-time computation system for processing large streams of data fast. O Storm é oferecido como um cluster gerenciado no HDInsight.Storm is offered as a managed cluster in HDInsight. Consulte Analisar dados do sensor em tempo real usando o Storm e o Hadoop.See Analyze real-time sensor data using Storm and Hadoop.
Consulta Interativa do ApacheApache Interactive Query Caching na memória para consultas de Hive interativas e mais rápidas.In-memory caching for interactive and faster Hive queries. Veja Usar a consulta interativa no HDInsight.See Use Interactive Query in HDInsight.
Apache KafkaApache Kafka uma plataforma de código-fonte aberto usada para criar aplicativos e pipelines de dados de transmissão.An open-source platform that's used for building streaming data pipelines and applications. O Kafka também fornece funcionalidade de fila de mensagens, o que permite que você publique e assine fluxos de dados.Kafka also provides message-queue functionality that allows you to publish and subscribe to data streams. Consulte Uma introdução ao Apache Kafka no HDInsight.See Introduction to Apache Kafka on HDInsight.

Componentes de código aberto no HDInsightOpen-source components in HDInsight

O Azure HDInsight permite que você crie clusters com estruturas de software livre, como Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase e R. Esses clusters, por padrão, vêm com outros componentes de software livre incluídos no cluster, como Apache Ambari, Avro, Apache Hive, HCatalog, Apache Mahout, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie, Apache ZooKeeper.Azure HDInsight enables you to create clusters with open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase, and R. These clusters, by default, come with other open-source components that are included on the cluster such as Apache Ambari, Avro, Apache Hive, HCatalog, Apache Mahout, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie, Apache ZooKeeper.

Linguagens de programação no HDInsightProgramming languages in HDInsight

Os clusters do HDInsight, incluindo Spark, HBase, Kafka, Hadoop e outros, dão suporte a várias linguagens de programação.HDInsight clusters, including Spark, HBase, Kafka, Hadoop, and others, support many programming languages. Algumas linguagens de programação não são instaladas por padrão.Some programming languages aren't installed by default. No caso de bibliotecas, módulos ou pacotes que não são instalados por padrão, use uma ação de script para instalar o componente.For libraries, modules, or packages that are not installed by default, use a script action to install the component.

Linguagem de programaçãoProgramming language InformaçõesInformation
Suporte padrão à linguagem de programaçãoDefault programming language support Por padrão, os clusters HDInsight são compatíveis com:By default, HDInsight clusters support:
  • JavaJava
  • PythonPython
  • .NET.NET
  • GoGo
Linguagens JVM (máquina virtual Java)Java virtual machine (JVM) languages Muitas linguagens diferentes do Java podem ser executadas em uma máquina virtual do Java (JVM).Many languages other than Java can run on a Java virtual machine (JVM). No entanto, se você executar algumas dessas linguagens, você talvez precise instalar componentes adicionais no cluster.However, if you run some of these languages, you might have to install additional components on the cluster. As seguintes linguagens baseadas em JVM são permitidas nos clusters HDInsight:The following JVM-based languages are supported on HDInsight clusters:
  • ClojureClojure
  • Jython (Python para Java)Jython (Python for Java)
  • ScalaScala
Linguagens específicas do HadoopHadoop-specific languages Os clusters HDInsight dão suporte às seguintes linguagens que são específicas ao ecossistema da pilha de tecnologias do Hadoop:HDInsight clusters support the following languages that are specific to the Hadoop technology stack:
  • Pig Latin para trabalhos do PigPig Latin for Pig jobs
  • HiveQL para trabalhos do Hive e SparkSQLHiveQL for Hive jobs and SparkSQL

Ferramentas de desenvolvimento para HDInsightDevelopment tools for HDInsight

Você pode usar ferramentas de desenvolvimento do HDInsight, incluindo IntelliJ, Eclipse, Visual Studio Code e Visual Studio, para criar e enviar a consulta de dados do HDInsight e o trabalho com integração perfeita com o Azure.You can use HDInsight development tools, including IntelliJ, Eclipse, Visual Studio Code, and Visual Studio, to author and submit HDInsight data query and job with seamless integration with Azure.

Business intelligence no HDInsightBusiness intelligence on HDInsight

As ferramentas familiares de BI (business intelligence) recuperam, analisam e relatam os dados que estão integrados ao HDInsight usando o suplemento Power Query ou o Driver ODBC do Microsoft Hive:Familiar business intelligence (BI) tools retrieve, analyze, and report data that is integrated with HDInsight by using either the Power Query add-in or the Microsoft Hive ODBC Driver:

Próximas etapasNext steps