Criando um cluster HDInsight

Concluído

Há vários métodos para criar um cluster HDInsight, que pode variar desde o uso do portal do Azure para uma interface de usuário fácil até configurações com script que podem ajudar com implantações automatizadas. A tabela a seguir mostra os diferentes métodos que você pode usar para configurar um cluster HDInsight.

Clusters criados com Browser Linha de comandos API REST SDK
Portal do Azure
Azure Data Factory
CLI do Azure
Azure PowerShell
cURL
SDK do .NET
Modelo Azure Resource Manager

Todas as configurações do HDInsight exigem as seguintes informações básicas, incluindo:

Separador Informações Básicas

Detalhes do Projeto

Subscrição

Define a assinatura do Azure sob a qual o HDInsight será cobrado e gerenciado.

Nome do grupo de recursos

Um grupo de recursos é um agrupamento lógico de tecnologias e serviços do Azure que normalmente se relacionam com o mesmo aplicativo ou ciclo de vida do aplicativo. O agrupamento de serviços no mesmo grupo de recursos facilita a manutenção administrativa.

A screenshot of the basic tab in the Create HDInsight Cluster screen in the Azure portal

Detalhes do cluster

Nome do cluster

Os nomes de cluster HDInsight têm as seguintes restrições:

  • Caracteres permitidos: a-z, 0-9, A-Z
  • Comprimento máximo: 59
  • Nomes reservados: apps
  • O escopo de nomenclatura do cluster é para todos os Azure, em todas as assinaturas. Portanto, o nome do cluster deve ser exclusivo em todo o mundo.
  • Os seis primeiros caracteres devem ser exclusivos dentro de uma VNET

Localização

Especifica o local onde o tipo de cluster está armazenado. Se nenhum local for definido, o cluster será colocado no mesmo local do armazenamento padrão. O local deve estar o mais próximo possível dos usuários para reduzir a latência.

Tipos de cluster

Define a pilha de tecnologia provisionada em seu cluster de recursos. Selecione um tipo de cluster com base no tipo de dados que você tem e no tipo de processamento que seu cenário requer. Tipos de cluster disponíveis mostrados na tabela a seguir.  

Tipo de cluster Descrição
Apache Hadoop Uma estrutura que usa HDFS e um modelo de programação MapReduce simples para processar e analisar dados em lote. 
Apache Faísca Uma estrutura de processamento paralelo de código aberto que suporta processamento na memória para aumentar o desempenho de aplicativos de análise de big data.
HBase Um banco de dados NoSQL construído no Hadoop que fornece acesso aleatório e forte consistência para grandes quantidades de dados não estruturados e semiestruturados - potencialmente bilhões de linhas vezes milhões de colunas. 
Consulta interativa Apache Cache na memória para consultas interativas e mais rápidas do Hive. 
Apache Kafka Uma plataforma de código aberto que é usada para criar pipelines de dados e aplicativos de streaming. O Kafka também fornece uma funcionalidade de fila de mensagens que lhe permite publicar e subscrever transmissões de dados.

Versão

Define a versão do HDInsight para este cluster. O HDInsight 4.0 é a versão mais recente e tem as estruturas mais recentes provisionadas para clusters.

Credenciais de cluster

Com os clusters HDInsight, você pode configurar duas contas de usuário durante a criação do cluster.

Login e senha do cluster

O nome de usuário padrão é admin. Ele usa a configuração básica no portal do Azure. Às vezes, é chamado de "Usuário do cluster".

Nome de utilizador e palavra-passe de SSH

Usado para se conectar ao cluster por meio de SSH.

Nota

O pacote de segurança Enterprise permite integrar o HDInsight ao Ative Directory e ao Apache Ranger. Vários usuários podem ser criados usando o pacote de segurança Enterprise.

Guia Armazenamento

Os clusters HDInsight podem usar as seguintes opções de armazenamento, conforme mostrado na tela de armazenamento:

  • Azure Data Lake Storage Gen2
  • Armazenamento do Azure Data Lake Ger1
  • Finalidade geral do armazenamento do Azure v2
  • Finalidade geral do armazenamento do Azure v1
  • Blob de bloco de armazenamento do Azure (suportado apenas como armazenamento secundário)

A tela de armazenamento permite definir a conta de armazenamento principal e o contêiner padrão. Você também pode vincular o Armazenamento do Azure adicional ao cluster. As configurações do Metastore permitem definir um banco de dados SQL externo para armazenar tabelas do Hive depois que um cluster é excluído e melhorar o desempenho do Oozie armazenando os metadados em um repositório externo.

A screenshot of the storage tab in the Create HDInsight Cluster screen in the Azure portal

Segurança e Redes

Para os tipos de cluster Hadoop, Spark, HBase, Kafka e Consulta Interativa, você pode optar por habilitar o Pacote de Segurança Empresarial. Este pacote fornece a opção de ter uma configuração de cluster mais segura usando o Apache Ranger e integrando-se com o Microsoft Entra ID.

A screenshot of the Security and Networking tab in the Create HDInsight Cluster screen in the Azure portal

Além disso, é sempre recomendável implantar clusters HDInsight em uma VNet e você pode definir e definir a rede virtual nesta tela. Se sua solução exigir tecnologias espalhadas por vários tipos de cluster HDInsight, uma rede virtual do Azure poderá conectar os tipos de cluster necessários. Essa configuração permite que os clusters e qualquer código implantado neles, se comuniquem diretamente entre si.

Configuração e Preços

Esta página permite configurar o tamanho e o desempenho do cluster e visualizar informações de custo estimado. Nesta tela, você pode definir as máquinas virtuais que serão usadas para os nós Head (Master) e também para os nós Workers.

A screenshot of the Configuration and Pricing tab in the Create HDInsight Cluster screen in the Azure portal