Configurar clusters do HDInsight com um BD personalizado do Ambari DB

O Apache Ambari simplifica o gerenciamento e monitoramento de um cluster do Apache Hadoop. O Ambari fornece uma interface do usuário da web fácil de usar e API REST. O Ambari está incluído em clusters HDInsight e é usado para monitorar o cluster e fazer alterações de configuração.

Na criação normal do cluster, conforme descrito em outros artigos, como Configurar clusters no HDInsight, o Ambari é implantado em um Banco de Dados SQL do Azure S0 que é gerenciado pelo HDInsight e não pode ser acessado pelos usuários.

O recurso de BD personalizado do Ambari permite a implantação de um novo cluster e a configuração do Ambari em um banco de dados externo gerenciado por você. A implantação é feita com um modelo do Azure Resource Manager. Esse recurso possui os seguintes benefícios:

  • Personalização - você escolhe o tamanho e a capacidade de processamento do banco de dados. Se tiver grandes clusters processando cargas de trabalho intensivas, um banco de dados Ambari com especificações mais baixas poderia se tornar um gargalo para operações de gerenciamento.
  • Flexibilidade - é possível dimensionar o banco de dados conforme necessário para atender às suas necessidades.
  • Controle - é possível gerenciar backups e segurança para seu banco de dados de uma forma que se ajuste aos requisitos de suas organizações.

O restante deste artigo aborda os seguintes pontos:

  • requisitos para usar o recurso de BD personalizado do Ambari
  • as etapas necessárias para provisionar o cluster HDInsight usando seu próprio banco de dados externo para Apache Ambari

Requisitos do BD personalizado do Ambari

É possível implantar um BD do Ambari personalizado com todos os tipos de cluster e versões. Vários clusters não podem usar o mesmo BD do Ambari.

O BD personalizado do Ambari possui os seguintes requisitos:

  • O nome do banco de dados não pode conter hífens ou espaços
  • É necessário ter um servidor de BD SQL do Azure e um banco de dados existentes.
  • O banco de dados que você fornece para a instalação do Ambari deve estar vazio. Não deve haver nenhuma tabela no esquema dbo padrão.
  • O usuário usado para se conectar ao banco de dados deve ter as permissões SELECT, CREATE TABLE, INSERT, UPDATE, DELETE, ALTER ON SCHEMA e REFERENCES ON SCHEMA no banco de dados.
GRANT CREATE TABLE TO newuser;
GRANT INSERT TO newuser;
GRANT SELECT TO newuser;
GRANT UPDATE TO newuser;
GRANT DELETE TO newuser;
GRANT ALTER ON SCHEMA::dbo TO newuser;
GRANT REFERENCES ON SCHEMA::dbo TO newuser;

Ao hospedar o BD do Apache Ambari DB em um banco de dados externo, lembre-se dos seguintes pontos:

  • Você é responsável pelos custos adicionais do banco de dados do SQL do Azure que mantém o Ambari.
  • Faça backup do seu BD personalizado do Ambari periodicamente. O Banco de Dados SQL do Azure gera backups automaticamente, mas o período de retenção de backup varia. Para obter mais informações, consulte Saiba mais sobre os backups automáticos do Banco de Dados SQL.
  • Não altere a senha personalizada do Ambari DB depois que o cluster HDInsight atingir o estado Em execução. Não há suporte.

Implantar clusters com um BD personalizado do Ambari

Para criar um cluster do HDInsight que usa seu próprio banco de dados externo do Ambari, use o modelo de Início Rápido do BD personalizado do Ambari.

Edite os parâmetros no azuredeploy.parameters.json para especificar informações sobre o novo cluster e o banco de dados que conterá o Ambari.

É possível iniciar a implantação usando o CLI do Azure. Substitua <RESOURCEGROUPNAME> pelo grupo de recursos no qual deseja implantar o cluster.

az deployment group create --name HDInsightAmbariDBDeployment \
    --resource-group <RESOURCEGROUPNAME> \
    --template-file azuredeploy.json \
    --parameters azuredeploy.parameters.json

Aviso

Use o SQL DB e a VM do Headnode recomendados a seguir para o seu cluster do HDInsight. Não use o Ambari DB (S0) padrão para nenhum ambiente de produção.

Dimensionamento de banco de dados e do Headnode

A tabela a seguir fornece diretrizes sobre qual camada de BD SQL do Azure selecionar com base no tamanho do cluster do HDInsight.

Número de nós de trabalho Camada de BD necessária VM do Headnode necessária
<=4 S0 4 núcleos/28 GB de RAM ou mais
>4 && <=8 S1 4 núcleos/28 GB de RAM ou mais
>8 && <=16 S2 4 núcleos/28 GB de RAM ou mais
>16 && <=32 S3 8 núcleos/56 GB de RAM ou mais
>32 && <=64 S4 8 núcleos/56 GB de RAM ou mais
>64 && <=128 P2 16 núcleos/112 GB de RAM ou mais
>128 Contatar o suporte Contatar o suporte

Próximas etapas