Migrar o cluster do HDInsight para uma versão mais recente

Artigo
03/15/2024

Para tirar partido das funcionalidades mais recentes do HDInsight, recomendamos migrar os clusters do HDInsight regularmente para a versão mais recente. O HDInsight não oferece suporte a atualizações in-loco em que um cluster existente é atualizado para uma versão mais recente do componente. Você deve criar um novo cluster com o componente desejado e a versão da plataforma e, em seguida, migrar seus aplicativos para usar o novo cluster. Siga as diretrizes abaixo para migrar suas versões de cluster HDInsight.

Nota

Se você estiver criando um cluster do Hive com um contêiner de armazenamento primário, copie-o de um cluster HDInsight existente. Não copie o conteúdo completo. Copie apenas as pastas de dados configuradas.

Tarefas de migração

O fluxo de trabalho para atualizar o Cluster HDInsight é o seguinte. HDInsight upgrade workflow diagram.

Leia cada seção deste documento para entender as alterações que podem ser necessárias ao atualizar seu cluster HDInsight.
Crie um cluster como um ambiente de teste/garantia de qualidade. Para obter mais informações sobre como criar um cluster, consulte Saiba como criar clusters HDInsight baseados em Linux
Copie trabalhos, fontes de dados e coletores existentes para o novo ambiente.
Execute testes de validação para garantir que seus trabalhos funcionem conforme o esperado no novo cluster.

Depois de verificar se tudo funciona conforme o esperado, agende o tempo de inatividade para a migração. Durante esse tempo de inatividade, execute as seguintes ações:

Faça backup de todos os dados transitórios armazenados localmente nos nós do cluster. Por exemplo, se você tiver dados armazenados diretamente em um nó principal.
Exclua o cluster existente.
Crie um cluster na mesma sub-rede VNET com a versão HDI mais recente (ou suportada) usando o mesmo armazenamento de dados padrão que o cluster anterior usou. Isso permite que o novo cluster continue trabalhando em relação aos dados de produção existentes.
Importe todos os dados transitórios dos quais fez backup.
Inicie trabalhos/continue o processamento usando o novo cluster.

Orientações específicas sobre a carga de trabalho

Os seguintes documentos fornecem orientações sobre como migrar cargas de trabalho específicas:

Cópia de segurança e restauro

Para obter mais informações sobre backup e restauração de banco de dados, consulte Recuperar um banco de dados no Banco de Dados SQL do Azure usando backups de banco de dados automatizados.

Cenários de atualização

Como mencionado acima, a Microsoft recomenda que os clusters HDInsight sejam migrados regularmente para a versão mais recente para aproveitar os novos recursos e correções. Consulte a seguinte lista de motivos pelos quais solicitamos que um cluster seja excluído e reimplantado:

A versão do cluster é Desativada ou se você estiver tendo um problema de cluster que seria resolvido com uma versão mais recente.
A causa raiz de um problema de cluster é determinada para relacionar uma VM subdimensionada. Veja a configuração de nó recomendada da Microsoft.
Um cliente abre um caso de suporte e a equipe de engenharia da Microsoft determina que o problema já foi corrigido em uma versão mais recente do cluster.
Um banco de dados de metastore padrão (Ambari, Hive, Oozie, Ranger) atingiu seu limite de utilização. A Microsoft solicita que você recrie o cluster usando um banco de dados de metastore personalizado.
A causa raiz de um problema de cluster é devido a uma operação sem suporte. Aqui estão algumas das operações comuns sem suporte:
- Movendo ou adicionando um serviço em Ambari. Veja as informações sobre os serviços de cluster no Ambari, uma das ações disponíveis no menu Ações de serviço é Mover [Nome do serviço]. Outra ação é Adicionar [Nome do Serviço]. Ambas as opções não são suportadas.
- Corrupção de pacotes Python. Os clusters HDInsight dependem dos ambientes Python integrados, Python 2.7 e Python 3.5. A instalação direta de pacotes personalizados nesses ambientes internos padrão pode causar alterações inesperadas na versão da biblioteca e quebrar o cluster. Saiba como instalar com segurança pacotes Python externos personalizados para seus aplicativos Spark.
- Software de terceiros. Os clientes têm a capacidade de instalar software de terceiros em seus clusters HDInsight; no entanto, recomendamos recriar o cluster se ele quebrar a funcionalidade existente.
- Várias cargas de trabalho no mesmo cluster. No HDInsight 4.0, o Hive Warehouse Connector precisa de clusters separados para cargas de trabalho do Spark e do Interactive Query. Siga estas etapas para configurar ambos os clusters no Azure HDInsight. Da mesma forma, a integração do Spark com o HBASE requer dois clusters diferentes.
- Senha personalizada do Ambari DB alterada. A senha do Ambari DB é definida durante a criação do cluster e não há nenhum mecanismo atual para atualizá-la. Se um cliente implantar o cluster com um Ambari DB personalizado, ele terá a capacidade de alterar a senha do banco de dados no banco de dados SQL, no entanto, não há como atualizar essa senha para um cluster HDInsight em execução.
- Modificando os balanceadores de carga do HDInsight. Os balanceadores de carga HDInsight implantados automaticamente para acesso Ambari e SSH não devem ser modificados ou excluídos. Se você modificar o(s) balanceador(es) de carga do HDInsight e ele quebrar a funcionalidade do cluster, você será aconselhado a reimplantar o cluster.

Migrar o cluster do HDInsight para uma versão mais recente

Tarefas de migração

Orientações específicas sobre a carga de trabalho

Cópia de segurança e restauro

Cenários de atualização

Próximos passos

Recursos adicionais