Reparar um servidor no Azure Stack HCI, versão 23H2

Aplica-se a: Azure Stack HCI, versão 23H2

Este artigo descreve como reparar um servidor no cluster do Azure Stack HCI.

Sobre servidores de reparo

O Azure Stack HCI é um sistema hiperconvergente que permite reparar servidores de clusters existentes. Talvez seja necessário reparar um servidor em um cluster se houver uma falha de hardware.

Antes de reparar um servidor, certifique-se de marcar com seu provedor de soluções, quais componentes no servidor são FRUs (unidades de substituição de campo) que você pode substituir por conta própria e quais componentes exigiriam que um técnico substituísse.

As partes que dão suporte à troca dinâmica normalmente não exigem que você refaça a imagem do servidor, ao contrário dos componentes não permutáveis, como a placa-mãe. Consulte o fabricante do hardware para determinar quais substituições de componente exigiriam que você refazer a imagem do servidor. Para obter mais informações, consulte Substituição de componente.

Reparar fluxo de trabalho do servidor

O diagrama de fluxo a seguir mostra o processo geral para reparar um servidor.

Diagrama ilustrando o processo do servidor de reparo.

*O servidor pode não estar em um estado em que o desligamento é possível ou necessário

Para reparar um servidor existente, siga estas etapas de alto nível:

  1. Se possível, desligue o servidor que você deseja reparar. Dependendo do estado do servidor, um desligamento pode não ser possível ou necessário.

  2. Refazer a imagem do servidor que precisa ser reparado.

  3. Execute a operação de reparo do servidor. O sistema operacional, os drivers e o firmware do Azure Stack HCI são atualizados como parte da operação de reparo.

    O armazenamento é rebalanceado automaticamente no servidor com imagem nova. O rebalanceamento de armazenamento é uma tarefa de baixa prioridade que pode ser executada por vários dias, dependendo do número de servidores e do armazenamento usado.

Cenários com suporte

Reparar um servidor refazer a imagem de um servidor e traz-o de volta para o cluster com o nome e a configuração anteriores.

Reparar um único servidor resulta em uma reimplantação com a opção de persistir os volumes de dados. Somente o volume do sistema é excluído e provisionado recentemente durante a implantação.

Importante

Verifique se você sempre tem backups para suas cargas de trabalho e não depende apenas da resiliência do sistema. Isso é especialmente crítico em cenários de servidor único.

Configurações de resiliência

Nesta versão, para a operação de reparo do servidor, tarefas específicas não são executadas nos volumes de carga de trabalho que você criou após a implantação. Para a operação de reparo do servidor, somente os volumes de infraestrutura necessários e os volumes de carga de trabalho são restaurados e exibidos como CSVs (volumes compartilhados de cluster).

Os outros volumes de carga de trabalho criados após a implantação ainda são retidos e você pode descobrir esses volumes executando Get-VirtuaDisk o cmdlet . Você precisará desbloquear manualmente o volume (se o volume tiver o BitLocker habilitado) e criar um CSV (se necessário).

Requisitos de hardware

Ao reparar um servidor, o sistema valida o hardware do novo servidor de entrada e garante que o servidor atenda aos requisitos de hardware antes de ser adicionado ao cluster.

Componente Marcar de conformidade
CPU Valide se o novo servidor tem o mesmo número de núcleos de CPU ou mais. Se os núcleos de CPU no nó de entrada não atenderem a esse requisito, um aviso será apresentado. No entanto, a operação é permitida.
Memória Valide se o novo servidor tem a mesma quantidade de memória ou mais instalada. Se a memória no nó de entrada não atender a esse requisito, um aviso será apresentado. No entanto, a operação é permitida.
Unidades Valide se o novo servidor tem o mesmo número de unidades de dados disponíveis para Espaços de Armazenamento Diretos. Se o número de unidades no nó de entrada não atender a esse requisito, um erro será relatado e a operação será bloqueada.

Substituição de servidor

Você pode substituir todo o servidor:

  • Com um novo servidor que tem um número de série diferente em comparação com o servidor antigo.
  • Com o servidor atual depois que você a refazer a imagem.

Há suporte para os seguintes cenários durante a substituição do servidor:

Servidor Disco Com suporte
Novo servidor Novos discos Yes
Novo servidor Discos atuais Yes
Servidor atual (refazer imagem) Discos atuais reformatados * No
Servidor atual (refazer imagem) Novos discos Yes
Servidor atual (refazer imagem) Discos atuais Yes

**Os discos que foram usados pelo Espaços de Armazenamento Diretos exigem limpeza adequada. Reformatação não é suficiente. Veja como Limpar unidades.

Importante

Se você substituir um componente durante o reparo do servidor, não precisará substituir nem redefinir unidades de dados. Se você substituir uma unidade ou redefini-la, a unidade não será reconhecida depois que o servidor ingressar no cluster.

Substituição de componentes

No cluster do Azure Stack HCI, os componentes não permutáveis a quente incluem os seguintes itens:

  • Placa-mãe/BMC (controlador BMC de gerenciamento da placa base)/placa de vídeo
  • Controlador de disco/adaptador de barramento de host (HBA)/backplace
  • Adaptador de rede
  • Unidade de processamento gráfico
  • Unidades de dados (unidades que não suportam o intercâmbio, por exemplo, placas de suplemento PCI-e)

As etapas de substituição reais para componentes não permutáveis variam de acordo com o fornecedor de hardware OEM (fabricante do equipamento original). Consulte a documentação do fornecedor do OEM se um reparo de servidor for necessário para componentes não permutáveis.

Pré-requisitos

Antes de reparar um servidor, você deve garantir que:

  • AzureStackLCMUser está ativo no Active Directory. Para obter mais informações, consulte Preparar o Active Directory.
  • Conectado como AzureStackLCMUser ou outro usuário com permissões equivalentes.
  • As credenciais do AzureStackLCMUser não foram alteradas.

Reparar um servidor

Esta seção descreve como reparar um servidor usando o PowerShell, monitorar o status da Repair-Server operação e solucionar problemas, se houver algum problema.

Verifique se você revisou os pré-requisitos.

Siga estas etapas no servidor que você está tentando reparar.

  1. Instale o sistema operacional e os drivers necessários. Siga as etapas em Instalar o Azure Stack HCI, versão 23H2 Sistema Operacional.

    Observação

    Você também deve instalar as funções necessárias do Windows.

  2. Registre o servidor com o Arc. Siga as etapas em Registrar com Arc e configurar permissões.

    Observação

    Você deve usar os mesmos parâmetros que os nós existentes para se registrar no Arc. Por exemplo: Nome do Grupo de Recursos, Região, Assinatura e Tentante.

Siga estas etapas em outro servidor que seja membro do mesmo cluster do Azure Stack HCI.

  1. Antes de adicionar o servidor, certifique-se de obter um token de autenticação atualizado. Execute o comando a seguir:

     Update-AuthenticationToken
    
  2. Entre no servidor que já é membro do cluster, com as credenciais de usuário de domínio fornecidas durante a implantação do cluster. Execute o seguinte comando para reparar o servidor de entrada:

    $Cred = Get-Credential 
    Repair-Server -Name "< Name of the new server>" -LocalAdminCredential $Cred
    
  3. Anote a ID da operação como saída pelo Repair-Server comando . Você usará isso mais tarde para monitorar o progresso da Repair-Server operação.

Monitorar o progresso da operação

Para monitorar o progresso da operação adicionar servidor, siga estas etapas:

  1. Execute o cmdlet a seguir e forneça a ID da operação da etapa anterior.

    $ID = "<Operation ID>" 
    Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID 
    
  2. Depois que a operação for concluída, o trabalho de rebalanceamento de armazenamento em segundo plano continuará a ser executado. Aguarde a conclusão do trabalho de reequilíbrio de armazenamento. Para verificar o progresso deste trabalho de rebalanceamento de armazenamento, use o seguinte cmdlet:

    Get-VirtualDisk|Get-StorageJob
    

    Se o trabalho de rebalanceamento de armazenamento for concluído, o cmdlet não retornará uma saída.

Cenários de recuperação

Os seguintes cenários de recuperação e as etapas de mitigação recomendadas são tabulados para reparar um servidor:

Descrição do cenário Atenuação Com suporte?
Falha na operação de reparo do servidor. Para concluir a operação, investigue a falha.
Execute novamente a operação com falha usando Add-Server -Rerun.
Yes
A operação de reparo do servidor teve êxito parcialmente, mas teve que começar com uma nova instalação do sistema de operações. Nesse cenário, o orquestrador (também conhecido como Lifecycle Manager) já atualizou seu repositório de conhecimento com o novo servidor. Use o cenário do servidor de reparo. Yes

Solução de problemas

Se você tiver falhas ou erros ao reparar um servidor, poderá capturar a saída das falhas em um arquivo de log.

  • Entre com as credenciais de usuário de domínio fornecidas durante a implantação do cluster. Capture o problema nos arquivos de log.

    Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
    
  • Para executar novamente a operação com falha, use o seguinte cmdlet:

    Repair-Server -Rerun
    

Próximas etapas

Saiba mais sobre como adicionar um servidor.