Reparar um servidor no Azure Stack HCI, versão 23H2
Aplica-se a: Azure Stack HCI, versão 23H2
Este artigo descreve como reparar um servidor no cluster do Azure Stack HCI.
Sobre servidores de reparo
O Azure Stack HCI é um sistema hiperconvergente que permite reparar servidores de clusters existentes. Talvez seja necessário reparar um servidor em um cluster se houver uma falha de hardware.
Antes de reparar um servidor, certifique-se de marcar com seu provedor de soluções, quais componentes no servidor são FRUs (unidades de substituição de campo) que você pode substituir por conta própria e quais componentes exigiriam que um técnico substituísse.
As partes que dão suporte à troca dinâmica normalmente não exigem que você refaça a imagem do servidor, ao contrário dos componentes não permutáveis, como a placa-mãe. Consulte o fabricante do hardware para determinar quais substituições de componente exigiriam que você refazer a imagem do servidor. Para obter mais informações, consulte Substituição de componente.
Reparar fluxo de trabalho do servidor
O diagrama de fluxo a seguir mostra o processo geral para reparar um servidor.
*O servidor pode não estar em um estado em que o desligamento é possível ou necessário
Para reparar um servidor existente, siga estas etapas de alto nível:
Se possível, desligue o servidor que você deseja reparar. Dependendo do estado do servidor, um desligamento pode não ser possível ou necessário.
Refazer a imagem do servidor que precisa ser reparado.
Execute a operação de reparo do servidor. O sistema operacional, os drivers e o firmware do Azure Stack HCI são atualizados como parte da operação de reparo.
O armazenamento é rebalanceado automaticamente no servidor com imagem nova. O rebalanceamento de armazenamento é uma tarefa de baixa prioridade que pode ser executada por vários dias, dependendo do número de servidores e do armazenamento usado.
Cenários com suporte
Reparar um servidor refazer a imagem de um servidor e traz-o de volta para o cluster com o nome e a configuração anteriores.
Reparar um único servidor resulta em uma reimplantação com a opção de persistir os volumes de dados. Somente o volume do sistema é excluído e provisionado recentemente durante a implantação.
Importante
Verifique se você sempre tem backups para suas cargas de trabalho e não depende apenas da resiliência do sistema. Isso é especialmente crítico em cenários de servidor único.
Configurações de resiliência
Nesta versão, para a operação de reparo do servidor, tarefas específicas não são executadas nos volumes de carga de trabalho que você criou após a implantação. Para a operação de reparo do servidor, somente os volumes de infraestrutura necessários e os volumes de carga de trabalho são restaurados e exibidos como CSVs (volumes compartilhados de cluster).
Os outros volumes de carga de trabalho criados após a implantação ainda são retidos e você pode descobrir esses volumes executando Get-VirtuaDisk
o cmdlet . Você precisará desbloquear manualmente o volume (se o volume tiver o BitLocker habilitado) e criar um CSV (se necessário).
Requisitos de hardware
Ao reparar um servidor, o sistema valida o hardware do novo servidor de entrada e garante que o servidor atenda aos requisitos de hardware antes de ser adicionado ao cluster.
Componente | Marcar de conformidade |
---|---|
CPU | Valide se o novo servidor tem o mesmo número de núcleos de CPU ou mais. Se os núcleos de CPU no nó de entrada não atenderem a esse requisito, um aviso será apresentado. No entanto, a operação é permitida. |
Memória | Valide se o novo servidor tem a mesma quantidade de memória ou mais instalada. Se a memória no nó de entrada não atender a esse requisito, um aviso será apresentado. No entanto, a operação é permitida. |
Unidades | Valide se o novo servidor tem o mesmo número de unidades de dados disponíveis para Espaços de Armazenamento Diretos. Se o número de unidades no nó de entrada não atender a esse requisito, um erro será relatado e a operação será bloqueada. |
Substituição de servidor
Você pode substituir todo o servidor:
- Com um novo servidor que tem um número de série diferente em comparação com o servidor antigo.
- Com o servidor atual depois que você a refazer a imagem.
Há suporte para os seguintes cenários durante a substituição do servidor:
Servidor | Disco | Com suporte |
---|---|---|
Novo servidor | Novos discos | Yes |
Novo servidor | Discos atuais | Yes |
Servidor atual (refazer imagem) | Discos atuais reformatados * | No |
Servidor atual (refazer imagem) | Novos discos | Yes |
Servidor atual (refazer imagem) | Discos atuais | Yes |
**Os discos que foram usados pelo Espaços de Armazenamento Diretos exigem limpeza adequada. Reformatação não é suficiente. Veja como Limpar unidades.
Importante
Se você substituir um componente durante o reparo do servidor, não precisará substituir nem redefinir unidades de dados. Se você substituir uma unidade ou redefini-la, a unidade não será reconhecida depois que o servidor ingressar no cluster.
Substituição de componentes
No cluster do Azure Stack HCI, os componentes não permutáveis a quente incluem os seguintes itens:
- Placa-mãe/BMC (controlador BMC de gerenciamento da placa base)/placa de vídeo
- Controlador de disco/adaptador de barramento de host (HBA)/backplace
- Adaptador de rede
- Unidade de processamento gráfico
- Unidades de dados (unidades que não suportam o intercâmbio, por exemplo, placas de suplemento PCI-e)
As etapas de substituição reais para componentes não permutáveis variam de acordo com o fornecedor de hardware OEM (fabricante do equipamento original). Consulte a documentação do fornecedor do OEM se um reparo de servidor for necessário para componentes não permutáveis.
Pré-requisitos
Antes de reparar um servidor, você deve garantir que:
AzureStackLCMUser
está ativo no Active Directory. Para obter mais informações, consulte Preparar o Active Directory.- Conectado como
AzureStackLCMUser
ou outro usuário com permissões equivalentes. - As credenciais do
AzureStackLCMUser
não foram alteradas.
Se necessário, use o servidor que você identificou para reparo offline. Siga as etapas aqui:
Reparar um servidor
Esta seção descreve como reparar um servidor usando o PowerShell, monitorar o status da Repair-Server
operação e solucionar problemas, se houver algum problema.
Verifique se você revisou os pré-requisitos.
Siga estas etapas no servidor que você está tentando reparar.
Instale o sistema operacional e os drivers necessários. Siga as etapas em Instalar o Azure Stack HCI, versão 23H2 Sistema Operacional.
Observação
Você também deve instalar as funções necessárias do Windows.
Registre o servidor com o Arc. Siga as etapas em Registrar com Arc e configurar permissões.
Observação
Você deve usar os mesmos parâmetros que os nós existentes para se registrar no Arc. Por exemplo: Nome do Grupo de Recursos, Região, Assinatura e Tentante.
Siga estas etapas em outro servidor que seja membro do mesmo cluster do Azure Stack HCI.
Antes de adicionar o servidor, certifique-se de obter um token de autenticação atualizado. Execute o comando a seguir:
Update-AuthenticationToken
Entre no servidor que já é membro do cluster, com as credenciais de usuário de domínio fornecidas durante a implantação do cluster. Execute o seguinte comando para reparar o servidor de entrada:
$Cred = Get-Credential Repair-Server -Name "< Name of the new server>" -LocalAdminCredential $Cred
Anote a ID da operação como saída pelo
Repair-Server
comando . Você usará isso mais tarde para monitorar o progresso daRepair-Server
operação.
Monitorar o progresso da operação
Para monitorar o progresso da operação adicionar servidor, siga estas etapas:
Execute o cmdlet a seguir e forneça a ID da operação da etapa anterior.
$ID = "<Operation ID>" Start-MonitoringActionplanInstanceToComplete -actionPlanInstanceID $ID
Depois que a operação for concluída, o trabalho de rebalanceamento de armazenamento em segundo plano continuará a ser executado. Aguarde a conclusão do trabalho de reequilíbrio de armazenamento. Para verificar o progresso deste trabalho de rebalanceamento de armazenamento, use o seguinte cmdlet:
Get-VirtualDisk|Get-StorageJob
Se o trabalho de rebalanceamento de armazenamento for concluído, o cmdlet não retornará uma saída.
Cenários de recuperação
Os seguintes cenários de recuperação e as etapas de mitigação recomendadas são tabulados para reparar um servidor:
Descrição do cenário | Atenuação | Com suporte? |
---|---|---|
Falha na operação de reparo do servidor. | Para concluir a operação, investigue a falha. Execute novamente a operação com falha usando Add-Server -Rerun . |
Yes |
A operação de reparo do servidor teve êxito parcialmente, mas teve que começar com uma nova instalação do sistema de operações. | Nesse cenário, o orquestrador (também conhecido como Lifecycle Manager) já atualizou seu repositório de conhecimento com o novo servidor. Use o cenário do servidor de reparo. | Yes |
Solução de problemas
Se você tiver falhas ou erros ao reparar um servidor, poderá capturar a saída das falhas em um arquivo de log.
Entre com as credenciais de usuário de domínio fornecidas durante a implantação do cluster. Capture o problema nos arquivos de log.
Get-ActionPlanInstance -ActionPlanInstanceID $ID |out-file log.txt
Para executar novamente a operação com falha, use o seguinte cmdlet:
Repair-Server -Rerun
Próximas etapas
Saiba mais sobre como adicionar um servidor.
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de