Reparar um servidor no Azure Stack HCI, versão 23H2

Artigo
04/13/2024

Aplica-se a: Azure Stack HCI, versão 23H2

Este artigo descreve como reparar um servidor no cluster do Azure Stack HCI.

Sobre servidores de reparo

O Azure Stack HCI é um sistema hiperconvergente que permite reparar servidores de clusters existentes. Talvez seja necessário reparar um servidor em um cluster se houver uma falha de hardware.

Antes de reparar um servidor, certifique-se de marcar com seu provedor de soluções, quais componentes no servidor são FRUs (unidades de substituição de campo) que você pode substituir por conta própria e quais componentes exigiriam que um técnico substituísse.

As partes que dão suporte à troca dinâmica normalmente não exigem que você refaça a imagem do servidor, ao contrário dos componentes não permutáveis, como a placa-mãe. Consulte o fabricante do hardware para determinar quais substituições de componente exigiriam que você refazer a imagem do servidor. Para obter mais informações, consulte Substituição de componente.

Reparar fluxo de trabalho do servidor

O diagrama de fluxo a seguir mostra o processo geral para reparar um servidor.

*O servidor pode não estar em um estado em que o desligamento é possível ou necessário

Para reparar um servidor existente, siga estas etapas de alto nível:

Se possível, desligue o servidor que você deseja reparar. Dependendo do estado do servidor, um desligamento pode não ser possível ou necessário.
Refazer a imagem do servidor que precisa ser reparado.
Execute a operação de reparo do servidor. O sistema operacional, os drivers e o firmware do Azure Stack HCI são atualizados como parte da operação de reparo.

O armazenamento é rebalanceado automaticamente no servidor com imagem nova. O rebalanceamento de armazenamento é uma tarefa de baixa prioridade que pode ser executada por vários dias, dependendo do número de servidores e do armazenamento usado.

Cenários com suporte

Reparar um servidor refazer a imagem de um servidor e traz-o de volta para o cluster com o nome e a configuração anteriores.

Reparar um único servidor resulta em uma reimplantação com a opção de persistir os volumes de dados. Somente o volume do sistema é excluído e provisionado recentemente durante a implantação.

Importante

Verifique se você sempre tem backups para suas cargas de trabalho e não depende apenas da resiliência do sistema. Isso é especialmente crítico em cenários de servidor único.

Configurações de resiliência

Nesta versão, para a operação de reparo do servidor, tarefas específicas não são executadas nos volumes de carga de trabalho que você criou após a implantação. Para a operação de reparo do servidor, somente os volumes de infraestrutura necessários e os volumes de carga de trabalho são restaurados e exibidos como CSVs (volumes compartilhados de cluster).

Os outros volumes de carga de trabalho criados após a implantação ainda são retidos e você pode descobrir esses volumes executando Get-VirtuaDisk o cmdlet . Você precisará desbloquear manualmente o volume (se o volume tiver o BitLocker habilitado) e criar um CSV (se necessário).

Requisitos de hardware

Ao reparar um servidor, o sistema valida o hardware do novo servidor de entrada e garante que o servidor atenda aos requisitos de hardware antes de ser adicionado ao cluster.

Componente	Marcar de conformidade
CPU	Valide se o novo servidor tem o mesmo número de núcleos de CPU ou mais. Se os núcleos de CPU no nó de entrada não atenderem a esse requisito, um aviso será apresentado. No entanto, a operação é permitida.
Memória	Valide se o novo servidor tem a mesma quantidade de memória ou mais instalada. Se a memória no nó de entrada não atender a esse requisito, um aviso será apresentado. No entanto, a operação é permitida.
Unidades	Valide se o novo servidor tem o mesmo número de unidades de dados disponíveis para Espaços de Armazenamento Diretos. Se o número de unidades no nó de entrada não atender a esse requisito, um erro será relatado e a operação será bloqueada.

Substituição de servidor

Você pode substituir todo o servidor:

Com um novo servidor que tem um número de série diferente em comparação com o servidor antigo.
Com o servidor atual depois que você a refazer a imagem.

Há suporte para os seguintes cenários durante a substituição do servidor:

Servidor	Disco	Com suporte
Novo servidor	Novos discos	Yes
Novo servidor	Discos atuais	Yes
Servidor atual (refazer imagem)	Discos atuais reformatados *	No
Servidor atual (refazer imagem)	Novos discos	Yes
Servidor atual (refazer imagem)	Discos atuais	Yes

**Os discos que foram usados pelo Espaços de Armazenamento Diretos exigem limpeza adequada. Reformatação não é suficiente. Veja como Limpar unidades.

Importante

Se você substituir um componente durante o reparo do servidor, não precisará substituir nem redefinir unidades de dados. Se você substituir uma unidade ou redefini-la, a unidade não será reconhecida depois que o servidor ingressar no cluster.

Substituição de componentes

No cluster do Azure Stack HCI, os componentes não permutáveis a quente incluem os seguintes itens:

Placa-mãe/BMC (controlador BMC de gerenciamento da placa base)/placa de vídeo
Controlador de disco/adaptador de barramento de host (HBA)/backplace
Adaptador de rede
Unidade de processamento gráfico
Unidades de dados (unidades que não suportam o intercâmbio, por exemplo, placas de suplemento PCI-e)

As etapas de substituição reais para componentes não permutáveis variam de acordo com o fornecedor de hardware OEM (fabricante do equipamento original). Consulte a documentação do fornecedor do OEM se um reparo de servidor for necessário para componentes não permutáveis.

Pré-requisitos

Antes de reparar um servidor, você deve garantir que:

AzureStackLCMUser está ativo no Active Directory. Para obter mais informações, consulte Preparar o Active Directory.
Conectado como AzureStackLCMUser ou outro usuário com permissões equivalentes.
As credenciais do AzureStackLCMUser não foram alteradas.

Se necessário, use o servidor que você identificou para reparo offline. Siga as etapas aqui: