Validar um cluster do Azure Stack HCI

Aplica-se a: Azure Stack HCI, versões 21H2 e 20H2; Windows Server 2022, Windows Server 2019

Embora o assistente de cluster Create em Windows Admin Center execute certas validações para criar um cluster de trabalho com o hardware selecionado, a validação do cluster realiza verificações adicionais para garantir que o cluster funcionará num ambiente de produção. Este artigo de como fazer centra-se no porquê da validação do cluster ser importante, e quando executá-lo em um cluster HCI Azure Stack.

Recomendamos a realização da validação do cluster para os seguintes cenários primários:

  • Depois de implementar um cluster de servidor, execute a ferramenta Validate-DCB para testar a rede.
  • Depois de atualizar um cluster de servidor, dependendo do seu cenário, executar ambas as opções de validação para resolver problemas de cluster.
  • Depois de configurar a replicação com Armazenamento Replica, valide que a replicação está a decorrer normalmente, verificando alguns eventos específicos e executando alguns comandos.
  • Depois de criar um cluster de servidor, executar a ferramenta Validate-DCB antes de colocá-la em produção.

O que é validação de clusters?

A validação do cluster destina-se a capturar problemas de hardware ou de configuração antes de um cluster entrar em produção. A validação do cluster ajuda a garantir que a solução HCI Azure Stack que está prestes a implementar é verdadeiramente fiável. Também pode utilizar a validação do cluster em aglomerados de falha configurados como uma ferramenta de diagnóstico.

Cenários de validação específicos

Esta secção descreve cenários em que a validação também é necessária ou útil.

  • Validação antes de o cluster ser configurado:

    • Um conjunto de servidores prontos para se tornar um cluster de falha: Este é o cenário de validação mais simples. Os componentes de hardware (sistemas, redes e armazenamento) estão ligados, mas os sistemas ainda não funcionam como um cluster. A realização de testes nesta situação não afeta a disponibilidade.

    • VMs do servidor: Para servidores virtualizados num cluster, executar a validação do cluster como faria em qualquer outro novo cluster. A exigência de executar a funcionalidade é a mesma se tiver:

      • Um "cluster hospedeiro" onde ocorre uma falha entre dois computadores físicos.
      • Um "cluster de hóspedes" onde ocorre a falha entre os sistemas operativos dos hóspedes no mesmo computador físico.
  • Validação após o cluster ser configurado e em uso:

    • Antes de adicionar um servidor ao cluster: Quando adiciona um servidor a um cluster, recomendamos fortemente a validação do cluster. Especifique tanto os membros do cluster existentes como o novo servidor quando executar a validação do cluster.

    • Ao adicionar unidades: Quando adicionar unidades adicionais ao cluster, que é diferente de substituir unidades falhadas ou criar discos virtuais ou volumes que dependem das unidades existentes, executar a validação do cluster para confirmar que o novo armazenamento funcionará corretamente.

    • Ao efe assim fazer alterações que afetem o firmware ou os controladores: Se atualizar ou fazer alterações no cluster que afetem o firmware ou os controladores, tem de executar a validação do cluster para confirmar que a nova combinação de hardware, firmware, controladores e software suporta a funcionalidade do cluster failover.

    • Depois de restaurar um sistema de backup: Depois de restaurar um sistema de backup, executar a validação do cluster para confirmar que o sistema funciona corretamente como parte de um cluster.

Validar a rede

A ferramenta Microsoft Validate-DCB foi concebida para validar a configuração de Bridging Data Center (DCB) no cluster. Para isso, a ferramenta requer uma configuração esperada como entrada e, em seguida, testa cada servidor no cluster. Esta secção abrange como instalar e executar a ferramenta Validate-DCB, rever os resultados e resolver erros de rede que a ferramenta identifica.

Nota

A Microsoft recomenda a implementação e gestão da sua configuração com o ATC da rede, o que elimina a maioria dos desafios de configuração que a ferramenta Validate-DCB verifica. Para saber mais sobre a Rede ATC, que fornece uma abordagem baseada em intenções para a implementação da rede de anfitriões, consulte simplificar a rede de anfitriões com a Rede ATC.

Na rede, o acesso remoto à memória direta (RDMA) sobre o Converged Ethernet (RoCE) requer tecnologias DCB para tornar o tecido de rede sem perdas. Com o iWARP, o DCB é opcional. No entanto, configurar o DCB pode ser complexo, com uma configuração exata necessária em toda:

  • Cada servidor no cluster
  • Cada porta de rede que o tráfego RDMA passa no tecido

Pré-requisitos

  • Informações de configuração da rede do cluster do servidor que pretende validar, incluindo:
    • Nome do cluster do anfitrião ou do servidor
    • Nome do interruptor virtual
    • Nomes do adaptador de rede
    • Definições prioritárias de controlo Flow (PFC) e de seleção de transmissão melhorada (ETS)
  • Uma ligação à Internet para descarregar o módulo de ferramentas em Windows PowerShell da Microsoft.

Instale e execute a ferramenta Validate-DCB

Para instalar e executar a ferramenta Validate-DCB:

  1. No seu PC de gestão, abra uma sessão de Windows PowerShell como Administrador e, em seguida, utilize o seguinte comando para instalar a ferramenta.

    Install-Module Validate-DCB
    
  2. Aceite os pedidos para utilizar o fornecedor NuGet e aceda ao repositório para instalar a ferramenta.

  3. Depois de o PowerShell ligar-se à rede microsoft para descarregar a ferramenta, digite Validate-DCB e prima Enter para iniciar o assistente de ferramentas.

    Nota

    Se não conseguir executar o script da ferramenta Validate-DCB, poderá ter de ajustar as suas políticas de execução PowerShell. Utilize o Get-ExecutionPolicy cmdlet para ver as definições atuais da política de execução do script. Para obter informações sobre a definição de políticas de execução no PowerShell, consulte Sobre as Políticas de Execução.

  4. Na página de assistente de configuração Valide-DCB, selecione Seguinte.

  5. Na página Clusters e Nodes, digite o nome do cluster do servidor que pretende validar, selecione Resolver para listá-lo na página e, em seguida, selecione Seguinte.

    The Clusters and Nodes page of the Validate-DCB configuration wizard

  6. Na página dos Adaptadores:

    1. Selecione a caixa de verificação anexa vSwitch e digite o nome do vSwitch.
    2. Em Nome adaptador, digite o nome de cada NIC físico, em Nome do Anfitrião vNIC, o nome de cada NIC virtual (vNIC), e em VLAN, o ID VLAN em uso para cada adaptador.
    3. Expandir a caixa de lista de drop-down do tipo RDMA e selecionar o protocolo apropriado: RoCE ou iWARP. Também desagram quadros jumbo para o valor apropriado para a sua rede e, em seguida, selecione Next.

    The Adapters page of the Validate-DCB configuration wizard

    Nota

  7. Na página de ponte do Data Center, modifique os valores para corresponder às definições da sua organização para Reserva prioritária, de nome de política e de largura de banda e, em seguida, selecione Seguinte.

    The Data Center Bridging page of the Validate-DCB configuration wizard

    Nota

    A seleção de RDMA sobre o RoCE na página de assistente anterior requer DCB para a fiabilidade da rede em todos os NICs e switchports.

  8. Na página 'Guardar e implementar', na caixa 'Caminho do Ficheiro de Configuração ', guarde o ficheiro de configuração utilizando uma extensão .ps1 para um local onde poderá utilizá-lo novamente mais tarde, se necessário, e, em seguida, selecione Export para começar a executar a ferramenta Valide-DCB.

    • Pode implantar opcionalmente o seu ficheiro de configuração preenchendo a secção de Configuração de Implantação para Nós da página, que inclui a capacidade de utilizar uma conta Automatização do Azure para implementar a configuração e depois validá-la. Consulte criar uma conta Automatização do Azure para começar com Automatização do Azure.

    The Save and Deploy page of the Validate-DCB configuration wizard

Rever resultados e corrigir erros

A ferramenta Validate-DCB produz resultados em duas unidades:

  1. Os resultados da [Unidade Global] listam pré-requisitos e requisitos para a execução dos testes modais.
  2. Os resultados [Da Unidade Modal] fornecem feedback sobre cada configuração de hospedeiro de cluster e as melhores práticas.

Este exemplo mostra resultados de verificação bem-sucedidos de um único servidor para todos os pré-requisitos e testes de unidade modal indicando uma Contagem Falhada de 0.

Validate-DCB Global unit and Modal unit test results

Os seguintes passos mostram como identificar um erro do Jumbo Packet do vNIC SMB02 e corrigi-lo:

  1. Os resultados das verificações da ferramenta Validate-DCB mostram um erro de contagem falhada de 1.

    Validate-DCB tool scan results showing a a Failed Count error of 1

  2. A reposição dos resultados mostra um erro a vermelho indicando que o Pacote Jumbo para vNIC SMB02 no Host S046036 é definido no tamanho padrão de 1514, mas deve ser definido para 9014.

    Validate-DCB tool scan result showing a jumbo packet size setting error

  3. A revisão das propriedades avançadas do vNIC SMB02 no Host S046036 mostra que o Pacote Jumbo está definido para o padrão de Desativado.

    The Server host's Hyper-V Advanced properties Jumbo Packet setting

  4. A correção do erro requer ativar a função Jumbo Packet e alterar o seu tamanho para bytes 9014. Executar novamente a verificação no anfitrião S046036 confirma esta alteração devolvendo uma Contagem Falhada de 0.

    Validate-DCB scan results confirming that the Server host's Jumbo Packet setting is fixed

Para saber mais sobre a resolução de erros que a ferramenta Validate-DCB identifica, consulte o seguinte vídeo.

Também pode instalar a ferramenta offline. Para sistemas desligados, utilize Save-Module -Name Validate-DCB -Path c:\temp\Validate-DCB e, em seguida, mova os módulos em c:\temp\Validate-DCB para o seu sistema desligado. Para mais informações, consulte o seguinte vídeo.

Validar o cluster

Utilize os seguintes passos para validar os servidores num cluster existente em Windows Admin Center.

  1. Em Windows Admin Center, em todas as ligações, selecione o cluster HCI Azure Stack que pretende validar e, em seguida, selecione Ligação.

    O Painel de Controlo do Cluster apresenta informações gerais sobre o cluster.

  2. No painel de instrumentos do Cluster Manager, em Ferramentas, selecione Servidores.

  3. Na página 'Inventário' , selecione os servidores do cluster e, em seguida, expanda o submenu Mais e selecione o cluster Validate.

  4. Na janela pop-up do Cluster Valide , selecione Sim.

    Validate Cluster pop-up window

  5. Na janela pop-up do Serviço de Segurança Credencial (CredSSP), selecione Sim.

  6. Forneça as suas credenciais para ativar o CredSSP e, em seguida, selecione Continue.
    A validação do cluster é em segundo plano e dá-lhe uma notificação quando estiver concluída, altura em que pode ver o relatório de validação, como descrito na secção seguinte.

Nota

Depois de os seus servidores de cluster terem sido validados, terá de desativar o CredSSP por razões de segurança.

Desativar o CredSSP

Depois de o seu cluster de servidor ser validado com sucesso, terá de desativar o protocolo Do Fornecedor de Suporte de Segurança Credencial (CredSSP) em cada servidor para fins de segurança. Para mais informações, consulte O CVE-2018-0886.

  1. Em Windows Admin Center, em todas as ligações, selecione o primeiro servidor do seu cluster e, em seguida, selecione Ligação.

  2. Na página 'Visão Geral ', selecione Disable CredSSP e, em seguida, na janela pop-up Desativada CredSSP , selecione Sim.

    O resultado do Passo 2 remove o banner vermelho credSSP ENABLED na parte superior da página geral do servidor e desativa o CredSSP nos outros servidores.

Ver relatórios de validação

Agora está pronto para ver o seu relatório de validação do agrupamento.

Existem algumas formas de aceder aos relatórios de validação:

  • Na página 'Inventário ', expanda o submenu Mais e, em seguida, selecione Ver relatórios de validação.

  • No superior direito de Windows Admin Center, selecione o ícone da campainha de Notificações para exibir o painel de Notificações. Selecione o aviso de cluster validado com sucesso e, em seguida, selecione Ir para relatório de validação do Cluster Failover.

Nota

O processo de validação do cluster do servidor pode demorar algum tempo a ser concluído. Não mude para outra ferramenta em Windows Admin Center enquanto o processo estiver em curso. No painel de Notificações , uma barra de estado abaixo do aviso de cluster Validate indica quando o processo está concluído.

Validar o cluster utilizando o PowerShell

Também pode utilizar Windows PowerShell para realizar testes de validação no seu cluster de servidor e ver os resultados. Pode fazer testes antes e depois de configurar um aglomerado.

Para executar um teste de validação num cluster de servidor, emita o conjunto de agrupamentos>Get-Cluster e Test-Clusterserver< PowerShell cmdlets do seu PC de gestão ou execute apenas o cmdlet Test-Cluster diretamente no cluster:

$Cluster = Get-Cluster -Name 'server-cluster1'
Test-Cluster -InputObject $Cluster -Verbose

Para obter mais exemplos e informações de utilização, consulte a documentação de referência do Test-Cluster .

Test-NetStack é uma ferramenta de teste baseada em PowerShell disponível a partir de GitHub que pode utilizar para realizar testes de tráfego de redes ICMP, TCP e RDMA e identificar potenciais tecidos de rede e hospedeiros de configurações erradas ou instabilidade operacional. Utilize Test-NetStack para validar os caminhos de dados de rede, testando caminhos de dados de rede nativos, sintéticos e descarregados de hardware (RDMA) para problemas com conectividade, fragmentação de pacotes, baixa produção e congestionamento.

Validar a replicação para Armazenamento replicação

Se estiver a usar Armazenamento Replica para replicar volumes num cluster esticado ou cluster-to-cluster, existem vários eventos e cmdlets que pode usar para obter o estado de replicação.

No cenário seguinte, configuramos Armazenamento Replica criando grupos de replicação (RGs) para dois sites, e depois especificámos os volumes de dados e volumes de registo para os nós do servidor de origem no Site1 (Server1, Server2) e os nós de servidor de destino (replicados) no Site2 (Server3, Server4).

Para determinar o progresso da replicação do Server1 no Site1, executar o comando Get-WinEvent e examinar os eventos 5015, 5002, 5004, 1237, 5001 e 2200:

Get-WinEvent -ComputerName Server1 -ProviderName Microsoft-Windows-StorageReplica -max 20

Para o Server3 no Site2, executar o seguinte Get-WinEvent comando para ver os eventos Armazenamento Replica que mostram a criação da parceria. Este evento indica o número de bytes copiados e o tempo decorrido. Por exemplo:

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | Where-Object {$_.ID -eq "1215"} | FL

Para o Server3 no Site2, executar o comando e examinar os Get-WinEvent eventos 5009, 1237, 5001, 5015, 5005 e 2200 para entender o progresso do processamento. Não deverá ser apresentado nenhum aviso de erro nesta sequência. Haverá muitos 1237 eventos - estes indicam progressos.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Alternadamente, o grupo de servidores de destino para a réplica indica o número de byte restantes para copiar em todos os momentos, e pode ser consultado através do PowerShell com Get-SRGroup. Por exemplo:

(Get-SRGroup).Replicas | Select-Object numofbytesremaining

Para o nó Server3 no Site2, executar o seguinte comando e examinar os eventos 5009, 1237, 5001, 5015, 5005 e 2200 para entender o progresso da replicação. Não deve haver avisos de erros. No entanto, haverá muitos eventos "1237" - estes apenas indicam progressos.

Get-WinEvent -ComputerName Server3 -ProviderName Microsoft-Windows-StorageReplica | FL

Como um roteiro de progresso que não terminará:

while($true) {
$v = (Get-SRGroup -Name "Replication2").replicas | Select-Object numofbytesremaining
[System.Console]::Write("Number of bytes remaining: {0}`r", $v.numofbytesremaining)
Start-Sleep -s 5
}

Para obter o estado de replicação dentro do aglomerado esticado, use Get-SRGroup e Get-SRPartnership:

Get-SRGroup -Cluster ClusterS1
Get-SRPartnership -Cluster ClusterS1
(Get-SRGroup).replicas -Cluster ClusterS1

Uma vez confirmada a replicação de dados bem sucedida entre sites, pode criar os seus VMs e outras cargas de trabalho.

Ver também