Ver falhas de Serviço de Estado de Funcionamento

Aplica-se a: Azure Stack HCI, versões 21H2 e 20H2; Windows Server 2022, Windows Server 2019

O Serviço de Estado de Funcionamento monitoriza constantemente o seu Espaços de Armazenamento o cluster Direct para detetar problemas e gerar "falhas". Um cmdlet apresenta quaisquer falhas de corrente, permitindo-lhe verificar facilmente a saúde da sua implantação sem olhar para todas as entidades ou funcionalidades por sua vez. As Falhas foram concebidas para serem precisas, fáceis de compreender e passíveis de ação.

Cada falha contém cinco campos importantes:

  • Gravidade
  • Descrição do problema
  • Os próximos passos recomendados para resolver o problema
  • Informações de identificação para a entidade com falha
  • A sua localização física (se aplicável)

Por exemplo, eis uma falha comum:

Severity: MINOR
Reason: Connectivity has been lost to the physical disk.
Recommendation: Check that the physical disk is working and properly connected.
Part: Manufacturer Contoso, Model XYZ9000, Serial 123456789
Location: Seattle DC, Rack B07, Node 4, Slot 11

Nota

A localização física é derivada da sua configuração do domínio de falhas. Para obter mais informações sobre domínios de falhas, consulte a consciência do domínio de falha. Se não fornecer estas informações, o campo de localização é menos útil. Por exemplo, só pode mostrar o número da ranhura.

Análise da origem do problema

O Serviço de Estado de Funcionamento pode avaliar a potencial causalidade entre entidades defeituosas para identificar e combinar falhas que são consequências do mesmo problema subjacente. Ao reconhecer cadeias de efeitos, tal produz relatórios menos extensos. Por exemplo, se um servidor estiver em baixo, espera-se que quaisquer unidades dentro do servidor também não têm conectividade. Portanto, apenas uma falha será levantada para a causa da raiz - neste caso, o servidor.

Utilização em PowerShell

Para ver quaisquer falhas de corrente no PowerShell, executar o seguinte cmdlet:

Get-HealthFault

Isto devolve quaisquer falhas que afetem o cluster global Espaços de Armazenamento Direct. Na maioria das vezes, estas falhas dizem respeito a hardware ou configuração. Se não houver falhas, o cmdlet não devolve nada.

Nota

Num ambiente de não produção, e por sua conta e risco, pode experimentar esta funcionalidade desencadeando falhas por si mesmo. Por exemplo, pode fazê-lo removendo um disco físico ou desligando um nó. Depois de aparecer a falha, volte a inserir o disco físico ou reinicie o nó para fazer desaparecer a falha.

Utilização em .NET e C #

Esta secção mostra como ligar-se ao Serviço de Estado de Funcionamento, usar objetos de descoberta e executar consultas de falhas.

Ligar

Para consultar o Serviço de Estado de Funcionamento, estabelece-se uma CimSession com o cluster. Para tal, vai precisar de algumas coisas que só estão disponíveis em full Microsoft .NET, o que significa que não pode facilmente fazê-lo diretamente a partir de uma web ou aplicação móvel. As amostras de código nesta secção utilizam C#, a escolha mais simples para esta camada de acesso a dados.

using System.Security;
using Microsoft.Management.Infrastructure;

public CimSession Connect(string Domain = "...", string Computer = "...", string Username = "...", string Password = "...")
{
    SecureString PasswordSecureString = new SecureString();
    foreach (char c in Password)
    {
        PasswordSecureString.AppendChar(c);
    }

    CimCredential Credentials = new CimCredential(
        PasswordAuthenticationMechanism.Default, Domain, Username, PasswordSecureString);
    WSManSessionOptions SessionOptions = new WSManSessionOptions();
    SessionOptions.AddDestinationCredentials(Credentials);
    Session = CimSession.Create(Computer, SessionOptions);
    return Session;
}

O nome de utilizador fornecido deve ser um administrador local do computador-alvo.

Recomendamos a construção da Palavra-Passe SecureString diretamente a partir da entrada do utilizador em tempo real, para que a palavra-passe nunca seja armazenada na memória em texto claro. Isto ajuda a mitigar uma variedade de preocupações de segurança. Mas, na prática, construí-la como acima é comum para fins de prototipagem.

Descubra objetos

Com a CimSession estabelecida, pode consultar Windows Instrumentação de Gestão (WMI) no cluster.

Antes de obter Falhas ou Métricas, precisa de obter instâncias de vários objetos relevantes. Primeiro, obtenha o MSFT_StorageSubSystem que representa Espaços de Armazenamento Direto no cluster. Usando isso, você pode obter todos os MSFT_StorageNode no cluster, e cada MSFT_Volume dos volumes de dados. Finalmente, é preciso ter o MSCluster_ClusterHealthService,o Serviço de Estado de Funcionamento si mesmo.

CimInstance Cluster;
List<CimInstance> Nodes;
List<CimInstance> Volumes;
CimInstance HealthService;

public void DiscoverObjects(CimSession Session)
{
    // Get MSFT_StorageSubSystem for Storage Spaces Direct
    Cluster = Session.QueryInstances(@"root\microsoft\windows\storage", "WQL", "SELECT * FROM MSFT_StorageSubSystem")
        .First(Instance => (Instance.CimInstanceProperties["FriendlyName"].Value.ToString()).Contains("Cluster"));

    // Get MSFT_StorageNode for each cluster node
    Nodes = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
        Cluster, "MSFT_StorageSubSystemToStorageNode", null, "StorageSubSystem", "StorageNode").ToList();

    // Get MSFT_Volumes for each data volume
    Volumes = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
        Cluster, "MSFT_StorageSubSystemToVolume", null, "StorageSubSystem", "Volume").ToList();

    // Get MSFT_StorageHealth itself
    HealthService = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
        Cluster, "MSFT_StorageSubSystemToStorageHealth", null, "StorageSubSystem", "StorageHealth").First();
}

Estes são os mesmos objetos que obtém no PowerShell usando cmdlets como Get-StorageSubSystem,Get-StorageNodee Get-Volume.

Pode aceder a todas as mesmas propriedades, documentadas nas Aulas de API de Gestão de Armazenamento.

using System.Diagnostics;

foreach (CimInstance Node in Nodes)
{
    // For illustration, write each node's Name to the console. You could also write State (up/down), or anything else!
    Debug.WriteLine("Discovered Node " + Node.CimInstanceProperties["Name"].Value.ToString());
}

Falhas de consulta

Invocar o Diagnóstico para obter quaisquer falhas atuais no alvo CimInstance, que pode ser o cluster ou qualquer volume.

A lista completa de falhas disponíveis em cada âmbito em Windows Servidor 2019 é documentada mais tarde na secção Cobertura.

public void GetFaults(CimSession Session, CimInstance Target)
{
    // Set Parameters (None)
    CimMethodParametersCollection FaultsParams = new CimMethodParametersCollection();
    // Invoke API
    CimMethodResult Result = Session.InvokeMethod(Target, "Diagnose", FaultsParams);
    IEnumerable<CimInstance> DiagnoseResults = (IEnumerable<CimInstance>)Result.OutParameters["DiagnoseResults"].Value;
    // Unpack
    if (DiagnoseResults != null)
    {
        foreach (CimInstance DiagnoseResult in DiagnoseResults)
        {
            // TODO: Whatever you want!
        }
    }
}

Opcional: Classe MyFault

Pode fazer sentido construir e persistir a sua própria representação de falhas. Por exemplo, a classe MyFault armazena várias propriedades chave de falhas, incluindo o FaultId, que pode ser usado posteriormente para associar atualizações, remover notificações ou desduplicar no caso de a mesma falha ser detetada várias vezes.

public class MyFault {
    public String FaultId { get; set; }
    public String Reason { get; set; }
    public String Severity { get; set; }
    public String Description { get; set; }
    public String Location { get; set; }

    // Constructor
    public MyFault(CimInstance DiagnoseResult)
    {
        CimKeyedCollection<CimProperty> Properties = DiagnoseResult.CimInstanceProperties;
        FaultId     = Properties["FaultId"                  ].Value.ToString();
        Reason      = Properties["Reason"                   ].Value.ToString();
        Severity    = Properties["PerceivedSeverity"        ].Value.ToString();
        Description = Properties["FaultingObjectDescription"].Value.ToString();
        Location    = Properties["FaultingObjectLocation"   ].Value.ToString();
    }
}
List<MyFault> Faults = new List<MyFault>;

foreach (CimInstance DiagnoseResult in DiagnoseResults)
{
    Faults.Add(new Fault(DiagnoseResult));
}

A lista completa de propriedades em cada falha(DiagnoseResult)é documentada posteriormente na secção Propriedades fault.

Eventos de culpa

Quando as falhas são criadas, removidas ou atualizadas, o Serviço de Estado de Funcionamento gera eventos de WMI. Estes são essenciais para manter o seu estado de aplicação sincronizado sem sondagens frequentes, e podem ajudar com coisas como determinar quando enviar alertas de e-mail, por exemplo. Para subscrever estes eventos, o seguinte código de amostra utiliza o Padrão de Design do Observador.

Primeiro, subscreva MSFT_StorageFaultEvent eventos.

public void ListenForFaultEvents()
{
    IObservable<CimSubscriptionResult> Events = Session.SubscribeAsync(
        @"root\microsoft\windows\storage", "WQL", "SELECT * FROM MSFT_StorageFaultEvent");
    // Subscribe the Observer
    FaultsObserver<CimSubscriptionResult> Observer = new FaultsObserver<CimSubscriptionResult>(this);
    IDisposable Disposeable = Events.Subscribe(Observer);
}

Em seguida, implementar um Observador cujo método OnNext é invocado sempre que um novo evento é gerado.

Cada evento contém ChangeType que indica se uma falha é criada, removida ou atualizada, e o FaultIdrelevante .

Além disso, cada evento contém todas as propriedades da própria falha.

class FaultsObserver : IObserver
{
    public void OnNext(T Event)
    {
        // Cast
        CimSubscriptionResult SubscriptionResult = Event as CimSubscriptionResult;

        if (SubscriptionResult != null)
        {
            // Unpack
            CimKeyedCollection<CimProperty> Properties = SubscriptionResult.Instance.CimInstanceProperties;
            String ChangeType = Properties["ChangeType"].Value.ToString();
            String FaultId = Properties["FaultId"].Value.ToString();

            // Create
            if (ChangeType == "0")
            {
                Fault MyNewFault = new MyFault(SubscriptionResult.Instance);
                // TODO: Whatever you want!
            }
            // Remove
            if (ChangeType == "1")
            {
                // TODO: Use FaultId to find and delete whatever representation you have...
            }
            // Update
            if (ChangeType == "2")
            {
                // TODO: Use FaultId to find and modify whatever representation you have...
            }
        }
    }
    public void OnError(Exception e)
    {
        // Handle Exceptions
    }
    public void OnCompleted()
    {
        // Nothing
    }
}

Compreender o ciclo de vida da falha

As avarias não se destinam a ser marcadas como "vistas" ou resolvidas pelo utilizador. São criados quando o Serviço de Estado de Funcionamento observa um problema, e só são removidos automaticamente depois do Serviço de Estado de Funcionamento já não puder observar o problema. Em geral, isto reflete que o problema foi corrigido.

No entanto, em alguns casos, as falhas podem ser redescobertas pelo Serviço de Estado de Funcionamento, como após uma falha, conectividade intermitente, e assim por diante. Por esta razão, pode fazer sentido persistir a sua própria representação de falhas, para que possa facilmente desduplicar. Isto é especialmente importante se enviar alertas de e-mail ou o equivalente.

Propriedades de avaria

A tabela a seguir apresenta várias propriedades-chave do objeto de avaria. Para o esquema completo, inspecione a classe MSFT_StorageDiagnoseResult em storagewmi.mof.

Propriedade Exemplo
FaultId {12345-12345-12345-12345-12345}
FalhaType Microsoft.Health.FaultType.Volume.Capacidade
Razão "O volume está a ficar sem espaço disponível."
Perceção de Sempre 5
DefeitosObjectDescription Contoso XYZ9000 S.N. 123456789
Falha Nalocação de Falhas Rack A06, RU 25, Ranhura 11
Recomendações {"Expandir o volume.", "Migrar cargas de trabalho para outros volumes."}

FaultId: ID único no âmbito de um cluster.

PercepçãoSeverity: PercepçãoSeverity = { 4, 5, 6 } = {"Informational", "Warning" e "Error" }, ou cores equivalentes como azul, amarelo e vermelho.

FaultingObjectDscription: Part information for hardware, tipicamente em branco para objetos de software.

FaultingObjectLocation: Informações de localização para hardware, normalmente em branco para objetos de software.

Recomendações :Lista de ações recomendadas independentes e sem ordem específica. Hoje, esta lista é frequentemente de comprimento 1.

Propriedades de eventos de falha

A tabela a seguir apresenta várias propriedades-chave do evento de avaria. Para obter o esquema completo, inspecione a classe MSFT_StorageFaultEvent em storagewmi.mof.

Note o ChangeType que indica se uma falha está a ser criada, removida ou atualizada, e o FaultId. Um evento também contém todas as propriedades da falha afetada.

Propriedade Exemplo
AlterarType 0
FaultId {12345-12345-12345-12345-12345}
FalhaType Microsoft.Health.FaultType.Volume.Capacidade
Razão "O volume está a ficar sem espaço disponível."
Perceção de Sempre 5
DefeitosObjectDescription Contoso XYZ9000 S.N. 123456789
Falha Nalocação de Falhas Rack A06, RU 25, Ranhura 11
Recomendações {"Expandir o volume.", "Migrar cargas de trabalho para outros volumes."}

AlterarType Alterar oType = { 0, 1, 2 } = {"Criar", "Remover", "Atualizar" }.

Cobertura

Em Windows Server 2019 e Azure Stack HCI, o Serviço de Estado de Funcionamento fornece a seguinte cobertura de falha:

PhysicalDisk (31)

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailedMedia

  • Gravidade: aviso
  • Razão: "O disco físico falhou."
  • Recomendação Reação: "Substitua o disco físico."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.LostCommunication

  • Gravidade: aviso
  • Razão: "A conectividade foi perdida para o disco físico."
  • Recomendação Reação: "Verifique se o disco físico está a funcionar e corretamente ligado."

Tipo de falha: Microsoft.Health.FaultType.PhysicalDisk.Sem Resposta

  • Gravidade: aviso
  • Razão: "O disco físico está a exibir uma resposta recorrente."
  • Recomendação Reação: "Substitua o disco físico."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.PredictiveFailure

  • Gravidade: aviso
  • Razão: "Prevê-se que uma falha do disco físico ocorra em breve."
  • Recomendação Reação: "Substitua o disco físico."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnupportedHardware

  • Gravidade: aviso
  • Razão: "O disco físico está em quarentena porque não é suportado pelo seu fornecedor de solução."
  • Recomendação Dea: "Substitua o disco físico por hardware suportado."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnupportedFirmware

  • Gravidade: aviso
  • Razão: "O disco físico está em quarentena porque a sua versão firmware não é suportada pelo seu fornecedor de soluções."
  • Recomendação Reação: "Atualize o firmware no disco físico para a versão alvo."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnrecognizedMetadata

  • Gravidade: aviso
  • Razão: "O disco físico tem meta dados não reconhecidos."
  • Recomendação Reação: "Este disco pode conter dados de um conjunto de armazenamento desconhecido. Primeiro certifique-se de que não há dados úteis neste disco e depois reinicie o disco."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailedFirmwareUpdate

  • Gravidade: aviso
  • Razão: "Tentativa falhada de atualizar o firmware no disco físico."
  • Recomendação: "Tente usar um binário de firmware diferente."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.SblFailedMedia

  • Gravidade: aviso
  • Razão: "A unidade falhou."
  • Recomendação Deacção: "Substitua a unidade."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.SblUnresponsive

  • Gravidade: aviso
  • Razão: "O disco físico está a exibir uma resposta recorrente."
  • Recomendação Reação: "Substitua o disco físico."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureBadBlock

  • Gravidade: aviso
  • Razão: "A unidade relatou blocos maus durante as escritas. Um bloco ocasionalmente mau é normal, mas muitos podem significar que a unidade está avariada, danificada ou começando a falhar."
  • Recomendação: "Se isto continuar a acontecer ou observar o desempenho diminuído, considere substituir a unidade."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureBadBlockRead

  • Gravidade: aviso
  • Razão: "A unidade reportou blocos maus durante as leituras. Um bloco ocasionalmente mau é normal, mas muitos podem significar que a unidade está avariada, danificada ou começando a falhar."
  • Recomendação: "Se isto continuar a acontecer ou observar o desempenho diminuído, considere substituir a unidade."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureIoRetry

  • Gravidade: aviso
  • Razão: "A unidade precisava de várias tentativas para ler ou escrever. Se isto continuar a acontecer, pode significar que a unidade está avariada, danificada ou a começar a falhar."
  • Recomendação: "Se isto continuar a acontecer ou observar o desempenho diminuído, considere substituir a unidade."

Nota

Esta Falha é desativada por defeito. Para o ativar, defina o sistema de definição de saúde. Armazenamento. PhysicalDisk.MarginalFailure.EventBased.IoRetry.Enabled to true

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureIoFailure

  • Gravidade: aviso
  • Razão: "A unidade não leu ou escreveu. Se isto continuar a acontecer, pode significar que a unidade está avariada, danificada ou a começar a falhar."
  • Recomendação: "Se isto continuar a acontecer ou observar o desempenho diminuído, considere substituir a unidade."

Nota

Esta Falha é desativada por defeito. Para o ativar, defina o sistema de definição de saúde. Armazenamento. PhysicalDisk.MarginalFailure.EventBased.IoFailure.Habilitado a ser verdadeiro

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FaultSmart

  • Gravidade: aviso
  • Razão: "A unidade reportou os seguintes problemas potenciais para Windows utilizando SMART (Tecnologia de Auto-Monitorização, Análise e Reportagem)"
  • Recomendação: "Se isto continuar a acontecer ou observar o desempenho diminuído, considere substituir a unidade."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureHighWear

  • Gravidade: aviso
  • Razão: "A unidade atingiu uma percentagem elevada da sua resistência à escrita nominal. A unidade pode tornar-se apenas para ler, o que significa que não pode realizar mais escritas, quando atinge 100% da sua resistência nominal. Verifique a folha de dados ou peça ao fabricante mais detalhes sobre a classificação de resistência e o comportamento em fim de vida."
  • Recomendação: "Se isto continuar a acontecer ou observar o desempenho diminuído, considere substituir a unidade."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureReadOnly

  • Gravidade: aviso
  • Razão: "A unidade atingiu 100% da sua resistência à escrita nominal e agora é apenas para ler, o que significa que não pode realizar mais escritas. As unidades de estado sólido desgastam-se após um certo número de escritos, que variam consoante a classificação de resistência da unidade. Para mais detalhes, verifique as especificações de condução ou pergunte ao fabricante sobre a classificação de resistência e o comportamento em fim de vida."
  • Recomendação: "Se isto continuar a acontecer ou observar o desempenho diminuído, considere substituir a unidade."

Tipo de falhas: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.SlowestIO

  • Gravidade: aviso
  • Razão: "A unidade tem alta latência máxima."
  • Recomendação Reação: "Monitorize o desempenho da unidade e considere substituir a unidade."

Nota

Esta Falha é desativada por defeito. Para o ativar, defina o sistema de definição de saúde. Armazenamento. PhysicalDisk.HighLatency.Threshold.Tail.Enabled to true

FalhaType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.AverageIO

  • Gravidade: aviso
  • Razão: "A unidade tem alta latência média."
  • Recomendação Reação: "Monitorize o desempenho da unidade e considere substituir a unidade."

Nota

Esta Falha é desativada por defeito. Para o ativar, defina o sistema de definição de saúde. Armazenamento. PhysicalDisk.HighLatency.Threshold.Tail.Enabled to true

FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.Outlier.AverageIO

  • Gravidade: aviso
  • Razão: "A unidade tem alta latência média."
  • Recomendação Reação: "Monitorize o desempenho da unidade e considere substituir a unidade."

FalhaType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.Outlier.SlowestIO

  • Gravidade: aviso
  • Razão: "A unidade tem alta latência máxima."
  • Recomendação Reação: "Monitorize o desempenho da unidade e considere substituir a unidade."

FalhaType: Microsoft.Health.FaultType.PhysicalDisk.HighErrorCount.AverageIO

  • Gravidade: aviso
  • Razão: "A unidade tem um elevado número de erros."
  • Recomendação Reação: "Monitorize o desempenho da unidade e considere substituir a unidade."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighErrorCount.Outlier.AverageIO

  • Gravidade: aviso
  • Razão: "A unidade tem um elevado número de erros."
  • Recomendação Reação: "Monitorize o desempenho da unidade e considere substituir a unidade."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly

  • Gravidade: aviso
  • Razão: "A unidade de cache falhou em algumas leituras ou escritas, por isso, para proteger os seus dados, transferimo-los para unidades de capacidade."
  • Recomendação Reação: "Substitua a unidade ou tente limpá-la e reiniciá-la."

FalhaType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly.Drenagem

  • Gravidade: aviso
  • Razão: "A unidade de cache falhou em algumas leituras ou escritos. Para proteger os seus dados, deixámos de escrever para a unidade de cache e estamos a tentar mover os seus dados para unidades de capacidade."
  • Recomendação: "Espere enquanto movemos os dados."

FalhaType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly.FailedDrain

  • Gravidade: aviso
  • Razão: "Alguns dados sobre a unidade de cache não podem ser lidos, impedindo-nos de movê-lo para unidades de capacidade."
  • Recomendação Deacção: "Substitua a unidade."

FalhaType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.RotationFailure

  • Gravidade: aviso
  • Razão: "A tentativa de rodar a chave de encriptação SED para o novo padrão falhou."
  • Recomendação Reação: "Verifique se a unidade está a funcionar e corretamente ligada. Se a unidade tiver falhado, substitua-a. Reinicie a rotação da chave de encriptação SED uma vez que a unidade é saudável."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.NotDefault

  • Gravidade: aviso
  • Razão: "O disco físico tem uma chave de encriptação SED, no entanto não corresponde à tecla padrão atual."
  • Recomendação Deacção: "Iniciar a rotação da chave de encriptação SED."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.NotDefined

  • Gravidade: aviso
  • Razão: "Não existe uma chave de encriptação SED definida para a unidade."
  • Recomendação: "Desafine uma chave de encriptação SED padrão."

FaultType: Microsoft.Health.FaultType.StorageScaleUnit.SedEncKey.RotationTimeout

  • Gravidade: aviso
  • Razão: "Falhou na conclusão da rotação da chave de encriptação SED no servidor antes do intervalo"
  • Recomendação: "Certifique-se de que o servidor está acessível e que todos os discos físicos são saudáveis."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.DriveArriveFailure

  • Gravidade: aviso
  • Razão: "O disco físico está a falhar nas consultas."
  • Recomendação: "Por favor, valide a fiabilidade da rede. Se o problema persistir, considere substituir o dispositivo."

Disco Virtual (3)

FaultType: Microsoft.Health.FaultType.VirtualDisks.NeedsRepair

  • Severidade: Informativo
  • Razão: "Alguns dados sobre este volume não são totalmente resilientes. Permanece acessível."
  • Recomendação: "Restaurar a resiliência dos dados."

Tipo de falha: Microsoft.Health.FaultType.VirtualDisks.Detached

  • Severidade: Crítica
  • Razão: "O volume é inacessível. Alguns dados podem ser perdidos."
  • Recomendação Reação: "Verifique a conectividade física e/ou de rede de todos os dispositivos de armazenamento. Pode precisar de restaurar a partir de backup."

FaultType: Microsoft.Health.FaultType.VirtualDisks.NoRedundancy

  • Severidade: Crítica
  • Razão: "Todas as cópias de dados não estão disponíveis para uma região de disco virtual. A carga de trabalho pode ser interrompida e podem ser observadas falhas de IO."
  • Recomendação Reação: "Se estiver em curso uma operação de manutenção, suspenda-a e restaure o acesso a todo o armazenamento até que o armazenamento estabilize."

Capacidade da Piscina (2)

FaultType: Microsoft.Health.FaultType.StoragePool.TransactionAndCleanupFailure

  • Gravidade: aviso
  • Razão: "Armazenamento Pool é incapaz de escrever para um quórum de dispositivos de metadados. A carga de trabalho pode ser interrompida e podem ser observadas falhas de IO."
  • Recomendação Reação: "Se estiver em curso uma operação de manutenção, suspenda-a e restaure o acesso a todo o armazenamento até que o armazenamento estabilize."

DefeitoType: Microsoft.Health.FaultType.StoragePool.PoolCapacityThresholdExceed

  • Gravidade: aviso
  • Razão: "A piscina de armazenamento está a ficar sem capacidade."
  • Recomendação Deacção: "Adicione capacidade adicional ao pool de armazenamento ou liberte a capacidade."

Capacidade de Volume (5)1

FaultType: Microsoft.Health.FaultType.Volume.Capacidade

  • Gravidade: aviso
  • Razão: "O volume está a ficar sem espaço disponível."
  • Recomendação Reação: "Expandir o volume ou migrar cargas de trabalho para outros volumes."

FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Correctable

  • Gravidade: aviso
  • Razão: "O sistema de ficheiro detetou um erro de verificação e foi capaz de corrigi-lo."
  • Recomendação Ção: "Iniciar a verificação da Integridade dos Dados a partir do agendador de tarefas, o armazenamento pode estar a correr mal. Se houver uma atualização ou uma operação de manutenção em curso, pare-a imediatamente. Pode precisar de restaurar a partir da cópia de segurança."

FalhaType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable

  • Gravidade: aviso
  • Razão: "O sistema de ficheiros detetou um erro de verificação e não foi capaz de corrigi-lo."
  • Recomendação Ção: "Iniciar a verificação da Integridade dos Dados a partir do agendador de tarefas, o armazenamento pode estar a correr mal. Se houver uma atualização ou uma operação de manutenção em curso, pare-a imediatamente. Pode precisar de restaurar a partir da cópia de segurança."

FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable.DataRemoved

  • Gravidade: aviso
  • Razão: "O sistema de ficheiros detetou uma corrupção num ficheiro ou numa pasta. O ficheiro ou pasta foi removido do espaço de nome do sistema de ficheiros."
  • Recomendação Ção: "Iniciar a verificação da Integridade dos Dados a partir do agendador de tarefas, o armazenamento pode estar a correr mal. Se houver uma atualização ou uma operação de manutenção em curso, pare-a imediatamente. Pode precisar de restaurar a partir da cópia de segurança."

FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable.DataRemovalFailure

  • Gravidade: aviso
  • Razão: "O sistema de ficheiros detetou uma corrupção num ficheiro ou numa pasta. O sistema de ficheiros pode ter falhado em removê-lo do espaço de nome do sistema de ficheiros."
  • Recomendação Ção: "Iniciar a verificação da Integridade dos Dados a partir do agendador de tarefas, o armazenamento pode estar a correr mal. Se houver uma atualização ou uma operação de manutenção em curso, pare-a imediatamente. Pode precisar de restaurar a partir da cópia de segurança."

Servidor (12)

FaultType: Microsoft.Health.FaultType.Server.Down

  • Severidade: Crítica
  • Razão: "O servidor não pode ser alcançado."
  • Recomendação Ção: "Iniciar ou substituir o servidor."

FaultType: Microsoft.Health.FaultType.Server.Isolated

  • Severidade: Crítica
  • Razão: "O servidor está isolado do cluster devido a problemas de conectividade."
  • Recomendação Reação: "Se o isolamento persistir, verifique a(s) rede ou migrar cargas de trabalho para outros nós."

FalhaType: Microsoft.Health.FaultType.Server.Quarentena

  • Severidade: Crítica
  • Razão: "O servidor está em quarentena pelo cluster devido a falhas recorrentes."
  • Recomendação Ção: "Substitua o servidor ou corrija a rede."

FalhaType: Microsoft.Health.FaultType.Server.Temperature

  • Gravidade: aviso
  • Razão: "O sensor de temperatura do servidor levantou um aviso."
  • Recomendação Reação: "Verifique a temperatura do servidor."

FaultType: Microsoft.Health.FaultType.Server. Armazenamento. Degradado

  • Gravidade: aviso
  • Razão: "O servidor tem um armazenamento que não está completo ou atualizado, por isso precisamos de sincronizá-lo com dados de outros servidores do cluster. Isto é normal depois de um servidor reiniciar ou uma unidade falhar."
  • Recomendação Reação: "Aguente enquanto sincronizamos o armazenamento. Não remova quaisquer unidades ou reinicie quaisquer servidores no cluster até confirmarmos que a sincronização está completa."

FalhaType: Microsoft.Health.FaultType.node.CPUOverloaded

  • Gravidade: aviso
  • Razão: "A utilização do CPU do servidor é consistentemente superior ao limiar."
  • Recomendação Reação: "Mover máquinas virtuais para outros servidores com menor utilização do CPU, ou considerar adicionar capacidade de computação adicional ao cluster (geralmente adicionando servidores)."

FalhaType: Microsoft.Health.FaultType.node.VCPUTolCPU

  • Gravidade: aviso
  • Razão: "A relação entre processadores virtuais e processadores lógicos (fios) neste servidor excedeu o seu limiar configurado."
  • Recomendação Deacção: "Mover máquinas virtuais para outro servidor com menor utilização de CPU ou considerar adicionar capacidade de computação adicional ao cluster."

FaultType: Microsoft.Health.FaultType.Node.LowFreeRam

  • Gravidade: aviso
  • Razão: "A memória disponível está abaixo do seu limiar configurado."
  • Recomendação Deacção: "Mover máquinas virtuais para outro servidor com menor utilização de CPU ou considerar adicionar capacidade de computação adicional ao cluster."

Tipo de falha: Microsoft.Health.FaultType.node.HighRootPartitionMemoryUsage

  • Gravidade: aviso
  • Razão: "Windows Server está a consumir muita memória física, que excede o seu limiar configurado."
  • Recomendação: "Verifique se há processos ou aplicações que consomem demasiada memória, mova máquinas virtuais para outros servidores ou adicione memória aos servidores."

FaultType: Microsoft.Health.FaultType.Node.TooHighCpuReservation

  • Gravidade: aviso
  • Razão: "A reserva combinada de CPU de máquinas virtuais neste servidor excede o seu limiar configurado."
  • Recomendação: "Considere mover máquinas virtuais ou reduzir as suas reservas de CPU."

Tipo de falhas: Microsoft.Health.FaultType.node.TooHighMemoryUseAfterReclamation

  • Gravidade: aviso
  • Razão: "A atribuição de memória combinada de máquinas virtuais neste servidor excede o seu limiar configurado."
  • Recomendação: "Considere mover máquinas virtuais ou reduzir a memória atribuída."

FalhaType: Microsoft.Health.FaultType.node.SustainedHighCpuUsage

  • Gravidade: aviso
  • Razão: "O servidor tem uso cpu consistentemente excedendo o limiar."
  • Recomendação: "Mover máquinas virtuais para outro servidor com menor utilização do CPU ou considerar adicionar mais capacidade de computação."

Cluster (6)

FaultType: Microsoft.Health.FaultType.ClusterQuorumWitness.Error

  • Severidade: Crítica
  • Razão: "O cluster está a uma falha do servidor de descer."
  • Recomendação Reação: "Verifique o recurso da testemunha e reinicie conforme necessário. Iniciar ou substituir servidores falhados."

FaultType: Microsoft.Health.FaultType.Cluster.ValidationReport.Failed

  • Severidade: Crítica
  • Razão: "A Validação do Cluster encontrou problemas."
  • Recomendação Reação: "A Validação do Cluster encontrou falhas em algumas categorias de testes. Consulte o relatório de validação do cluster."

FaultType: Microsoft.Health.FaultType.Cluster.ValidationReportDcb.Failedcb.Failedcb

  • Severidade: Crítica
  • Razão: "Validar-DCB encontrou problemas."
  • Recomendação Reação: "A Valide-DCB encontrou erros de rede. Consulte o relatório de validação do DCB."

FaultType: Microsoft.Health.FaultType.Cluster.TooHighCpuReservation

  • Severidade: Crítica
  • Razão: "A reserva combinada de CPU de máquinas virtuais neste servidor excede o seu limiar configurado."
  • Recomendação: "Considere mover máquinas virtuais ou reduzir as suas reservas de CPU."

FaultType: Microsoft.Health.FaultType.Cluster.TooHighMemoryUseAfterReclamation

  • Severidade: Crítica
  • Razão: "A atribuição de memória combinada de máquinas virtuais neste servidor excede o seu limiar configurado."
  • Recomendação: "Considere mover máquinas virtuais ou reduzir a memória atribuída."

FalhaType: Microsoft.Health.FaultType.Cluster.SustainedHighCpuUsage

  • Severidade: Crítica
  • Razão: "O servidor tem uso cpu consistentemente excedendo o limiar."
  • Recomendação: "Mover máquinas virtuais para outro servidor com menor utilização do CPU ou considerar adicionar mais capacidade de computação."

Adaptador de rede/interface (6)

FaultType: Microsoft.Health.FaultType.NetworkAdapter.Disconnected

  • Gravidade: aviso
  • Razão: "A interface da rede desligou-se."
  • Recomendação Reação: "Voltar a ligar o cabo de rede".

FalhaType: Microsoft.Health.FaultType.NetworkInterface.Missing

  • Gravidade: aviso
  • Razão: "O servidor {servidor} tem o adaptador de rede em falta ligado à rede de cluster {cluster network}."
  • Recomendação deAcção: "Ligação o servidor para a rede de clusters desaparecida."

FaultType: Microsoft.Health.FaultType.NetworkAdapter.Hardware

  • Gravidade: aviso
  • Reason: "A interface de rede teve uma falha de hardware."
  • Recomendação Deacção: "Substitua o adaptador de interface de rede."

FaultType: Microsoft.Health.FaultType.NetworkAdapter.Desativado

  • Gravidade: aviso
  • Razão: "A interface de rede {interface de rede} não está ativada e não está a ser utilizada."
  • Recomendação Deacção: "Ativar a interface da rede."

FalhaType: Microsoft.Health.faultType.storageSubsystem.RDMA.alert

  • Gravidade: aviso
  • Razão: "O cluster detetou problemas de conectividade da rede que impedem Espaços de Armazenamento Direct de funcionar corretamente."
  • Recomendação Reação: "Verifique se a sua rede está corretamente configurada e a funcionar. Se estiver a utilizar o RDMA Over Converged Ethernet (RoCE), verifique se o Data Center Bridging (DCB), o Serviço de Transmissão Melhorada (ETS) e o Controlo de Flow Prioritário (PFC) estão configurados de forma correta e consistente em todos os nós de cluster e comutador físico. Se não sabe como fazer isto, peça ao seu fornecedor ou a alguém em quem confie para o ajudar."

FalhaType: Microsoft.Health.FaultType.StorageSubsystem.RDMA.Desativado

  • Gravidade: aviso
  • Razão: "O cluster detetou problemas de conectividade da rede que impedem Espaços de Armazenamento Direct de funcionar corretamente. Para garantir um desempenho consistente e segurança de dados, Espaços de Armazenamento Direct deixou de utilizar o acesso à memória direta remota (RDMA) mesmo que o hardware capaz de RDMA esteja presente e ativado. Armazenamento tráfego continuará a fluir, mas com desempenho reduzido usando TCP/IP."
  • Recomendação Reação: "Verifique se a sua rede está corretamente configurada e a funcionar e, em seguida, volte a ligar RDMA. Se estiver a utilizar o RDMA Over Converged Ethernet (RoCE), verifique se o Data Center Bridging (DCB), o Serviço de Transmissão Melhorada (ETS) e o Controlo de Flow Prioritário (PFC) estão configurados de forma correta e consistente em todos os nós de cluster e comutador físico. Se não sabe como fazer isto, peça ao seu vendedor ou a alguém em quem confie para ajudá-lo. Para continuar com a RDMA desligada, pode dispensar este alerta."

Recinto (6)

FaultType: Microsoft.Health.FaultType.StorageEnclosure.LostCommunication

  • Gravidade: aviso
  • Razão: "A comunicação foi perdida para o recinto de armazenamento."
  • Recomendação Reação: "Iniciar ou substituir o invólucro de armazenamento."

FalhaType: Microsoft.Health.FaultType.StorageEnclosure.FanError

  • Gravidade: aviso
  • Razão: "A ventoinha na posição {posição} do compartimento de armazenamento falhou."
  • RecomendaçãoAcção: "Substitua a ventoinha no compartimento de armazenamento."

FalhaType: Microsoft.Health.FaultType.StorageEnclosure.CurrentSensorError

  • Gravidade: aviso
  • Razão: "O sensor atual na posição {posição} do compartimento de armazenamento falhou."
  • Recomendação Reação: "Substitua um sensor de corrente no compartimento de armazenamento."

FalhaType: Microsoft.Health.FaultType.StorageEnclosure.VoltageSensorError

  • Gravidade: aviso
  • Razão: "O sensor de tensão na posição {posição} do compartimento de armazenamento falhou."
  • Recomendação Reação: "Substitua um sensor de tensão no compartimento de armazenamento."

FaultType: Microsoft.Health.FaultType.StorageEnclosure.IoControllerError

  • Gravidade: aviso
  • Razão: "O controlador IO na posição {posição} do compartimento de armazenamento falhou."
  • Recomendação Reação: "Substitua um controlador de IO no compartimento de armazenamento."

FalhaType: Microsoft.Health.FaultType.StorageEnclosure.TemperatureSensorError

  • Gravidade: aviso
  • Razão: "O sensor de temperatura na posição {posição} do compartimento de armazenamento falhou."
  • Recomendação Reação: "Substitua um sensor de temperatura no compartimento de armazenamento."

Implementação do Firmware (3)

FaultType: Microsoft.Health.FaultType.FaultDomain.FailedMaintenanceMode

  • Gravidade: aviso
  • Razão: "Atualmente incapaz de fazer progressos enquanto executa o firmware roll out."
  • Recomendação Reação: "Verifique se todos os espaços de armazenamento estão saudáveis e que nenhum domínio de avaria está atualmente em modo de manutenção."

DefeitoType: Microsoft.Health.FaultType.FaultDomain.FirmwareVerifyVersionFailed

  • Gravidade: aviso
  • Reason: "O lançamento do Firmware foi cancelado devido a informações ilegíveis ou inesperadas da versão do firmware após a aplicação de uma atualização de firmware."
  • Recomendação Reação: "Reiniciar o firmware lançado assim que o problema do firmware estiver resolvido."

FaultType: Microsoft.Health.FaultType.FaultDomain.TooManyFailedUpdates

  • Gravidade: aviso
  • Reason: "O lançamento do Firmware foi cancelado devido a demasiados discos físicos que falharam numa tentativa de atualização de firmware."
  • Recomendação Reação: "Reiniciar o firmware lançado assim que o problema do firmware estiver resolvido."

Armazenamento QoS (3)2

FaultType: Microsoft.Health.FaultType.StorQos.Insuficiente

  • Gravidade: aviso
  • Razão: "Armazenamento produção é insuficiente para satisfazer as reservas."
  • Recomendação: "Reconfigurar Armazenamento políticas QoS."

FalhaType: Microsoft.Health.FaultType.StorQos.LostCommunication

  • Gravidade: aviso
  • Razão: "O gestor de política Armazenamento QoS perdeu a comunicação com o volume."
  • Recomendação Reação: "Por favor reinicie os nóns {nodes}"

FaultType: Microsoft.Health.FaultType.StorQos.MisconfiguredFlow

  • Gravidade: aviso
  • Razão: "Um ou mais consumidores de armazenamento (normalmente Máquinas Virtuais) estão a usar uma política inexistente com id {id}."
  • Recomendação: "Recriar quaisquer políticas Armazenamento QoS em falta."

VM/VHD (7)

FaultType: Microsoft.Health.FaultType.Vm.BadHealthState

  • Gravidade: aviso
  • Razão: "O estado de saúde da máquina virtual não está bem."
  • Recomendação Reação: "Resolução de problemas da máquina virtual."

FaultType: Microsoft.Health.FaultType.Vm.BadOperationalStatus

  • Gravidade: aviso
  • Razão: "O estado operacional da máquina virtual não está bem."
  • Recomendação Reação: "Resolução de problemas da máquina virtual."

FaultType: Microsoft.Health.FaultType.Vm.GuestUnhealthy

  • Gravidade: aviso
  • Razão: "O sistema operativo de hóspedes na máquina virtual está a reportar um estado pouco saudável."
  • Recomendação Reação: "Resolução de problemas da máquina virtual."

FaultType: Microsoft.Health.FaultType.Vm.ConfigIsOffline

  • Gravidade: aviso
  • Razão: "O recurso de configuração da máquina virtual está offline, o que significa que a máquina virtual não pode ser administrada."
  • Recomendação Reação: "Leve a configuração da máquina virtual on-line."

FaultType: Microsoft.Health.FaultType.Vm.NotRespondingToControlCodes

  • Gravidade: aviso
  • Razão: "A máquina virtual não está a responder aos códigos de controlo do agrupamento."
  • Recomendação Reação: "Verifique o estado do recurso de cluster de máquinas virtuais."

FaultType: Microsoft.Health.FaultType.Vm.IsNearMemoryLimit

  • Gravidade: aviso
  • Razão: "A máquina virtual precisa de mais da sua memória máxima configurada."
  • Recomendação: "Verifique se há processos ou aplicações que consomem demasiada memória ou considere aumentar a sua memória máxima."

FaultType: Microsoft.Health.FaultType.Vhd.IsNearlyFull

  • Gravidade: aviso
  • Razão: "O disco rígido virtual atingiu a sua capacidade. Não podem ser escritos mais dados, o que pode ter um impacto negativo na(s) máquina virtual.".
  • Recomendação Deacção: "Redimensione o disco rígido virtual ou elimine ficheiros indesejados."

1 Indica que o volume atingiu 80% de total (pequena gravidade) ou 90% de total (gravidade grave). 2 Indica que alguns .vhd(s) no volume não cumpriram o seu IOPS mínimo por mais de 10% (menor), 30% (major) ou 50% (crítico) de uma janela rolante de 24 horas.

Nota

A saúde dos componentes do recinto de armazenamento, tais como ventiladores, fontes de alimentação e sensores é derivada dos Serviços de Recinto SCSI (SES). Se o seu fornecedor não disponibilizar estas informações, o Serviço de Estado de Funcionamento não o conseguirá apresentar.

Referências adicionais