Zobrazení chyb služby Health Service

Platí pro: Azure Stack HCI verze 23H2 a 22H2; Windows Server 2022, Windows Server 2019

Služba Health Service neustále monitoruje cluster Prostory úložiště s přímým přístupem, aby odhalila problémy a vygenerovala chyby. Jedna rutina zobrazí všechny aktuální chyby, což vám umožní snadno ověřit stav nasazení, aniž byste museli následně sledovat každou entitu nebo funkci. Chyby jsou navržené tak, aby byly přesné, snadno srozumitelné a bylo možné podle nich jednat.

Každá chyba obsahuje pět důležitých polí:

  • Závažnost
  • Popis problému
  • Doporučené další kroky k vyřešení problému
  • Zjištění informací o chybném prvku
  • Jeho fyzické umístění (pokud existuje)

Příklad typické chyby:

Severity: MINOR
Reason: Connectivity has been lost to the physical disk.
Recommendation: Check that the physical disk is working and properly connected.
Part: Manufacturer Contoso, Model XYZ9000, Serial 123456789
Location: Seattle DC, Rack B07, Node 4, Slot 11

Poznámka

Fyzické umístění je odvozené od chybně nakonfigurované domény. Další informace o doménách selhání najdete v tématu Rozpoznávání domén selhání. Pokud tyto informace nezadáte, bude pole umístění méně užitečné. Může například zobrazit pouze číslo slotu.

Analýza původní příčiny

Služba Health Service může vyhodnotit potenciální kauzalitu mezi chybujícími entitami a identifikovat a kombinovat chyby, které jsou důsledkem stejného základního problému. Díky rozpoznání řetězového účinku budou sestavy stručnější. Pokud je například server mimo provoz, očekává se, že všechny jednotky v rámci serveru budou také bez připojení. Proto bude vyvolána pouze jedna chyba pro původní příčinu – v tomto případě server.

Použití v PowerShellu

Pokud chcete zobrazit aktuální chyby v PowerShellu, spusťte následující rutinu:

Get-HealthFault

Tím se vrátí všechny chyby, které mají vliv na celkový Prostory úložiště s přímým přístupem cluster. Nejčastěji se tyto chyby týkají hardwaru nebo konfigurace. Pokud nedojde k žádným chybám, rutina nevrátí nic.

Poznámka

V neprodukčním prostředí a na vlastní nebezpečí můžete s touto funkcí experimentovat tak, že sami aktivujete chyby. Můžete to například provést odebráním jednoho fyzického disku nebo vypnutím jednoho uzlu. Jakmile se chyba objeví, znovu vložte fyzický disk nebo restartujte uzel, aby chyba zmizela.

Využití v .NET a C#

Tato část ukazuje, jak se připojit ke službě Health Service, používat zjišťované objekty a spouštět dotazy na chyby.

Připojit

Pokud chcete dotazovat službu Health Service, vytvoříte s clusterem cimsession . K tomu budete potřebovat některé věci, které jsou k dispozici pouze v plné verzi Microsoft .NET, což znamená, že to nemůžete snadno provést přímo z webu nebo mobilní aplikace. Ukázky kódu v této části používají C#, což je nejjednodušší volba pro tuto vrstvu přístupu k datům.

using System.Security;
using Microsoft.Management.Infrastructure;

public CimSession Connect(string Domain = "...", string Computer = "...", string Username = "...", string Password = "...")
{
    SecureString PasswordSecureString = new SecureString();
    foreach (char c in Password)
    {
        PasswordSecureString.AppendChar(c);
    }

    CimCredential Credentials = new CimCredential(
        PasswordAuthenticationMechanism.Default, Domain, Username, PasswordSecureString);
    WSManSessionOptions SessionOptions = new WSManSessionOptions();
    SessionOptions.AddDestinationCredentials(Credentials);
    Session = CimSession.Create(Computer, SessionOptions);
    return Session;
}

Zadané uživatelské jméno by mělo být místním správcem cílového počítače.

Doporučujeme vytvořit securestring hesla přímo ze vstupu uživatele v reálném čase, aby se heslo nikdy neukládaly v paměti jako nešifrovaný text. To pomáhá zmírnit různé aspekty zabezpečení. Ale v praxi je jeho vytvoření tak, jak je uvedeno výše, běžné pro účely vytváření prototypů.

Zjišťování objektů

Po vytvoření cimsession můžete dotazovat rozhraní WMI (Windows Management Instrumentation) v clusteru.

Než budete moct získat chyby nebo metriky, musíte získat instance několika relevantních objektů. Nejprve získejte MSFT_StorageSubSystem, který představuje Prostory úložiště s přímým přístupem v clusteru. Díky tomu můžete získat každou MSFT_StorageNode v clusteru a každou MSFT_Volume datových svazků. Nakonec potřebujete získat MSCluster_ClusterHealthService, tedy samotnou službu Health Service.

CimInstance Cluster;
List<CimInstance> Nodes;
List<CimInstance> Volumes;
CimInstance HealthService;

public void DiscoverObjects(CimSession Session)
{
    // Get MSFT_StorageSubSystem for Storage Spaces Direct
    Cluster = Session.QueryInstances(@"root\microsoft\windows\storage", "WQL", "SELECT * FROM MSFT_StorageSubSystem")
        .First(Instance => (Instance.CimInstanceProperties["FriendlyName"].Value.ToString()).Contains("Cluster"));

    // Get MSFT_StorageNode for each cluster node
    Nodes = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
        Cluster, "MSFT_StorageSubSystemToStorageNode", null, "StorageSubSystem", "StorageNode").ToList();

    // Get MSFT_Volumes for each data volume
    Volumes = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
        Cluster, "MSFT_StorageSubSystemToVolume", null, "StorageSubSystem", "Volume").ToList();

    // Get MSFT_StorageHealth itself
    HealthService = Session.EnumerateAssociatedInstances(Cluster.CimSystemProperties.Namespace,
        Cluster, "MSFT_StorageSubSystemToStorageHealth", null, "StorageSubSystem", "StorageHealth").First();
}

Jedná se o stejné objekty, které získáte v PowerShellu pomocí rutin, jako jsou Get-StorageSubSystem, Get-StorageNode a Get-Volume.

Můžete přistupovat ke stejným vlastnostem, které jsou popsané v tématu Třídy rozhraní API pro správu úložiště.

using System.Diagnostics;

foreach (CimInstance Node in Nodes)
{
    // For illustration, write each node's Name to the console. You could also write State (up/down), or anything else!
    Debug.WriteLine("Discovered Node " + Node.CimInstanceProperties["Name"].Value.ToString());
}

Chyby dotazů

Vyvolání diagnostiky k získání aktuálních chyb vymezených na cíl CimInstance, což může být cluster nebo libovolný svazek.

Úplný seznam chyb dostupných v jednotlivých oborech ve Windows Serveru 2019 najdete dál v části Pokrytí .

public void GetFaults(CimSession Session, CimInstance Target)
{
    // Set Parameters (None)
    CimMethodParametersCollection FaultsParams = new CimMethodParametersCollection();
    // Invoke API
    CimMethodResult Result = Session.InvokeMethod(Target, "Diagnose", FaultsParams);
    IEnumerable<CimInstance> DiagnoseResults = (IEnumerable<CimInstance>)Result.OutParameters["DiagnoseResults"].Value;
    // Unpack
    if (DiagnoseResults != null)
    {
        foreach (CimInstance DiagnoseResult in DiagnoseResults)
        {
            // TODO: Whatever you want!
        }
    }
}

Volitelné: Třída MyFault

Může mít smysl vytvořit a zachovat vlastní reprezentaci chyb. Například MyFault Třída ukládá několik klíčových vlastností chyb, včetně FaultId, které lze později použít buď k přidružení aktualizací, odebrání oznámení nebo odstranění duplicit v případě, že je stejná chyba zjištěna vícekrát.

public class MyFault {
    public String FaultId { get; set; }
    public String Reason { get; set; }
    public String Severity { get; set; }
    public String Description { get; set; }
    public String Location { get; set; }

    // Constructor
    public MyFault(CimInstance DiagnoseResult)
    {
        CimKeyedCollection<CimProperty> Properties = DiagnoseResult.CimInstanceProperties;
        FaultId     = Properties["FaultId"                  ].Value.ToString();
        Reason      = Properties["Reason"                   ].Value.ToString();
        Severity    = Properties["PerceivedSeverity"        ].Value.ToString();
        Description = Properties["FaultingObjectDescription"].Value.ToString();
        Location    = Properties["FaultingObjectLocation"   ].Value.ToString();
    }
}
List<MyFault> Faults = new List<MyFault>;

foreach (CimInstance DiagnoseResult in DiagnoseResults)
{
    Faults.Add(new Fault(DiagnoseResult));
}

Úplný seznam vlastností v každé chybě (DiagnoseResult) je zdokumentován dále v části Vlastnosti chyby .

Události selhání

Při vytváření, odebírání nebo aktualizaci chyb služba Health Service generuje události rozhraní WMI. Ty jsou nezbytné pro synchronizaci stavu aplikace bez častého dotazování a můžou například pomoct s určením, kdy se mají odesílat e-mailová upozornění. Pro přihlášení k odběru těchto událostí používá následující vzorový kód vzor návrhu pozorovatele.

Nejprve se přihlaste k odběru MSFT_StorageFaultEvent událostí.

public void ListenForFaultEvents()
{
    IObservable<CimSubscriptionResult> Events = Session.SubscribeAsync(
        @"root\microsoft\windows\storage", "WQL", "SELECT * FROM MSFT_StorageFaultEvent");
    // Subscribe the Observer
    FaultsObserver<CimSubscriptionResult> Observer = new FaultsObserver<CimSubscriptionResult>(this);
    IDisposable Disposeable = Events.Subscribe(Observer);
}

Dále implementujte pozorovatel, jehož Metoda OnNext() je vyvolána při každém vygenerování nové události.

Každá událost obsahuje ChangeType , který označuje, jestli je chyba vytvořena, odebrána nebo aktualizována, a příslušné Id chyby.

Kromě toho každá událost obsahuje všechny vlastnosti samotné chyby.

class FaultsObserver : IObserver
{
    public void OnNext(T Event)
    {
        // Cast
        CimSubscriptionResult SubscriptionResult = Event as CimSubscriptionResult;

        if (SubscriptionResult != null)
        {
            // Unpack
            CimKeyedCollection<CimProperty> Properties = SubscriptionResult.Instance.CimInstanceProperties;
            String ChangeType = Properties["ChangeType"].Value.ToString();
            String FaultId = Properties["FaultId"].Value.ToString();

            // Create
            if (ChangeType == "0")
            {
                Fault MyNewFault = new MyFault(SubscriptionResult.Instance);
                // TODO: Whatever you want!
            }
            // Remove
            if (ChangeType == "1")
            {
                // TODO: Use FaultId to find and delete whatever representation you have...
            }
            // Update
            if (ChangeType == "2")
            {
                // TODO: Use FaultId to find and modify whatever representation you have...
            }
        }
    }
    public void OnError(Exception e)
    {
        // Handle Exceptions
    }
    public void OnCompleted()
    {
        // Nothing
    }
}

Vysvětlení životního cyklu selhání

Chyby se nemají označit jako zobrazené nebo vyřešené uživatelem. Vytvoří se, když služba Health Service zaznamená problém, a automaticky se odeberou až poté, co služba Health Service přestane problém sledovat. Obecně to značí, že problém je vyřešený.

V některých případech však může služba Health Service znovu vyhledat chyby, například po převzetí služeb při selhání, přerušovaném připojení atd. Z tohoto důvodu může být vhodné zachovat vlastní reprezentaci chyb, abyste mohli snadno deduplikovat. To je zvlášť důležité, pokud odesíláte e-mailová upozornění nebo ekvivalentní upozornění.

Vlastnosti selhání

Následující tabulka obsahuje několik klíčových vlastností objektu fault. Pro úplné schéma zkontrolujte třídu MSFT_StorageDiagnoseResult v storagewmi.mof.

Vlastnost Příklad
Id chyby {12345-12345-12345-12345-12345}
FaultType Microsoft.Health.FaultType.Volume.Capacity
Důvod "Na svazku dochází volné místo."
VnímanáSeverita 5
FaultingObjectDescription Contoso XYZ9000 S.N. 123456789
FaultingObjectLocation Rack A06, RU 25, slot 11
Doporučené akce {"Rozšíření svazku.", "Migrace úloh na jiné svazky."}

FaultId: Jedinečné ID v rámci jednoho clusteru.

PerceivedSeverity: PerceivedSeverity = { 4, 5, 6 } = { "Informational", "Warning" a "Error" } nebo ekvivalentní barvy, jako je modrá, žlutá a červená.

FaultingObjectDescription: Informace o části hardwaru, obvykle prázdné pro softwarové objekty.

FaultingObjectLocation: Informace o umístění hardwaru, pro softwarové objekty obvykle prázdné.

RecommendedActions: Seznam doporučených akcí, které jsou nezávislé a v žádném konkrétním pořadí. V současné době má tento seznam často délku 1.

Vlastnosti událostí chyby

Následující tabulka obsahuje několik klíčových vlastností události selhání. Pro úplné schéma zkontrolujte třídu MSFT_StorageFaultEvent v storagewmi.mof.

Všimněte si ChangeType , který označuje, zda je chyba vytvořena, odebrána nebo aktualizována, a FaultId. Událost obsahuje také všechny vlastnosti ovlivněné chyby.

Vlastnost Příklad
ChangeType 0
Id chyby {12345-12345-12345-12345-12345}
FaultType Microsoft.Health.FaultType.Volume.Capacity
Důvod "Na svazku dochází volné místo."
VnímanáSeverita 5
FaultingObjectDescription Contoso XYZ9000 S.N. 123456789
FaultingObjectLocation Rack A06, RU 25, slot 11
Doporučené akce {"Rozšíření svazku.", "Migrace úloh na jiné svazky."}

Changetype ChangeType = { 0, 1, 2 } = { "Create", "Remove", "Update" }.

Pokrytí

Ve Windows Serveru 2019 a Azure Stack HCI služba Health Service poskytuje následující pokrytí chyb:

Fyzický disk (31)

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailedMedia

  • Závažnost: Upozornění
  • Důvod: Fyzický disk selhal.
  • RecommendedAction: "Replace the physical disk" (Nahradit fyzický disk).

FaultType: Microsoft.Health.FaultType.PhysicalDisk.LostCommunication

  • Závažnost: Upozornění
  • Důvod: Došlo ke ztrátě připojení k fyzickému disku.
  • Doporučená akce: Zkontrolujte, jestli fyzický disk funguje a je správně připojený.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.Unresponsive

  • Závažnost: Upozornění
  • Důvod: U fyzického disku dochází k opakovanému nereagování.
  • RecommendedAction: "Replace the physical disk" (Nahradit fyzický disk).

FaultType: Microsoft.Health.FaultType.PhysicalDisk.PredictiveFailure

  • Závažnost: Upozornění
  • Důvod: Předpokládá se, že brzy dojde k selhání fyzického disku.
  • RecommendedAction: "Replace the physical disk" (Nahradit fyzický disk).

FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnsupportedHardware

  • Závažnost: Upozornění
  • Důvod: Fyzický disk je v karanténě, protože ho dodavatel vašeho řešení nepodporuje.
  • RecommendedAction: "Nahrazení fyzického disku podporovaným hardwarem."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnsupportedFirmware

  • Závažnost: Upozornění
  • Důvod: Fyzický disk je v karanténě, protože dodavatel vašeho řešení nepodporuje jeho verzi firmwaru.
  • RecommendedAction: Aktualizujte firmware na fyzickém disku na cílovou verzi.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.UnrecognizedMetadata

  • Závažnost: Upozornění
  • Důvod: Fyzický disk obsahuje nerozpoznaná metadata.
  • RecommendedAction: Tento disk může obsahovat data z neznámého fondu úložiště. Nejprve se ujistěte, že na tomto disku nejsou žádná užitečná data, a pak disk resetujte."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailedFirmwareUpdate

  • Závažnost: Upozornění
  • Důvod: Pokus o aktualizaci firmwaru na fyzickém disku se nezdařil.
  • RecommendedAction: Zkuste použít jiný binární soubor firmwaru.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.SblFailedMedia

  • Závažnost: Upozornění
  • Důvod: Jednotka selhala.
  • RecommendedAction: "Replace the drive" (Nahradit jednotku).

FaultType: Microsoft.Health.FaultType.PhysicalDisk.SblUnresponsive

  • Závažnost: Upozornění
  • Důvod: U fyzického disku dochází k opakovanému nereagování.
  • RecommendedAction: "Replace the physical disk" (Nahradit fyzický disk).

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureBadBlock

  • Závažnost: Upozornění
  • Důvod: Jednotka během zápisu nahlásila chybné bloky. Občasný špatný blok je normální, ale příliš mnoho z nich může znamenat, že jednotka nefunguje správně, je poškozená nebo začíná selhávat."
  • RecommendedAction: Pokud k tomu dochází dál nebo pokud dochází ke snížení výkonu, zvažte výměnu jednotky.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureBadBlockRead

  • Závažnost: Upozornění
  • Důvod: Jednotka během čtení nahlásila chybné bloky. Občasný špatný blok je normální, ale příliš mnoho z nich může znamenat, že jednotka nefunguje správně, je poškozená nebo začíná selhávat."
  • RecommendedAction: Pokud k tomu dochází dál nebo pokud dochází ke snížení výkonu, zvažte výměnu jednotky.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureIoRetry

  • Závažnost: Upozornění
  • Důvod: Jednotka potřebovala několik pokusů o čtení nebo zápis. Pokud k tomu stále dochází, může to znamenat, že jednotka nefunguje správně, je poškozená nebo začíná selhávat."
  • RecommendedAction: Pokud k tomu dochází dál nebo pokud dochází ke snížení výkonu, zvažte výměnu jednotky.

Poznámka

Tato chyba je ve výchozím nastavení zakázaná. Pokud ho chcete povolit, nastavte nastavení stavu System.Storage.PhysicalDisk.MarginFailure.EventBased.IoRetry.Enabled na true

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureIoFailure

  • Závažnost: Upozornění
  • Důvod: Jednotka se nepodařilo číst nebo zapisovat. Pokud k tomu stále dochází, může to znamenat, že jednotka nefunguje správně, je poškozená nebo začíná selhávat."
  • RecommendedAction: Pokud k tomu dochází dál nebo pokud dochází ke snížení výkonu, zvažte výměnu jednotky.

Poznámka

Tato chyba je ve výchozím nastavení zakázaná. Pokud ho chcete povolit, nastavte nastavení stavu System.Storage.PhysicalDisk.MarginalFailure.EventBased.IoFailure.Enabled na true

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureSmart

  • Závažnost: Upozornění
  • Důvod: Jednotka nahlásila systému Windows následující potenciální problémy pomocí technologie SMART (self-Monitoring, Analysis and Reporting Technology)"
  • RecommendedAction: Pokud k tomu dochází dál nebo pokud dochází ke snížení výkonu, zvažte výměnu jednotky.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureHighWear

  • Závažnost: Upozornění
  • Důvod: "Jednotka dosáhla vysokého procenta své jmenovité odolnosti při zápisu. Jednotka se může stát jen pro čtení, což znamená, že nemůže provádět žádné další zápisy, když dosáhne 100% své jmenovité odolnosti. Podívejte se na datový list nebo požádejte výrobce o další podrobnosti o odolnosti a chování při ukončení životnosti."
  • RecommendedAction: Pokud k tomu dochází dál nebo pokud dochází ke snížení výkonu, zvažte výměnu jednotky.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.FailureReadOnly

  • Závažnost: Upozornění
  • Důvod: Jednotka dosáhla 100 % své jmenovité odolnosti při zápisu a je nyní jen pro čtení, což znamená, že nemůže provádět žádné další zápisy. Jednotky SSD se po určitém počtu zápisů opotřebovávají, což se liší v závislosti na odolnosti jednotky. Podrobnosti najdete ve specifikacích pohonů nebo se zeptejte výrobce na odolnost a chování při ukončení životnosti."
  • RecommendedAction: Pokud k tomu dochází dál nebo pokud dochází ke snížení výkonu, zvažte výměnu jednotky.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.SlowestIO

  • Závažnost: Upozornění
  • Důvod: Jednotka má vysokou latenci ve špičce.
  • RecommendedAction: Monitorujte výkon jednotky a zvažte výměnu jednotky.

Poznámka

Tato chyba je ve výchozím nastavení zakázaná. Pokud ho chcete povolit, nastavte nastavení stavu System.Storage.PhysicalDisk.HighLatency.Threshold.Tail.Enabled na true.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.AverageIO

  • Závažnost: Upozornění
  • Důvod: Jednotka má vysokou průměrnou latenci.
  • RecommendedAction: Monitorujte výkon jednotky a zvažte výměnu jednotky.

Poznámka

Tato chyba je ve výchozím nastavení zakázaná. Pokud ho chcete povolit, nastavte nastavení stavu System.Storage.PhysicalDisk.HighLatency.Threshold.Tail.Enabled na true.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.Outlier.AverageIO

  • Závažnost: Upozornění
  • Důvod: Jednotka má vysokou průměrnou latenci.
  • RecommendedAction: Monitorujte výkon jednotky a zvažte výměnu jednotky.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighLatency.Outlier.SlowestIO

  • Závažnost: Upozornění
  • Důvod: Jednotka má vysokou latenci ve špičce.
  • RecommendedAction: Monitorujte výkon jednotky a zvažte výměnu jednotky.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighErrorCount.AverageIO

  • Závažnost: Upozornění
  • Důvod: Jednotka obsahuje velký počet chyb.
  • RecommendedAction: Monitorujte výkon jednotky a zvažte výměnu jednotky.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.HighErrorCount.Outlier.AverageIO

  • Závažnost: Upozornění
  • Důvod: Jednotka obsahuje velký počet chyb.
  • RecommendedAction: Monitorujte výkon jednotky a zvažte výměnu jednotky.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly

  • Závažnost: Upozornění
  • Důvod: Jednotka mezipaměti selhala při čtení nebo zápisu, takže kvůli ochraně vašich dat jsme ji přesunuli na kapacitní jednotky.
  • RecommendedAction: "Vyměňte jednotku nebo se ji pokuste vymazat a obnovit do továrního nastavení."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly.Draining

  • Závažnost: Upozornění
  • Důvod: Jednotka mezipaměti selhala při čtení nebo zápisu. Kvůli ochraně vašich dat jsme přestali zapisovat na jednotku mezipaměti a snažíme se přesunout její data na kapacitní jednotky."
  • RecommendedAction: "Počkejte, než přesunujeme data."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.CacheReadOnly.FailedDrain

  • Závažnost: Upozornění
  • Důvod: Některá data na jednotce mezipaměti nelze číst, což nám brání v jejich přesunutí na kapacitní jednotky.
  • RecommendedAction: "Replace the drive" (Nahradit jednotku).

FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.RotationFailure

  • Závažnost: Upozornění
  • Důvod: Pokus o obměna šifrovacího klíče SED na nový výchozí se nezdařil.
  • RecommendedAction: Zkontrolujte, jestli jednotka funguje a je správně připojená. Pokud jednotka selhala, vyměňte ji. Jakmile bude jednotka v pořádku, restartujte obměnu šifrovacích klíčů SED.

FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.NotDefault

  • Závažnost: Upozornění
  • Důvod: Fyzický disk má šifrovací klíč SED, ale neodpovídá aktuálnímu výchozímu klíči.
  • RecommendedAction: Inicializace obměna šifrovacích klíčů SED

FaultType: Microsoft.Health.FaultType.PhysicalDisk.SedEncKey.NotDefined

  • Závažnost: Upozornění
  • Důvod: Pro jednotku není definovaný žádný výchozí šifrovací klíč SED.
  • RecommendedAction: Nastavení výchozího šifrovacího klíče SED

FaultType: Microsoft.Health.FaultType.StorageScaleUnit.SedEncKey.RotationTimeout

  • Závažnost: Upozornění
  • Důvod: Nepodařilo se dokončit obměnu šifrovacích klíčů SED na serveru před vypršením časového limitu.
  • RecommendedAction: "Ujistěte se, že je server dostupný a že jsou všechny fyzické disky v pořádku."

FaultType: Microsoft.Health.FaultType.PhysicalDisk.DriveArriveFailure

  • Závažnost: Upozornění
  • Důvod: Dotazy na fyzický disk selhávají.
  • RecommendedAction: Ověřte spolehlivost sítě. Pokud problém přetrvává, zvažte výměnu zařízení.

Virtuální disk (3)

FaultType: Microsoft.Health.FaultType.VirtualDisks.NeedsRepair

  • Závažnost: Informativní
  • Důvod: Některá data na tomto svazku nejsou plně odolná. Je přístupný."
  • RecommendedAction: Obnovení odolnosti dat.

FaultType: Microsoft.Health.FaultType.VirtualDisks.Detached

  • Závažnost: Kritická
  • Důvod: Svazek je nepřístupný. Může dojít ke ztrátě některých dat."
  • RecommendedAction: Zkontrolujte fyzické nebo síťové připojení všech úložných zařízení. Možná budete muset provést obnovení ze zálohy."

FaultType: Microsoft.Health.FaultType.VirtualDisks.NoRedundancy

  • Závažnost: Kritická
  • Důvod: Pro oblast virtuálního disku nejsou k dispozici všechny kopie dat. Úloha může být přerušena a může dojít k selhání vstupně-výstupních operací.
  • Doporučená akce: Pokud operace údržby právě probíhá, pozastavte ji a obnovte přístup k veškerému úložišti, dokud se úložiště nestabilizuje.

Kapacita fondu (2)

FaultType: Microsoft.Health.FaultType.StoragePool.TransactionAndCleanupFailure

  • Závažnost: Upozornění
  • Důvod: Fond úložiště nemůže zapisovat do zařízení s metadaty kvora. Úloha může být přerušena a může dojít k selhání vstupně-výstupních operací.
  • Doporučená akce: Pokud operace údržby právě probíhá, pozastavte ji a obnovte přístup k veškerému úložišti, dokud se úložiště nestabilizuje.

FaultType: Microsoft.Health.FaultType.StoragePool.PoolCapacityThresholdExceeded

  • Závažnost: Upozornění
  • Důvod: Fond úložiště nemá kapacitu.
  • RecommendedAction: "Přidat další kapacitu do fondu úložiště nebo uvolnit kapacitu."

Kapacita svazku (5)1

FaultType: Microsoft.Health.FaultType.Volume.Capacity

  • Závažnost: Upozornění
  • Důvod: Na svazku dochází dostupné místo.
  • RecommendedAction: Rozšíření svazku nebo migrace úloh na jiné svazky

FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Correctable

  • Závažnost: Upozornění
  • Důvod: Systém souborů zjistil chybu kontrolního součtu a dokázal ji opravit.
  • RecommendedAction: Inicializace kontroly integrity dat z plánovače úloh, úložiště může být špatné. Pokud probíhá operace aktualizace nebo údržby, okamžitě ji zastavte. Možná budete muset provést obnovení ze zálohy."

FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable

  • Závažnost: Upozornění
  • Důvod: Systém souborů zjistil chybu kontrolního součtu a nemohl ji opravit.
  • RecommendedAction: Inicializace kontroly integrity dat z plánovače úloh, úložiště může být špatné. Pokud probíhá operace aktualizace nebo údržby, okamžitě ji zastavte. Možná budete muset provést obnovení ze zálohy."

FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable.DataRemoved

  • Závažnost: Upozornění
  • Důvod: Systém souborů zjistil poškození souboru nebo složky. Soubor nebo složka byly odebrány z oboru názvů systému souborů."
  • RecommendedAction: Inicializace kontroly integrity dat z plánovače úloh, úložiště může být špatné. Pokud probíhá operace aktualizace nebo údržby, okamžitě ji zastavte. Možná budete muset provést obnovení ze zálohy."

FaultType: Microsoft.Health.FaultType.Volume.FileSystem.Corruption.Uncorrectable.DataRemovalFailure

  • Závažnost: Upozornění
  • Důvod: Systém souborů zjistil poškození souboru nebo složky. Je možné, že se systému souborů nepodařilo odebrat soubor z oboru názvů systému souborů."
  • RecommendedAction: Inicializace kontroly integrity dat z plánovače úloh, úložiště může být špatné. Pokud probíhá operace aktualizace nebo údržby, okamžitě ji zastavte. Možná budete muset provést obnovení ze zálohy."

Server (12)

FaultType: Microsoft.Health.FaultType.Server.Down

  • Závažnost: Kritická
  • Důvod: Server není dostupný.
  • RecommendedAction: "Start or replace server" (Spustit nebo nahradit server).

FaultType: Microsoft.Health.FaultType.Server.Isolated

  • Závažnost: Kritická
  • Důvod: Server je izolovaný od clusteru kvůli problémům s připojením.
  • RecommendedAction: Pokud izolace přetrvává, zkontrolujte sítě nebo migrujte úlohy do jiných uzlů.

FaultType: Microsoft.Health.FaultType.Server.Quarantined

  • Závažnost: Kritická
  • Důvod: Server je kvůli opakovaným chybám umístěn do karantény clusteru.
  • RecommendedAction: "Replace the server or fix the network" (Nahradit server nebo opravit síť).

FaultType: Microsoft.Health.FaultType.Server.Temperature

  • Závažnost: Upozornění
  • Důvod: Senzor teploty serveru vyvolal upozornění.
  • RecommendedAction: Zkontrolujte teplotu serveru.

FaultType: Microsoft.Health.FaultType.Server.Storage.Degraded

  • Závažnost: Upozornění
  • Důvod: Server má úložiště, které není úplné nebo aktuální, takže ho musíme synchronizovat s daty z jiných serverů v clusteru. To je normální po restartování serveru nebo selhání jednotky."
  • RecommendedAction: "Počkejte, než budeme synchronizovat úložiště. Neodebíjejte žádné jednotky ani nerestartujte žádné servery v clusteru, dokud nepotvrdíme, že je synchronizace dokončená.

FaultType: Microsoft.Health.FaultType.Node.CPUOverloaded

  • Závažnost: Upozornění
  • Důvod: Využití procesoru serveru konzistentně přesahuje prahovou hodnotu.
  • Doporučená akce: Přesuňte virtuální počítače na jiné servery s nižším využitím procesoru nebo zvažte přidání další výpočetní kapacity do clusteru (obvykle přidáním serverů).

FaultType: Microsoft.Health.FaultType.Node.VCPUToLCPU

  • Závažnost: Upozornění
  • Důvod: Poměr virtuálních procesorů a logických procesorů (vláken) na tomto serveru překročil nakonfigurovanou prahovou hodnotu.
  • Doporučená akce: Přesuňte virtuální počítače na jiný server s nižším využitím procesoru nebo zvažte přidání další výpočetní kapacity do clusteru.

FaultType: Microsoft.Health.FaultType.Node.LowFreeRam

  • Závažnost: Upozornění
  • Důvod: Dostupná paměť je pod nakonfigurovanou prahovou hodnotou.
  • Doporučená akce: Přesuňte virtuální počítače na jiný server s nižším využitím procesoru nebo zvažte přidání další výpočetní kapacity do clusteru.

FaultType: Microsoft.Health.FaultType.Node.HighRootPartitionMemoryUsage

  • Závažnost: Upozornění
  • Důvod: Windows Server spotřebovává velké množství fyzické paměti, která překračuje nakonfigurovanou prahovou hodnotu.
  • RecommendedAction: "Zkontrolujte procesy nebo aplikace, které spotřebovávají příliš mnoho paměti, přesuňte virtuální počítače na jiné servery nebo přidejte paměť na servery."

FaultType: Microsoft.Health.FaultType.Node.TooHighCpuReservation

  • Závažnost: Upozornění
  • Důvod: Kombinovaná rezervace procesoru virtuálních počítačů na tomto serveru překračuje nakonfigurovanou prahovou hodnotu.
  • RecommendedAction: Zvažte přesun virtuálních počítačů nebo snížení jejich rezervací procesoru.

FaultType: Microsoft.Health.FaultType.Node.TooHighMemoryUseAfterReclamation

  • Závažnost: Upozornění
  • Důvod: Kombinované přiřazení paměti virtuálních počítačů na tomto serveru překračuje nakonfigurovanou prahovou hodnotu.
  • RecommendedAction: Zvažte přesun virtuálních počítačů nebo snížení jejich přiřazené paměti.

FaultType: Microsoft.Health.FaultType.Node.SustainedHighCpuUsage

  • Závažnost: Upozornění
  • Důvod: "Využití procesoru serveru konzistentně překračuje prahovou hodnotu."
  • RecommendedAction: Přesuňte virtuální počítače na jiný server s nižším využitím procesoru nebo zvažte přidání další výpočetní kapacity.

Cluster (6)

FaultType: Microsoft.Health.FaultType.ClusterQuorumWitness.Error

  • Závažnost: Kritická
  • Důvod: Cluster je o jedno selhání serveru daleko od výpadku.
  • RecommendedAction: Zkontrolujte prostředek s kopií clusteru a restartujte ho podle potřeby. Spusťte nebo nahrazte servery, které selhaly."

FaultType: Microsoft.Health.FaultType.Cluster.ValidationReport.Failed

  • Závažnost: Kritická
  • Důvod: Ověření clusteru zjistilo problémy
  • RecommendedAction: Ověření clusteru zjistilo chyby v některých kategoriích testů. Viz sestava ověření clusteru.

FaultType: Microsoft.Health.FaultType.Cluster.ValidationReportDcb.Failed

  • Závažnost: Kritická
  • Důvod: Chyba Validate-DCB zjistila problémy.
  • RecommendedAction: Validate-DCB zjistil chyby sítě. Viz sestava ověření DCB.

FaultType: Microsoft.Health.FaultType.Cluster.TooHighCpuReservation

  • Závažnost: Kritická
  • Důvod: Kombinovaná rezervace procesoru virtuálních počítačů na tomto serveru překračuje nakonfigurovanou prahovou hodnotu.
  • RecommendedAction: Zvažte přesun virtuálních počítačů nebo snížení jejich rezervací procesoru.

FaultType: Microsoft.Health.FaultType.Cluster.TooHighMemoryUseAfterReclamation

  • Závažnost: Kritická
  • Důvod: Kombinované přiřazení paměti virtuálních počítačů na tomto serveru překračuje nakonfigurovanou prahovou hodnotu.
  • RecommendedAction: Zvažte přesun virtuálních počítačů nebo snížení jejich přiřazené paměti.

FaultType: Microsoft.Health.FaultType.Cluster.SustainedHighCpuUsage

  • Závažnost: Kritická
  • Důvod: "Využití procesoru serveru konzistentně překračuje prahovou hodnotu."
  • RecommendedAction: Přesuňte virtuální počítače na jiný server s nižším využitím procesoru nebo zvažte přidání další výpočetní kapacity.

Síťový adaptér/rozhraní (6)

FaultType: Microsoft.Health.FaultType.NetworkAdapter.Disconnected

  • Závažnost: Upozornění
  • Důvod: Síťové rozhraní se odpojilo.
  • RecommendedAction: Znovu připojte síťový kabel.

FaultType: Microsoft.Health.FaultType.NetworkInterface.Missing

  • Závažnost: Upozornění
  • Důvod: Na serveru {server} chybí síťové adaptéry připojené k síti s clustery {cluster network}.
  • RecommendedAction: "Connect the server to the missing cluster network" (Připojit server k chybějící síti clusteru).

FaultType: Microsoft.Health.FaultType.NetworkAdapter.Hardware

  • Závažnost: Upozornění
  • Důvod: U síťového rozhraní došlo k selhání hardwaru.
  • RecommendedAction: "Výměna síťového adaptéru."

FaultType: Microsoft.Health.FaultType.NetworkAdapter.Disabled

  • Závažnost: Upozornění
  • Důvod: Síťové rozhraní {network interface} není povolené a nepoužívá se.
  • RecommendedAction: "Povolit síťové rozhraní."

FaultType: Microsoft.Health.FaultType.StorageSubsystem.RDMA.Alert

  • Závažnost: Upozornění
  • Důvod: Cluster zjistil problémy se síťovým připojením, které brání správnému fungování Prostory úložiště s přímým přístupem.
  • RecommendedAction: Ověřte, že je vaše síť správně nakonfigurovaná a funguje. Pokud používáte RDMA přes Konvergovaný Ethernet (RoCE), ověřte, že jsou na každém uzlu clusteru a fyzickém přepínači správně a konzistentně nakonfigurované přemostění datových center (DCB), služba rozšířeného přenosu (ETS) a řízení prioritního toku (PFC). Pokud nevíte, jak na to, požádejte dodavatele nebo někoho, komu důvěřujete, aby vám pomohl."

FaultType: Microsoft.Health.FaultType.StorageSubsystem.RDMA.Disabled

  • Závažnost: Upozornění
  • Důvod: Cluster zjistil problémy se síťovým připojením, které brání správnému fungování Prostory úložiště s přímým přístupem. Aby byl zajištěn konzistentní výkon a bezpečnost dat, Prostory úložiště s přímým přístupem přestal používat přímý přístup do paměti vzdáleného počítače (RDMA), i když je k dispozici a povolený hardware s podporou RDMA. Provoz úložiště bude dál proudit, ale s nižším výkonem pomocí protokolu TCP/IP."
  • RecommendedAction: "Ověřte, že je vaše síť správně nakonfigurovaná a funguje, a pak znovu zapněte RDMA. Pokud používáte RDMA přes Konvergovaný Ethernet (RoCE), ověřte, že jsou na každém uzlu clusteru a fyzickém přepínači správně a konzistentně nakonfigurované přemostění datových center (DCB), služba rozšířeného přenosu (ETS) a řízení prioritního toku (PFC). Pokud nevíte, jak to udělat, požádejte o pomoc svého dodavatele nebo někoho, komu důvěřujete. Pokud chcete pokračovat s vypnutým RDMA, můžete toto upozornění zavřít.

Skříň (6)

FaultType: Microsoft.Health.FaultType.StorageEnclosure.LostCommunication

  • Závažnost: Upozornění
  • Důvod: "Komunikace se skříní úložiště se ztratila."
  • RecommendedAction: "Start or replace the storage enclosure" (Spustit nebo vyměnit skříň úložiště).

FaultType: Microsoft.Health.FaultType.StorageEnclosure.FanError

  • Závažnost: Upozornění
  • Důvod: Ventilátor na pozici {position} skříně úložiště selhal.
  • RecommendedAction: "Výměna ventilátoru ve skříni úložiště."

FaultType: Microsoft.Health.FaultType.StorageEnclosure.CurrentSensorError

  • Závažnost: Upozornění
  • Důvod: Aktuální senzor na pozici {position} skříně úložiště selhal.
  • RecommendedAction: "Výměna aktuálního senzoru ve skříni úložiště."

FaultType: Microsoft.Health.FaultType.StorageEnclosure.VoltageSensorError

  • Závažnost: Upozornění
  • Důvod: Senzor napětí na pozici {position} úložné skříně selhal.
  • RecommendedAction: "Výměna senzoru napětí ve skříni úložiště."

FaultType: Microsoft.Health.FaultType.StorageEnclosure.IoControllerError

  • Závažnost: Upozornění
  • Důvod: Kontroler vstupně-výstupních operací na pozici {position} ve skříni úložiště selhal.
  • RecommendedAction: "Výměna vstupně-výstupního kontroleru ve skříni úložiště."

FaultType: Microsoft.Health.FaultType.StorageEnclosure.TemperatureSensorError

  • Závažnost: Upozornění
  • Důvod: Senzor teploty v poloze {position} úložné skříně selhal.
  • RecommendedAction: "Výměna senzoru teploty ve skříni úložiště."

Zavedení firmwaru (3)

FaultType: Microsoft.Health.FaultType.FaultDomain.FailedMaintenanceMode

  • Závažnost: Upozornění
  • Důvod: Při zavádění firmwaru se v současné době nedaří dosáhnout pokroku.
  • RecommendedAction: Ověřte, že jsou všechny prostory úložiště v pořádku a že žádná doména selhání není aktuálně v režimu údržby.

FaultType: Microsoft.Health.FaultType.FaultDomain.FirmwareVerifyVersionFailed

  • Závažnost: Upozornění
  • Důvod: Zavedení firmwaru se po instalaci aktualizace firmwaru zrušilo kvůli nečitelným nebo neočekávaným informacím o verzi firmwaru.
  • RecommendedAction: Po vyřešení problému s firmwarem restartujte zavedení firmwaru.

FaultType: Microsoft.Health.FaultType.FaultDomain.TooManyFailedUpdates

  • Závažnost: Upozornění
  • Důvod: Zavedení firmwaru se zrušilo kvůli selhání pokusu o aktualizaci firmwaru kvůli příliš velkému počtu fyzických disků.
  • RecommendedAction: Po vyřešení problému s firmwarem restartujte zavedení firmwaru.

Technologie QoS úložiště (3)2

FaultType: Microsoft.Health.FaultType.StorQos.InsufficientThroughput

  • Závažnost: Upozornění
  • Důvod: Propustnost úložiště není dostatečná k uspokojení rezerv.
  • Doporučená akce: Změna konfigurace zásad kvality služby úložiště

FaultType: Microsoft.Health.FaultType.StorQos.LostCommunication

  • Závažnost: Upozornění
  • Důvod: Správce zásad kvality služby úložiště ztratil komunikaci se svazkem.
  • Doporučená akce: Restartujte uzly {nodes}.

FaultType: Microsoft.Health.FaultType.StorQos.MisconfiguredFlow

  • Závažnost: Upozornění
  • Důvod: Nejméně jeden příjemce úložiště (obvykle Virtual Machines) používá neexistující zásadu s ID {id}.
  • RecommendedAction: Znovu vytvořte chybějící zásady kvality služby úložiště.

Virtuální počítač/VHD (7)

FaultType: Microsoft.Health.FaultType.Vm.BadHealthState

  • Závažnost: Upozornění
  • Důvod: Stav virtuálního počítače není v pořádku.
  • RecommendedAction: Řešení potíží s virtuálním počítačem.

FaultType: Microsoft.Health.FaultType.Vm.BadOperationalStatus

  • Závažnost: Upozornění
  • Důvod: Provozní stav virtuálního počítače není v pořádku.
  • RecommendedAction: Řešení potíží s virtuálním počítačem.

FaultType: Microsoft.Health.FaultType.Vm.GuestUnhealthy

  • Závažnost: Upozornění
  • Důvod: Hostovaný operační systém na virtuálním počítači hlásí špatný stav.
  • RecommendedAction: Řešení potíží s virtuálním počítačem.

FaultType: Microsoft.Health.FaultType.Vm.ConfigIsOffline

  • Závažnost: Upozornění
  • Důvod: Prostředek konfigurace virtuálního počítače je offline, což znamená, že virtuální počítač nejde spravovat.
  • RecommendedAction: Převést konfiguraci virtuálního počítače do online režimu.

FaultType: Microsoft.Health.FaultType.Vm.NotRespondingToControlCodes

  • Závažnost: Upozornění
  • Důvod: Virtuální počítač nereaguje na řídicí kódy clusteru.
  • RecommendedAction: Zkontrolujte stav prostředku clusteru virtuálního počítače.

FaultType: Microsoft.Health.FaultType.Vm.IsNearMemoryLimit

  • Závažnost: Upozornění
  • Důvod: Virtuální počítač potřebuje více nakonfigurované maximální paměti.
  • RecommendedAction: "Zkontrolujte, jestli procesy nebo aplikace spotřebovávají příliš mnoho paměti, nebo zvažte zvýšení maximální paměti."

FaultType: Microsoft.Health.FaultType.Vhd.IsNearlyFull

  • Závažnost: Upozornění
  • Důvod: Virtuální pevný disk dosáhl své kapacity. Do něj se nedají zapsat žádná další data, což může mít negativní dopad na virtuální počítače.
  • RecommendedAction: "Změna velikosti virtuálního pevného disku nebo odstranění nežádoucích souborů."

1 Označuje, že svazek dosáhl 80 % plného (menší závažnost) nebo 90 % plného (hlavní závažnost). 2 Označuje, že některé soubory .vhd na svazku nesplnily minimální počet IOPS pro více než 10 % (menší), 30 % (hlavní) nebo 50 % (kritické) průběžného 24hodinového intervalu.

Poznámka

Stav součástí skříně úložiště, jako jsou ventilátory, zdroje napájení a senzory, je odvozen od služby SCSI Enclosure Services (SES). Pokud dodavatel tyto informace neposkytuje, nemůže je služba Health Service zobrazit.

Další odkazy