WSFC-Notfallwiederherstellung durch erzwungenes Quorum (SQL Server)WSFC Disaster Recovery through Forced Quorum (SQL Server)

Quorumfehler werden normalerweise durch eine systemische Katastrophe, einen persistenten Kommunikationsfehler oder eine fehlerhafte Konfiguration, die mehrere Knoten im WSFC-Cluster betreffen, verursacht.Quorum failure is usually caused by a systemic disaster, or a persistent communications failure, or a misconfiguration involving several nodes in the WSFC cluster. Zur Beseitigung eines Quorumfehlers ist ein manueller Eingriff erforderlich.Manual intervention is required to recovery from a quorum failure.

Vorbereitungen Before You Start

Voraussetzungen Prerequisites

Bei der Prozedur für erzwungene Quoren wird davon ausgegangen, dass vor dem Quorumfehler ein fehlerfreies Quorum vorhanden war.The Forced Quorum Procedure assumes that a healthy quorum existed before the quorum failure.

Warnung

Der Benutzer sollte mit den Begriffen und Wechselwirkungen von Windows Server Failover Clustering, WSFC-Quorummodellen, SQL ServerSQL Serverund der spezifischen Bereitstellungskonfiguration der Umgebung vertraut sein.The user should be well-informed on the concepts and interactions of Windows Server Failover Clustering, WSFC Quorum Models, SQL ServerSQL Server, and the environment's specific deployment configuration.

Weitere Informationen finden Sie unter: Windows Server Failover Clustering (WSFC) mit SQL Server, WSFC-Quorummodi und Abstimmungskonfiguration (SQL Server).For more information, see: Windows Server Failover Clustering (WSFC) with SQL Server, WSFC Quorum Modes and Voting Configuration (SQL Server)

Sicherheit Security

Der Benutzer muss einem Domänenkonto entsprechen, das Mitglied der lokalen Administratorgruppe an jedem Knoten des WSFC-Clusters ist.The user must be a domain account that is member of the local Administrators group on each node of the WSFC cluster.

WSFC-Notfallwiederherstellung durch die Prozedur für erzwungene Quoren WSFC Disaster Recovery through the Forced Quorum Procedure

Vergessen Sie nicht, dass bei einem Quorumfehler alle gruppierten Dienste, SQL Server-Instanzen und AlwaysOn-VerfügbarkeitsgruppenAlways On availability groupsim WSFC-Cluster offline geschaltet werden, da der Cluster in der aktuellen Konfiguration keine Fehlertoleranz auf Knotenebene gewährleisten kann.Remember that quorum failure will cause all clustered services, SQL Server instances, and AlwaysOn-VerfügbarkeitsgruppenAlways On availability groups, in the WSFC cluster to be set offline, because the cluster, as configured, cannot ensure node-level fault tolerance. Ein Quorumfehler bedeutet, dass fehlerfreie Abstimmungsknoten im WSFC-Cluster nicht mehr dem Quorummodell entsprechen.A quorum failure means that healthy voting nodes in the WSFC cluster no longer satisfy the quorum model. Einige Knoten sind möglicherweise völlig ausgefallen, und andere haben den WSFC-Dienst möglicherweise nur heruntergefahren und sind, abgesehen vom Verlust der Fähigkeit, mit einem Quorum zu kommunizieren, möglicherweise fehlerfrei.Some nodes may have failed completely, and some may have just shut down the WSFC service and are otherwise healthy, except for the loss of the ability to communicate with a quorum.

Um den WSFC-Cluster wieder online zu schalten, müssen Sie die Ursache für den Quorumfehler in der vorhandenen Konfiguration beheben, die betroffenen Datenbanken nach Bedarf wiederherstellen und die übrigen Knoten im WSFC-Cluster neu konfigurieren, um die verbleibende Clustertopologie widerzuspiegeln.To bring the WSFC cluster back online, you must correct the root cause of the quorum failure under the existing configuration, recover the affected databases as needed, and you may want to reconfigure the remaining nodes in the WSFC cluster to reflect the surviving cluster topology.

Sie können die erzwungene Quorumprozedur für einen WSFC-Clusterknoten verwenden, um die Sicherheitskontrollen zu überschreiben, die den Cluster offline geschaltet haben.You can use the forced quorum procedure on a WSFC cluster node to override the safety controls that took the cluster offline. Damit wird der Cluster im Endeffekt angewiesen, die Quorumssstimmenprüfungen anzuhalten, und Sie erhalten damit die Möglichkeit, die WSFC-Clusterressourcen und SQL Server auf beliebigen Knoten im Cluster wieder online schalten.This effectively tells the cluster to suspend the quorum voting checks, and lets you bring the WSFC cluster resources and SQL Server back online on any of the nodes in the cluster.

Dieser Typ von Notfallwiederherstellungsprozess sollte die folgenden Schritte umfassen:This type of disaster recovery process should include the following steps:

So stellen Sie das System nach Quorumfehler wieder her:To Recover from Quorum Failure:

  1. Bestimmen Sie den Fehlerumfang.Determine the scope of the failure. Identifizieren Sie, welche Verfügbarkeitsgruppen oder SQL Server-Instanzen nicht mehr reagieren, welche Clusterknoten online sind und zur Verwendung nach der Katastrophe verfügbar sind, und untersuchen Sie die Windows-Ereignisprotokolle und die SQL Server-Systemprotokolle.Identify which availability groups or SQL Server instances are non-responsive, which cluster nodes are online and available for post-disaster use, and examine the Windows event logs and the SQL Server system logs. Wo praktikabel, sollten Sie forensische Daten und Systemprotokolle für spätere Analysen beibehalten.Where practical, you should preserve forensic data and system logs for later analysis.

    Tipp

    Auf einer reagierenden Instanz von SQL Server 2016SQL Server 2016können Sie Informationen zum Zustand von Verfügbarkeitsgruppen, die auf der lokalen Serverinstanz ein Verfügbarkeitsreplikat besitzen, abrufen, indem Sie die dynamische Verwaltungssicht (DMV, Dynamic Management View) sys.dm_hadr_availability_group_states abfragen.On a responsive instance of SQL Server 2016SQL Server 2016, you can obtain information about the health of availability groups that possess an availability replica on the local server instance by querying the sys.dm_hadr_availability_group_states dynamic management view (DMV).

  2. Starten Sie den WSFC-Cluster mit erzwungenem Quorum auf einem einzelnen Knoten.Start the WSFC cluster by using forced quorum on a single node. Identifizieren Sie einen Knoten mit einer minimalen Anzahl von Komponentenfehlern, auf dem der WSFC-Clusterdienst nicht heruntergefahren wurde.Identify a node with a minimal number of component failures, other than that the WSFC cluster service was shut down. Überprüfen Sie, ob dieser Knoten mit den meisten anderen Knoten kommunizieren kann.Verify that this node can communicate with a majority of the other nodes.

    Versetzen Sie den Cluster von diesem Knoten aus unter Verwendung der erzwungenen Quorumprozedur manuell in den Onlinemodus.On this node, manually force the cluster to come online using the forced quorum procedure. Um potenzielle Datenverluste zu minimieren, wählen Sie einen Knoten aus, der zuletzt ein primäres Replikat der Verfügbarkeitsgruppe gehostet hat.To minimize potential data loss, select a node that was last hosting an availability group primary replica.

    Weitere Informationen finden Sie unter: Erzwingen des Starts eines Clusters ohne QuorumFor more information, see: Force a WSFC Cluster to Start Without a Quorum

    Hinweis

    Die erzwungene Quorumeinstellung bewirkt, dass im gesamten Cluster die Quorumüberprüfungen blockiert werden, bis der logische WSFC-Cluster die Mehrheit der Abstimmungsknoten erreicht und automatisch zu einem regulären Quorumbetriebsmodus übergeht.The forced quorum setting has a cluster-wide affect to block quorum checks until the logical WSFC cluster achieves a majority of votes and automatically transitions to a regular quorum mode of operation.

  3. Starten Sie den WSFC-Dienst auf jedem einzelnen ansonsten fehlerfreien Knoten normal.Start the WSFC service normally on each otherwise healthy node, one at a time. Sie müssen die erzwungene Quorumoption nicht angeben, wenn Sie den Clusterdienst auf den anderen Knoten starten.You do not have to specify the forced quorum option when you start the cluster service on the other nodes.

    Sobald der WSFC-Dienst auf den einzelnen Knoten wieder online ist, verhandelt er mit den anderen fehlerfreien Knoten, um den neuen Clusterkonfigurationszustand zu synchronisieren.As the WSFC service on each node comes back online, it negotiates with the other healthy nodes to synchronize the new cluster configuration state. Denken Sie daran, diesen Schritt für jeden Knoten getrennt auszuführen, um potenzielle Racebedingungen beim Auflösen des letzten bekannten Clusterstatus zu verhindern.Remember to do this one node at a time to prevent potential race conditions in resolving the last known state of the cluster.

    Warnung

    Stellen Sie sicher, dass jeder Knoten, den Sie starten, mit den anderen neu online geschalteten Knoten kommunizieren kann.Ensure that each node that you start can communicate with the other newly online nodes. Erwägen Sie, den WSFC-Dienst bei den anderen Knoten zu deaktivieren.Consider disabling the WSFC service on the other nodes. Andernfalls laufen Sie Gefahr, mehr als eine Quorumknotengruppe zu erstellen. Das ist ein Split-Brain-Szenario.Otherwise, you run the risk of creating more than one quorum node set; that is a split-brain scenario. Wenn Ihre Ermittlungsergebnisse in Schritt 1 richtig waren, sollte dieser Fall nicht eintreten.If your findings in step 1 were accurate, this should not occur.

  4. Übernehmen der neuen Quorummodus- und Knotenabstimmungskonfiguration.Apply new quorum mode and node vote configuration. Wenn durch das Erzwingen des Quorums alle Knoten im Cluster erfolgreich neu gestartet wurden und die Ursache für den Quorumfehler korrigiert wurde, sind keine Änderungen am ursprünglichen Quorummodus und der Knotenabstimmungskonfiguration erforderlich.If forcing quorum successfully restarted all the nodes in the cluster and the root cause of the quorum failure has been corrected, changes to the original quorum mode and node vote configuration are unnecessary.

    Andernfalls sollten Sie den neu wiederhergestellten Clusterknoten und Verfügbarkeitsreplikattopologie auswerten und bei Bedarf den Quorummodus und die Abstimmungszuweisungen für jeden Knoten ändern.Otherwise, you should evaluate the newly recovered cluster node and availability replica topology, and change the quorum mode and vote assignments for each node as appropriate. Nicht wiederhergestellte Knoten sollten offline geschaltet werden oder einen Knotenabstimmungswert von 0 (Null) erhalten.Un-recovered nodes should be set offline or have their node votes set to zero.

    Tipp

    Zu diesem Zeitpunkt hat es möglicherweise den Anschein, als wären die Knoten und SQL Server-Instanzen im Cluster in ihrem normalen Betriebszustand wiederhergestellt.At this point, the nodes and SQL Server instances in the cluster may appear to be restored back to regular operation. Allerdings ist unter Umständen immer noch kein fehlerfreies Quorum vorhanden.However, a healthy quorum may still not exist. Vergewissern Sie sich mithilfe des Failovercluster-Managers oder des AlwaysOn-Dashboards in SQL Server Management Studio oder der entsprechenden DMVs, dass ein Quorum wiederhergestellt wurde.Using the Failover Cluster Manager, or the Always On Dashboard within SQL Server Management Studio, or the appropriate DMVs, verify that a quorum has been restored.

  5. Stellen Sie Datenbankreplikate der Verfügbarkeitsgruppen bei Bedarf wieder her.Recover availability group database replicas as needed. Datenbanken, die mit keiner Verfügbarkeitsgruppe verknüpft sind, sollten im Rahmen des regulären SQL Server-Startprozess von allein wiederhergestellt und online geschaltet werden.Non-availability group databases should recover and come back online on their own as part of the regular SQL Server startup process.

    Sie können potenzielle Datenverluste und den Zeitaufwand des Wiederherstellungsvorgangs für die Verfügbarkeitsgruppenreplikate minimieren, indem Sie diese in der folgenden Reihenfolge wieder online schalten: primäres Replikat, synchrone sekundäre Replikate, asynchrone sekundäre Replikate.You can minimize potential data loss and recovery time for the availability group replicas by bringing them back online in this sequence: primary replica, synchronous secondary replicas, asynchronous secondary replicas.

  6. Reparatur oder Austausch fehlerhafter Komponenten und erneute Überprüfung des Clusters.Repair or replace failed components and re-validate cluster. Nachdem Sie das System nach dem Auftreten der ursprünglichen Katastrophe und des Quorumfehlers wiederhergestellt haben, sollten Sie die fehlerhaften Knoten reparieren oder austauschen und die zugehörigen WSFC- und AlwaysOn-Konfigurationen entsprechend anpassen.Now that you have recovered from the initial disaster and quorum failure, you should repair or replace the failed nodes and adjust related WSFC and Always On configurations accordingly. Hierzu kann es erforderlich sein, Verfügbarkeitsgruppenreplikate zu löschen, Knoten aus dem Cluster zu entfernen oder die Software eines Knotens zu vereinfachen oder neu zu installieren.This can include dropping availability group replicas, evicting nodes from the cluster, or flattening and re-installing software on a node.

    Sie müssen alle fehlerhaften Verfügbarkeitsreplikate reparieren oder entfernen.You must repair or remove all failed availability replicas. SQL ServerSQL Server schneidet das Transaktionsprotokoll nicht am letzten bekannten Punkt des Verfügbarkeitsreplikats mit den am weitesten zurückliegenden Daten ab. will not truncate the transaction log past the last known point of the farthest behind availability replica. Wenn ein fehlerhaftes Replikat nicht repariert oder aus der Verfügbarkeitsgruppe entfernt wird, wachsen die Transaktionsprotokolle, und es besteht das Risiko, dass nicht mehr ausreichend Speicherplatz für die Transaktionsprotokolle der anderen Replikate verfügbar ist.If a failed replica is not repaired or removed from the availability group, the transaction logs will grow and you will run the risk of running out of transaction log space on the other replicas.

    Hinweis

    Wenn Sie den WSFC-Konfigurationsüberprüfungs-Assistenten ausführen, wenn im WSFC-Cluster ein Verfügbarkeitsgruppenlistener vorhanden ist, generiert der Assistent die folgende falsche Warnmeldung:If you run the WSFC Validate a Configuration Wizard when an availability group listener exists on the WSFC cluster, the wizard generates the following incorrect warning message:

    „Die RegisterAllProviderIP-Eigenschaft für Netzwerkname 'Name:' ist auf 1 festgelegt. Für die aktuelle Clusterkonfiguration muss dieser Wert auf 0 festgelegt werden.“"The RegisterAllProviderIP property for network name 'Name:' is set to 1 For the current cluster configuration this value should be set to 0."

    Ignorieren Sie diese Meldung.Please ignore this message.

  7. Wiederholen Sie Schritt 4 nach Bedarf.Repeat step 4 as needed. Das Ziel besteht darin, erneut das für einen fehlerfreien Betrieb angemessene Maß an Fehlertoleranz und hoher Verfügbarkeit wiederherzustellen.The goal is to re-establish the appropriate level of fault tolerance and high availability for healthy operations.

  8. Ausführen einer RPO/RTO-Analyse.Conduct RPO/RTO analysis. Sie sollten SQL Server-Systemprotokolle, Datenbank-Timestamps und Windows-Ereignisprotokolle analysieren, um die Fehlerursache zu bestimmen und die tatsächlichen Wiederherstellungspunkt- und Wiederherstellungszeitdaten zu dokumentieren.You should analyze SQL Server system logs, database timestamps, and Windows event logs to determine root cause of the failure, and to document actual recovery point and recovery time experiences.

Siehe auchSee Also

Windows Server-Failoverclustering (WSFC) mit SQL ServerWindows Server Failover Clustering (WSFC) with SQL Server