Ripristino di emergenza WSFC tramite quorum forzato (SQL Server)WSFC Disaster Recovery through Forced Quorum (SQL Server)

Un errore del quorum è causato generalmente da una situazione di emergenza a livello di sistema, da un errore di comunicazione persistente o da una configurazione errata che interessa diversi nodi del cluster WSFC.Quorum failure is usually caused by a systemic disaster, or a persistent communications failure, or a misconfiguration involving several nodes in the WSFC cluster. Per il recupero da un errore del quorum è necessario intervenire manualmente.Manual intervention is required to recovery from a quorum failure.

Prima di iniziare Before You Start

Prerequisiti Prerequisites

Nella procedura relativa al quorum forzato si presuppone che il quorum fosse integro prima dell'errore.The Forced Quorum Procedure assumes that a healthy quorum existed before the quorum failure.

Avviso

L'utente deve conoscere a fondo i concetti e le interazioni di Windows Server Failover Clustering, dei modelli del quorum WSFC, di SQL ServerSQL Servere della configurazione di distribuzione specifica dell'ambiente.The user should be well-informed on the concepts and interactions of Windows Server Failover Clustering, WSFC Quorum Models, SQL ServerSQL Server, and the environment's specific deployment configuration.

Per altre informazioni, vedere: WSFC (Windows Server Failover Clustering) con SQL Server, Modalità quorum WSFC e configurazione del voto (SQL Server)For more information, see: Windows Server Failover Clustering (WSFC) with SQL Server, WSFC Quorum Modes and Voting Configuration (SQL Server)

Sicurezza Security

L'utente deve disporre di un account di dominio che sia membro del gruppo Administrators locale su ogni nodo del cluster WSFC.The user must be a domain account that is member of the local Administrators group on each node of the WSFC cluster.

Ripristino di emergenza WSFC tramite la procedura relativa al quorum forzato WSFC Disaster Recovery through the Forced Quorum Procedure

Si tenga presente che l'errore del quorum imposterà offline tutti i servizi del cluster, le istanze di SQL Server e Gruppi di disponibilità Always OnAlways On availability groupsnel cluster WSFC, poiché il cluster, in base alla configurazione, non è in grado di assicurare la tolleranza di errore a livello di nodo.Remember that quorum failure will cause all clustered services, SQL Server instances, and Gruppi di disponibilità Always OnAlways On availability groups, in the WSFC cluster to be set offline, because the cluster, as configured, cannot ensure node-level fault tolerance. Un errore del quorum significa che i nodi votanti integri del cluster WSFC non soddisfano più il modello di quorum.A quorum failure means that healthy voting nodes in the WSFC cluster no longer satisfy the quorum model. È possibile che alcuni nodi abbiano avuto esito completamente negativo e alcuni abbiano solo arrestato il servizio WSFC e siano altrimenti integri, a eccezione della perdita della capacità di comunicare con un quorum.Some nodes may have failed completely, and some may have just shut down the WSFC service and are otherwise healthy, except for the loss of the ability to communicate with a quorum.

Per riportare online il cluster WSFC è necessario correggere la causa principale dell'errore del quorum con la configurazione esistente, recuperare i database interessati in base alle esigenze ed eventualmente riconfigurare i nodi restanti nel cluster WSFC per riflettere la topologia di cluster esistente.To bring the WSFC cluster back online, you must correct the root cause of the quorum failure under the existing configuration, recover the affected databases as needed, and you may want to reconfigure the remaining nodes in the WSFC cluster to reflect the surviving cluster topology.

È possibile utilizzare la procedura relativa al quorum forzato su un nodo del cluster WSFC per ignorare i controlli di sicurezza che hanno portato il cluster offline.You can use the forced quorum procedure on a WSFC cluster node to override the safety controls that took the cluster offline. L'esecuzione della procedura comporta la sospensione dei controlli di voto del quorum all'interno del cluster e consente di riportare online le risorse del cluster WSFC e SQL Server su tutti i nodi nel cluster.This effectively tells the cluster to suspend the quorum voting checks, and lets you bring the WSFC cluster resources and SQL Server back online on any of the nodes in the cluster.

È opportuno che in questo tipo di processo di ripristino di emergenza siano inclusi i passaggi indicati di seguito.This type of disaster recovery process should include the following steps:

Per correggere un errore del quorum:To Recover from Quorum Failure:

  1. Determinare l'ambito dell'errore.Determine the scope of the failure. Identificare quali gruppi di disponibilità o istanze di SQL Server non rispondono, quali nodi del cluster sono online e disponibili per l'utilizzo dopo la condizione di emergenza ed esaminare i registri eventi di Windows e i log di sistema di SQL Server.Identify which availability groups or SQL Server instances are non-responsive, which cluster nodes are online and available for post-disaster use, and examine the Windows event logs and the SQL Server system logs. Dove possibile, è consigliabile mantenere dati e registri di sistema per un'analisi successiva.Where practical, you should preserve forensic data and system logs for later analysis.

    Suggerimento

    In un'istanza di SQL Server 2017SQL Server 2017che risponde, è possibile ottenere le informazioni sull'integrità dei gruppi di disponibilità che hanno una replica di disponibilità nell'istanza del server locale eseguendo una query sulla vista a gestione dinamica (DMV) sys.dm_hadr_availability_group_states .On a responsive instance of SQL Server 2017SQL Server 2017, you can obtain information about the health of availability groups that possess an availability replica on the local server instance by querying the sys.dm_hadr_availability_group_states dynamic management view (DMV).

  2. Avviare il cluster WSFC tramite quorum forzato su un singolo nodo.Start the WSFC cluster by using forced quorum on a single node. Identificare un nodo con un numero minimo di errori dei componenti, che non sia l'arresto del servizio cluster WSFC.Identify a node with a minimal number of component failures, other than that the WSFC cluster service was shut down. Verificare che questo nodo possa comunicare con la maggior parte degli altri nodi.Verify that this node can communicate with a majority of the other nodes.

    Su questo nodo riportare manualmente il cluster online utilizzando la procedura relativa al quorum forzato.On this node, manually force the cluster to come online using the forced quorum procedure. Per ridurre al minimo la possibile perdita di dati, selezionare un nodo che nell'ultima operazione ospitava una replica primaria del gruppo di disponibilità.To minimize potential data loss, select a node that was last hosting an availability group primary replica.

    Per ulteriori informazioni, vedere la pagina relativa alla forzatura dell'avvio di un cluster WSFC senza quorumFor more information, see: Force a WSFC Cluster to Start Without a Quorum

    Nota

    L'impostazione del quorum forzato comporta il blocco dei controlli del quorum a livello di cluster, finché il cluster WSFC logico non otterrà una maggioranza di voti e passerà automaticamente alla modalità operativa di un quorum normale.The forced quorum setting has a cluster-wide affect to block quorum checks until the logical WSFC cluster achieves a majority of votes and automatically transitions to a regular quorum mode of operation.

  3. Avviare il servizio WSFC normalmente su tutti i nodi diversamente integri, uno alla volta.Start the WSFC service normally on each otherwise healthy node, one at a time. Non è necessario specificare l'opzione per il quorum forzato quando si avvia il servizio cluster sugli altri nodi.You do not have to specify the forced quorum option when you start the cluster service on the other nodes.

    Man mano che il servizio WSFC ritorna online su ogni nodo, viene avviata la negoziazione con gli altri nodi integri per sincronizzare il nuovo stato di configurazione del cluster.As the WSFC service on each node comes back online, it negotiates with the other healthy nodes to synchronize the new cluster configuration state. Questa operazione deve essere effettuata un nodo alla volta per evitare possibili race condition nella risoluzione dell'ultimo stato noto del cluster.Remember to do this one node at a time to prevent potential race conditions in resolving the last known state of the cluster.

    Avviso

    Assicurarsi che ogni nodo che si avvia possa comunicare con gli altri nodi appena riportati online.Ensure that each node that you start can communicate with the other newly online nodes. Considerare la possibilità di disabilitare il servizio WSFC sugli altri nodi.Consider disabling the WSFC service on the other nodes. In caso contrario, si corre il rischio di creare di più di un set di nodi del quorum, ottenendo uno scenario "split brain".Otherwise, you run the risk of creating more than one quorum node set; that is a split-brain scenario. Se i risultati nel passaggio 1 sono accurati, questa situazione non dovrebbe verificarsi.If your findings in step 1 were accurate, this should not occur.

  4. Applicare la nuova modalità quorum e la configurazione di voto dei nodi.Apply new quorum mode and node vote configuration. Se tramite la forzatura del quorum vengono riavviati tutti i nodi del cluster e la causa principale dell'errore del quorum è stata corretta, non sarà necessario apportare modifiche alla modalità quorum originale e alla configurazione di voto dei nodi.If forcing quorum successfully restarted all the nodes in the cluster and the root cause of the quorum failure has been corrected, changes to the original quorum mode and node vote configuration are unnecessary.

    In caso contrario, è necessario valutare il nodo del cluster appena recuperato e la topologia della replica di disponibilità e modificare la modalità quorum e le assegnazioni dei voti per ogni nodo, a seconda dei casi.Otherwise, you should evaluate the newly recovered cluster node and availability replica topology, and change the quorum mode and vote assignments for each node as appropriate. Sarà necessario impostare offline i nodi non recuperati oppure impostare su zero i relativi voti.Un-recovered nodes should be set offline or have their node votes set to zero.

    Suggerimento

    A questo punto è possibile che i nodi e le istanze di SQL Server risultino apparentemente ripristinati al normale funzionamento.At this point, the nodes and SQL Server instances in the cluster may appear to be restored back to regular operation. È tuttavia possibile che non sia ancora disponibile un quorum integro.However, a healthy quorum may still not exist. Usando Gestione cluster di failover o Dashboard Always On all'interno di SQL Server Management Studio o le DMV appropriate, verificare che sia stato ripristinato un quorum.Using the Failover Cluster Manager, or the Always On Dashboard within SQL Server Management Studio, or the appropriate DMVs, verify that a quorum has been restored.

  5. Recuperare le repliche di database del gruppo di disponibilità in base alle esigenze.Recover availability group database replicas as needed. I database del gruppo non di disponibilità dovrebbero essere recuperati e ritornare online autonomamente come parte del normale processo di avvio di SQL Server.Non-availability group databases should recover and come back online on their own as part of the regular SQL Server startup process.

    È possibile ridurre al minimo la possibile perdita di dati e il tempo di recupero per le repliche del gruppo di disponibilità riportandoli online in questa sequenza: replica primaria, repliche secondarie sincrone, repliche secondarie asincrone.You can minimize potential data loss and recovery time for the availability group replicas by bringing them back online in this sequence: primary replica, synchronous secondary replicas, asynchronous secondary replicas.

  6. Ripristinare o sostituire componenti con errori e convalidare di nuovo il cluster.Repair or replace failed components and re-validate cluster. Dopo aver ripristinato la situazione di emergenza iniziale e l'errore del quorum, è necessario ripristinare o sostituire i nodi con errori e modificare di conseguenza le configurazioni WSFC e Always On correlate.Now that you have recovered from the initial disaster and quorum failure, you should repair or replace the failed nodes and adjust related WSFC and Always On configurations accordingly. Questa operazione può includere l'eliminazione di repliche del gruppo di disponibilità, la rimozione di nodi dal cluster o l'eliminazione e la reinstallazione del software in un nodo.This can include dropping availability group replicas, evicting nodes from the cluster, or flattening and re-installing software on a node.

    È necessario ripristinare o rimuovere tutte le repliche di disponibilità con errori.You must repair or remove all failed availability replicas. SQL ServerSQL Server il log delle transazioni non verrà troncato oltre l'ultimo punto noto della replica di disponibilità meno aggiornata. will not truncate the transaction log past the last known point of the farthest behind availability replica. Se una replica con errori non viene ripristinata o rimossa dal gruppo di disponibilità, le dimensioni dei log delle transazioni aumenteranno e si correrà il rischio di esaurire lo spazio dei log delle transazioni delle altre repliche.If a failed replica is not repaired or removed from the availability group, the transaction logs will grow and you will run the risk of running out of transaction log space on the other replicas.

    Nota

    Se si esegue la Convalida guidata configurazione di WSFC quando nel cluster WSFC è presente un listener del gruppo di disponibilità, tramite la procedura guidata verrà generato il seguente messaggio di avviso non corretto:If you run the WSFC Validate a Configuration Wizard when an availability group listener exists on the WSFC cluster, the wizard generates the following incorrect warning message:

    "La proprietà RegisterAllProviderIP per il nome di rete 'Nome:' è impostata su 1. Per la configurazione corrente del cluster tale valore dovrebbe essere impostato su 0"."The RegisterAllProviderIP property for network name 'Name:' is set to 1 For the current cluster configuration this value should be set to 0."

    Ignorare tale messaggio.Please ignore this message.

  7. Ripetere il passaggio 4 in base alle esigenze.Repeat step 4 as needed. L'obiettivo è ristabilire il livello appropriato di tolleranza di errore e disponibilità elevata per le operazioni integre.The goal is to re-establish the appropriate level of fault tolerance and high availability for healthy operations.

  8. Eseguire un'analisi RPO/RTO.Conduct RPO/RTO analysis. È consigliabile analizzare i log di sistema di SQL Server, i timestamp del database e i registri eventi di Windows per determinare la causa principale dell'errore e documentare il punto e il tempo di recupero effettivi.You should analyze SQL Server system logs, database timestamps, and Windows event logs to determine root cause of the failure, and to document actual recovery point and recovery time experiences.

Vedere ancheSee Also

WSFC (Windows Server Failover Clustering) con SQL ServerWindows Server Failover Clustering (WSFC) with SQL Server