Opis kworum klastra i puli

Dotyczy: Azure Stack HCI, wersje 21H2 i 20H2; Windows Server 2022, Windows Server 2019

Windows trybu failover serwera zapewnia wysoką dostępność dla obciążeń uruchomionych w Azure Stack HCI i Windows server. Te zasoby są uznawane za wysoce dostępne, jeśli węzły, które hostują zasoby, są dostępne. Jednak klaster zwykle wymaga więcej niż połowy węzłów do uruchomienia, co jest nazywane kworum.

Kworum zaprojektowano tak, aby zapobiegać scenariuszom z podziałem mózgów, które mogą wystąpić, gdy w sieci istnieje partycja, a podzestawy węzłów nie mogą komunikować się ze sobą. Może to spowodować, że oba podzestawy węzłów spróbują być właścicielami obciążenia i zapis na tym samym dysku, co może prowadzić do wielu problemów. Jest to jednak niemożliwe dzięki koncepcji kworum klastra trybu failover, która wymusza dalsze działanie tylko jednej z tych grup węzłów, więc tylko jedna z tych grup pozostanie w trybie online.

Kworum określa liczbę awarii, które klaster może utrzymać, pozostając w trybie online. Kworum jest przeznaczone do obsługi scenariusza, gdy występuje problem z komunikacją między podzestawami węzłów klastra, dzięki czemu wiele serwerów nie próbuje jednocześnie hostować grupy zasobów i zapisywać na tym samym dysku w tym samym czasie. Dzięki temu koncepcji kworum klaster wymusi zatrzymanie usługi klastra w jednym z podzestawów węzłów, aby upewnić się, że istnieje tylko jeden prawdziwy właściciel określonej grupy zasobów. Gdy węzły, które zostały zatrzymane, mogą ponownie komunikować się z główną grupą węzłów, automatycznie ponownie dołączają do klastra i uruchamiają swoją usługę klastra.

W Azure Stack HCI i Windows Server 2019 istnieją dwa składniki systemu, które mają własne mechanizmy kworum:

  • Kworumklastra: działa to na poziomie klastra (tj. można utracić węzły i utrzymać działanie klastra)
  • Kworumpuli: działa to na poziomie puli (tj. można utracić węzły i dyski i utrzymać pulę). Storage pule zostały zaprojektowane do użycia zarówno w scenariuszach klastrowanych, jak i nie klastrowanych, dlatego mają inny mechanizm kworum.

Omówienie kworum klastra

W poniższej tabeli przedstawiono przegląd wyników kworum klastra na scenariusz:

Węzły serwera Może przetrwać awarię jednego węzła serwera Może przetrwać awarię jednego węzła serwera, a następnie inny Może przetrwać dwa jednoczesne awarie węzłów serwera
2 50/50 Nie Nie
2 + Witness Tak Nie Nie
3 Tak 50/50 Nie
3 + Witness Tak Tak Nie
4 Tak Tak 50/50
4 + Witness Tak Tak Tak
5 i więcej Tak Tak Tak

Zalecenia dotyczące kworum klastra

  • Jeśli masz dwa węzły, wymagany jest jeden z dwóch węzłów.
  • Jeśli masz trzy lub cztery węzły, zdecydowanie zaleca się użycie dozorcy.
  • Jeśli masz dostęp do Internetu, użyj witness w chmurze
  • Jeśli jesteś w środowisku IT z innymi maszynami i udziałami plików, użyj witness udziału plików

Jak działa kworum klastra

Gdy węzły utracą kontakt z innym podzbiorem lub utracą kontakt z pewnym podzbiorem, pozostałe węzły muszą sprawdzić, czy stanowią większość klastra, aby pozostać w trybie online. Jeśli nie mogą tego zweryfikować, przejdą do trybu offline.

Jednak koncepcja większości działa w sposób czysty tylko wtedy, gdy łączna liczba węzłów w klastrze jest nieparzysta (na przykład trzy węzły w klastrze pięciu węzłów). Co więc z klastrami z równomierną liczbą węzłów (np. klaster z czterema węzłami)?

Istnieją dwa sposoby, w jakie klaster może sprawić, że całkowita liczba głosów będzie nieparzysta:

  1. Po pierwsze, można go dodać do jednego, dodając do niego dodatkowe głosy. Wymaga to skonfigurowania użytkownika.
  2. Można też zerować jeden, zerując jeden niechętny głos węzła (odbywa się to automatycznie w razie potrzeby).

Za każdym razem, gdy węzły ocalały pomyślnie zweryfikują,że są one większością, definicja większości jest aktualizowana tak, aby znalazła się wśród ocalałych. Dzięki temu klaster może utracić jeden węzeł, inny, inny itd. Ta koncepcja całkowitej liczby głosów dostosowywanych po kolejnych niepowodzeniach jest znana jako dynamiczne kworum.

Dynamiczny witness

Dynamiczny dowód przełącza głos na to, aby upewnić się, że łączna liczba głosów jest nieparzysta. Jeśli liczba głosów jest nieparzysta, witness nie ma głosu. Jeśli liczba głosów jest równomierna, witness ma głos. Dynamiczny dowód znacznie zmniejsza ryzyko awarii klastra z powodu awarii. Klaster decyduje, czy należy użyć głosu na podstawie liczby węzłów głosujących dostępnych w klastrze.

Dynamiczne kworum współpracuje z dynamicznym monitora w sposób opisany poniżej.

Dynamiczne zachowanie kworum

  • Jeśli masz równomierną liczbę węzłów i nie masz żadnego węzła, jeden węzeł otrzymuje głos zerowany. Na przykład tylko trzy z czterech węzłów uzyskają głosy, więc łączna liczba głosów wynosi trzy, a dwa ocalały z głosami są uznawane za większość.
  • Jeśli masz nieparzystą liczbę węzłów i nie masz żadnego zdarzenia, wszystkie one uzyskają głosy.
  • Jeśli masz parzystą liczbę węzłów oraz liczbę węzłów oraz liczbę węzłów, głosujena nich jeden z nich, więc suma jest nieparzysta.
  • Jeśli masz nieparzystą liczbę węzłów i jeden z nich, witness nie zagłosuje na .

Dynamiczne kworum umożliwia dynamiczne przypisywanie głosu do węzła, aby uniknąć utraty większości głosów i umożliwić uruchamianie klastra z jednym węzłem (znanym jako ostatni człowiek). Jako przykład weźmy klaster z czterema węzłami. Załóżmy, że kworum wymaga 3 głosów.

W takim przypadku klaster zostanie utracony w przypadku zgubienia dwóch węzłów.

Diagram przedstawiający cztery węzły klastra, z których każdy otrzymuje głos

Dynamiczne kworum zapobiega jednak takiej sytuacji. Łączna liczba głosów wymaganych do kworum jest teraz określana na podstawie liczby dostępnych węzłów. W związku z tym w przypadku kworum dynamicznego klaster pozostanie bez zmian nawet w przypadku utraty trzech węzłów.

Diagram przedstawiający cztery węzły klastra z węzłami, które nie po jednym na raz, oraz liczbę wymaganych głosów dostosowujących się po każdym niepowodzeniu.

Powyższy scenariusz dotyczy ogólnego klastra, który nie ma włączonej Miejsca do magazynowania Direct. Jednak po włączeniu Miejsca do magazynowania Direct klaster może obsługiwać tylko dwa awarie węzłów. Więcej informacji na ten temat znajduje się w sekcji kworum puli.

Przykłady

Dwa węzły bez witnessa

Głos w jednym węźle jest zerowany, więc większość głosów jest określana na łączną liczbę 1 głosów. Jeśli węzeł bez głosowania nieoczekiwanie zostanie zamknięty, ocalały ma 1/1, a klaster przeżyje. Jeśli węzeł głosujących nieoczekiwanie się nie powinie, ocalały ma 0/1, a klaster nie działa. Jeśli węzeł głosujący zostanie bezpiecznie wyłączony, głos zostanie przeniesiony do drugiego węzła, a klaster nie przeżyje. Dlatego niezwykle ważne jest skonfigurowanie witnessa.

Kworum wyjaśnione w przypadku dwóch węzłów bez monitora

  • Może przetrwać jedną awarię serwera: Procent awarii:.
  • Może przetrwać jedną awarię serwera, a drugą: Nie.
  • Może przetrwać dwa awarie serwera jednocześnie: Nie.

Dwa węzły z węzłami z węzłami

Oba węzły głosują oraz głosy na dowód, więc większość jest określana z 3 głosów. Jeśli jeden z węzłów nie działa, ocalały węzeł ma 2/3, a klaster przeżyje.

Kworum wyjaśnione w przypadku dwóch węzłów z monitora

  • Może przetrwać awarię jednego serwera: Tak.
  • Może przetrwać jedną awarię serwera, a drugą: Nie.
  • Może przetrwać dwa awarie serwera jednocześnie: Nie.

Trzy węzły bez witnessa

Głosują wszystkie węzły, więc większość jest określana z 3 głosów. Jeśli jakikolwiek węzeł nie działa, osoby ocalałe mają 2/3, a klaster nie działa. Klaster staje się dwoma węzłami bez żadnego węzła — w tym momencie jesteś w scenariuszu 1.

Kworum wyjaśnione w przypadku trzech węzłów bez monitora

  • Może przetrwać awarię jednego serwera: Tak.
  • Może przetrwać jedną awarię serwera, a drugą: Procent prawdopodobieńsze odsetka .
  • Może przetrwać dwa awarie serwera jednocześnie: Nie.

Trzy węzły z węzłami z węzłami

Głos na wszystkie węzły jest głosowany, więc początkowo nie zagłosuje na to relacja. Większość jest określana z 3 głosów. Po jednej awarii klaster ma dwa węzły z węzdaniem — czyli powrót do scenariusza 2. Teraz dwa węzły i głosuje na witness.

Kworum wyjaśnione w przypadku trzech węzłów z monitora

  • Może przetrwać awarię jednego serwera: Tak.
  • Może przetrwać jedną awarię serwera, a drugą: Tak.
  • Może przetrwać dwa awarie serwera jednocześnie: Nie.

Cztery węzły bez witnessa

Głos w jednym węźle jest zerowany, więc większość jest określana z 3 głosów. Po jednej awarii klaster stanie się trzema węzłami i będziesz w scenariuszu 3.

Kworum wyjaśnione w przypadku czterech węzłów bez monitora

  • Może przetrwać awarię jednego serwera: Tak.
  • Może przetrwać jedną awarię serwera, a drugą: Tak.
  • Może przetrwać dwa awarie serwera jednocześnie: Prawdopodobieństwo procentowe awarii .

Cztery węzły z węzłami z węzłami

Wszystkie głosy węzłów i głosy na dowód, więc większość jest określana z 5 głosów. Po jednej awarii jesteś w scenariuszu 4. Po dwóch równoczesnych awariach przejdź do scenariusza 2.

Kworum wyjaśnione w przypadku czterech węzłów z monitora

  • Może przetrwać awarię jednego serwera: Tak.
  • Może przetrwać jedną awarię serwera, a drugą: Tak.
  • Może przetrwać dwa awarie serwera jednocześnie: Tak.

Pięć węzłów i nie tylko

Głos na wszystkie węzły lub tylko jeden głos, co sprawia, że suma jest nieparzysta. Miejsca do magazynowania Direct nie może obsłużyć więcej niż dwóch węzłów, więc na tym etapie nie jest potrzebny ani przydatny żaden z węzłów.

Kworum wyjaśnione w przypadku pięciu węzłów i innych

  • Może przetrwać awarię jednego serwera: Tak.
  • Może przetrwać jedną awarię serwera, a drugą: Tak.
  • Może przetrwać dwa awarie serwera jednocześnie: Tak.

Teraz, gdy wiemy, jak działa kworum, przyjrzyjmy się typom monitora kworum.

Typy monitora kworum

Klaster trybu failover obsługuje trzy typy monitora kworum:

  • Cloud Witness — magazyn obiektów blob na platformie Azure dostępny dla wszystkich węzłów klastra. Przechowuje informacje o klastrze w pliku witness.log, ale nie przechowuje kopii bazy danych klastra.
  • File Share Witness — udział plików SMB skonfigurowany na serwerze plików z systemem Windows Server. Przechowuje informacje o klastrze w pliku witness.log, ale nie przechowuje kopii bazy danych klastra.
  • Disk Witness — mały dysk klastrowany, który znajduje się w grupie dostępnej Storage klastra. Ten dysk jest wysoce dostępny i może przejść w trybu failover między węzłami. Zawiera kopię bazy danych klastra. W przypadku narzędzia Miejsca do magazynowania Direct nie jest obsługiwany Miejsca do magazynowania Disk Witness.

Omówienie kworum puli

Właśnie rozmawialiśmy o kworum klastra, które działa na poziomie klastra. Teraz przyjrzyjmy się kworum puli, które działa na poziomie puli (tj. można utracić węzły i dyski i utrzymać pulę). Storage zostały zaprojektowane do użycia zarówno w scenariuszach klastrowanych, jak i nie klastrowanych, dlatego mają inny mechanizm kworum.

W poniższej tabeli przedstawiono przegląd wyników kworum puli na scenariusz:

Węzły serwera Może przetrwać awarię jednego węzła serwera Może wytrzymać awarię jednego węzła serwera, a następnie innego Może przetrwać dwa jednoczesne awarie węzłów serwera
2 Nie Nie Nie
2 + Witness Tak Nie Nie
3 Tak Nie Nie
3 + Witness Tak Nie Nie
4 Tak Nie Nie
4 + Witness Tak Tak Tak
5 i więcej Tak Tak Tak

Jak działa kworum puli

W przypadku awarii dysków lub utraty kontaktu z innym podzbiorem przez pewien podzbiór dysków pozostałe dyski muszą sprawdzić, czy stanowią większość puli, aby pozostać w trybie online. Jeśli nie będą w stanie tego zweryfikować, przejdą do trybu offline. Pula jest jednostką, która przechodzi w tryb offline lub pozostaje w trybie online w zależności od tego, czy ma wystarczającą ilość dysków do kworum (50% + 1). Właścicielem zasobu puli (aktywnym węzłem klastra) może być +1.

Kworum puli działa jednak inaczej niż kworum klastra w następujący sposób:

  • Pula używa jednego węzła w klastrze jako skojarzenia w celu przetrwania połowy dysków zniknęło (ten węzeł jest właścicielem zasobu puli)
  • pula NIE ma dynamicznego kworum
  • Pula NIE implementuje własnej wersji usuwania głosu

Przykłady

Cztery węzły z układem symetrycznym

Każdy z 16 dysków ma jeden głos, a węzeł dwa ma również jeden głos (ponieważ jest właścicielem zasobu puli). Większość jest określana z 16 głosów. Jeśli węzły trzy i cztery nie działają, pozostały podzestaw ma 8 dysków i właściciela zasobu puli, czyli 9/16 głosów. W związku z tym pula nie przeżyje.

Kworum puli 1

  • Może przetrwać awarię jednego serwera: Tak.
  • Może przetrwać jedną awarię serwera, a drugą: Tak.
  • Może przetrwać dwa awarie serwera jednocześnie: Tak.

Cztery węzły z układem symetrycznym i awarią dysku

Każdy z 16 dysków ma jeden głos, a węzeł 2 ma również jeden głos (ponieważ jest właścicielem zasobu puli). Większość jest określana z 16 głosów. Najpierw dysk 7 nie działa. Jeśli węzły trzy i cztery nie działają, pozostały podzestaw ma 7 dysków i właściciela zasobu puli, czyli 8/16 głosów. Dlatego pula nie ma większości i nie działa.

Kworum puli 2

  • Może przetrwać awarię jednego serwera: Tak.
  • Może przetrwać jedną awarię serwera, a drugą: Nie.
  • Może przetrwać dwa awarie serwera jednocześnie: Nie.

Cztery węzły z niesymetrycznym układem

Każdy z 24 dysków ma jeden głos, a węzeł dwa ma również jeden głos (ponieważ jest właścicielem zasobu puli). Większość jest określana z 24 głosów. Jeśli węzły trzy i cztery nie działają, pozostały podzestaw ma 8 dysków i właściciela zasobu puli, czyli 24/9 głosów. Dlatego pula nie ma większości i nie działa.

Kworum puli 3

  • Może przetrwać awarię jednego serwera: Tak.
  • Może ocaleć jeden serwer, a następnie inny: Zależy (nie może przetrwać, jeśli oba węzły trzy i cztery utrącą się, ale mogą przetrwać wszystkie pozostałe scenariusze.
  • Może przetrwać dwa awarie serwera jednocześnie: zależy (nie może przetrwać, jeśli oba węzły trzy i cztery nie będą w stanie przeżyć, ale może przetrwać wszystkie pozostałe scenariusze.

Zalecenia dotyczące kworum puli

  • Upewnij się, że każdy węzeł w klastrze jest symetryczny (każdy węzeł ma taką samą liczbę dysków)
  • Włącz dublowanie trzykierunkowe lub podwójną parzystość, aby tolerować awarie węzłów i zachować dyski wirtualne w trybie online.
  • Jeśli więcej niż dwa węzły nie są dostępne lub dwa węzły i dysk w innym węźle nie są dostępne, woluminy mogą nie mieć dostępu do wszystkich trzech kopii danych i w związku z tym mogą być przesyłane do trybu offline i niedostępne. Zaleca się szybkie przywrócić serwery lub wymienić dyski, aby zapewnić jak najwięcej odporności dla wszystkich danych w woluminie.

Następne kroki

Aby uzyskać więcej informacji, zobacz następujące tematy: