Omówienie funkcji deduplikacji danych

Artykuł
09/02/2016

Data opublikowania: sierpień 2016

Dotyczy: Windows Storage Server 2012, Windows Server 2012 R2, Windows Server 2012

W tym temacie opisano funkcję deduplikacji danych w systemach Windows Server 2012 R2 i Windows Server 2012 oraz wyjaśniono jej praktyczne zastosowania.

Opis funkcji

Proces deduplikacji danych obejmuje znajdowanie oraz usuwanie duplikatów danych bez naruszania ich wierności i integralności. Celem jest zapisanie większej ilości danych w mniejszej przestrzeni. Jest to osiągane przez podzielenie plików na małe fragmenty o różnych rozmiarach (32–128 KB), zidentyfikowanie zduplikowanych fragmentów i pozostawienie pojedynczej kopii każdego fragmentu. Nadmiarowe kopie fragmentów są zastępowane odwołaniami do pojedynczej kopii. Fragmenty są kompresowane, a następnie organizowane w specjalne pliki kontenerów w folderze System Volume Information.

W wyniku tego procesu zachodzi przekształcanie poszczególnych plików na dysku, co przedstawiono na rysunku nr 1. Po zastosowaniu deduplikacji pliki nie są już przechowywane jako niezależne strumienie danych, lecz są zamieniane na skróty wskazujące bloki danych zapisane we wspólnym magazynie fragmentów. Ponieważ te pliki współużytkują bloki, bloki te są zapisane tylko raz, co zmniejsza ilość miejsca na dysku potrzebnego do przechowywania wszystkich plików. Podczas uzyskiwania dostępu do plików odpowiednie bloki są w niewidoczny sposób składane, aby udostępnić dane bez konieczności przywoływania aplikacji czy wymagania od użytkownika znajomości zachodzących na dysku transformacji pliku. Umożliwia to administratorom zastosowanie deduplikacji do plików bez obaw o spowodowanie zmiany w zachowaniu aplikacji lub wpływ na użytkowników, którzy uzyskują dostęp do tych plików.

Rysunek 1. Przekształcanie plików na dysku

Rysunek 1. Zachodzące na dysku transformacje plików podczas deduplikacji danych

Po włączeniu dla woluminu funkcji deduplikacji i zoptymalizowaniu danych zawiera on następujące elementy:

Pliki niezoptymalizowane. Mogą to być na przykład pliki, które nie spełniają wybranych ustawień zasad dotyczących wieku pliku, pliki z danymi o stanie systemu, alternatywne strumienie danych, pliki zaszyfrowane, pliki z atrybutami rozszerzonymi, pliki mniejsze niż 32 KB, inne pliki punktów ponownej analizy lub pliki używane przez inne aplikacje (ograniczenie użycia w innej aplikacji zostało usunięte w systemie Windows Server 2012 R2).
Pliki zoptymalizowane. Pliki przechowywane jako punkty ponownej analizy, które zawierają wskaźniki do mapy odpowiednich fragmentów w magazynie fragmentów. Są one potrzebne do odtworzenia żądanego pliku.
Magazyn fragmentów. Lokalizacja danych zoptymalizowanych plików.
Dodatkowe wolne miejsce. Zoptymalizowane pliki i magazyn fragmentów zajmują o wiele mniej miejsca, niż zajmowały przed optymalizacją.

Zastosowania praktyczne

Aby poradzić sobie w przedsiębiorstwie z powiększającą się przestrzenią dyskową zajętą przez dane, administratorzy konsolidują serwery i skupiają swoje działania na skalowaniu pojemności i optymalizacji danych. Funkcja deduplikacji danych udostępnia praktyczne sposoby na osiągnięcie tych celów, takie jak:

Optymalizacja pojemności. Deduplikacja danych powoduje, że potrzeba mniej fizycznego miejsca do przechowania większej ilości danych. Powoduje to osiągnięcie większej wydajności przechowywania, niż jest to możliwe dzięki wykorzystaniu innych funkcji, takich jak SIS (Single Instance Store) czy kompresji NTFS. Funkcja deduplikacji danych używa metody dzielenia plików na fragmenty o różnych rozmiarach i ich kompresji, co zapewnia współczynnik optymalizacji 2:1 dla ogólnych serwerów plików i nawet do 20:1 dla danych wirtualizowanych.
Skalowalność i wydajność. Funkcja deduplikacji danych jest wysoce skalowalna, wydajna pod względem zasobów i nie wywołuje niepożądanych skutków. Może przetwarzać do 50 MB danych na sekundę w systemie Windows Server 2012 R2 i około 20 MB danych na sekundę w systemie Windows Server 2012. Deduplikacja danych może działać na wielu woluminach jednocześnie bez wpływu na pozostałe obciążenie serwera. Niski wpływ na obciążenie serwera zapewnia funkcja dławienia używanych zasobów procesora i pamięci. Jeśli serwer jest bardzo zajęty, proces deduplikacji może zostać całkowicie zatrzymany. Administratorzy mogą dodatkowo uruchamiać zadania deduplikacji danych w dowolnym czasie, ustawiać harmonogramy uruchamiania deduplikacji danych i określać zasady wyboru plików.
Niezawodność i integralność danych. Podczas stosowania deduplikacji danych utrzymywana jest ich integralność. Aby zapewnić integralność danych, funkcja deduplikacji weryfikuje sumę kontrolną, spójność i tożsamość. Dla wszystkich metadanych i często przywoływanych danych funkcja deduplikacji zachowuje nadmiarowość, aby zapewnić możliwość odzyskania danych w przypadku ich uszkodzenia.
Wydajna przepustowość dzięki usłudze BranchCache. Dzięki integracji z usługą BranchCache te same techniki optymalizacji są stosowane do danych przesyłanych przez sieć WAN do biura oddziału. W rezultacie zmniejszeniu ulegają czasy pobierania plików i użycie przepustowości.
Zarządzanie optymalizacją za pomocą znanych narzędzi. Funkcje optymalizacji usługi deduplikacji danych są wbudowane w Menedżera serwerów i program Windows PowerShell. Zastosowanie ustawień domyślnych może przynieść natychmiastowe oszczędności, a ich dopasowanie przez administratorów może dać jeszcze więcej korzyści. Korzystając z poleceń cmdlet programu Windows PowerShell, można łatwo uruchomić zadanie optymalizacji lub zaplanować jego uruchomienie w przyszłości. Instalowanie funkcji deduplikacji danych i włączanie deduplikacji w wybranych woluminach może być również wykonywane przy użyciu pliku Unattend.xml. Ten plik wywołuje skrypt programu Windows PowerShell i może być używany z programem Sysprep do wdrażania deduplikacji podczas pierwszego uruchomienia systemu.

Nowe i zmienione funkcje

W następującej tabeli opisano zmiany funkcji deduplikacji danych. Aby uzyskać więcej informacji, zobacz What's New in deduplikacji danych w systemie Windows Server.

Funkcja	Nowa czy zaktualizowana?	Opis
Deduplikacja danych magazynu zdalnego na potrzeby obciążeń z infrastruktury pulpitów wirtualnych (VDI, Virtual Desktop Infrastructure)	Nowa w systemie Windows Server 2012 R2	Optymalizacja aktywnych wirtualnych dysków twardych (VHD) na potrzeby obciążeń z infrastruktury pulpitów wirtualnych (VDI) przez zaimplementowanie deduplikacji danych w udostępnionych woluminach klastra (CSV, Cluster Shared Volume).
Rozwijanie zoptymalizowanego pliku w jego oryginalnej ścieżce	Nowa w systemie Windows Server 2012 R2	Nowe polecenie cmdlet Expand-DedupFile programu Windows PowerShell umożliwia rozwinięcie w oryginalnej ścieżce zoptymalizowanych plików w określonej ścieżce, jeśli jest to wymagane ze względu na zachowanie zgodności z aplikacjami, wydajność lub z innego powodu. Aby uzyskać więcej informacji dotyczących tego polecenia cmdlet, zobacz T:Deduplication.Expand-DedupFile.
Deduplikacja danych w woluminach kopii zapasowej używanych przez zwirtualizowane aplikacje do tworzenia kopii zapasowych	Nowa w systemie Windows Server 2012 R2	Optymalizacja aktywnych wirtualnych dysków twardych (VHD) używanych przez zwirtualizowane aplikacje do tworzenia kopii zapasowych poprzez zaimplementowanie funkcji deduplikacji danych w udostępnionych woluminach klastra (CSV) lub ograniczonych konfiguracjach hiperkonwergentnych. (Obsługiwana w systemie Windows Server 2012 R2 z pakietem zbiorczym aktualizacji z listopada 2014 r. (KB 3000850) lub nowszym).

Wymagania

Aby móc korzystać z funkcji deduplikacji danych, środowisko musi spełniać następujące wymagania:

Serwer: jeden komputer lub maszyna wirtualna z systemem Windows Server 2012 R2 albo Windows Server 2012 i co najmniej jednym woluminem danych
Opcjonalnie: inny komputer lub maszyna wirtualna z systemem Windows Server 2012 R2 albo Windows Server 2012 połączona z serwerem za pośrednictwem sieci
Ważne

Jeśli deduplikacja danych jest wykonywana w ramach infrastruktury VDI lub zwirtualizowanych kopii zapasowych, wszystkie pliki VHD muszą spełniać jeden z poniższych warunków:
- Muszą być przechowywane na serwerze plików z systemem Windows Server 2012 R2, a węzły magazynu i obliczeniowy muszą działać na różnych serwerach.
- Muszą być przechowywane w magazynie lokalnym w ramach określonej ograniczonej konfiguracji hiperkonwergentnej. Szczegółowe wymagania można znaleźć w dokumencie Planowanie wdrożenia funkcji deduplikacji danych.

Współdziałanie z maszynami wirtualnymi platformy Azure

Tę usługę roli systemu Windows Server można uruchomić na maszynie wirtualnej na platformie Azure. Ten scenariusz był testowany z systemem Windows Server 2012 R2. Zaleca się używanie funkcji deduplikacji danych na maszynach wirtualnych platformy Microsoft Azure z woluminami, w których często wykonywane są operacje odczytu, ale rzadko wykonywane są operacje zapisu. W takich warunkach funkcja deduplikacji danych może być wydajnym sposobem na przechowywanie większej ilości danych na maszynach wirtualnych platformy Azure.

Następujące obciążenia mogą być odpowiednimi obiektami do zastosowania funkcji deduplikacji danych na maszynach wirtualnych platformy Azure:

Ogólne serwery plików ze względnie statyczną zawartością
Witryny programu Microsoft SharePoint ze względnie statyczną zawartością
Witryny internetowe ze względnie statyczną zawartością

Następujące obciążenia nie są zalecane do użycia z funkcją deduplikacji danych na maszynach wirtualnych platformy Azure z powodu częstotliwości zmian występujących w dużych plikach używanych przez te obciążenia:

Serwery obsługi wiadomości, na przykład program Microsoft Exchange Server
Serwery baz danych, na przykład program Microsoft SQL Server

Wprowadzenie do maszyn wirtualnych platformy Azure można znaleźć w witrynie internetowej platformy Azure.

Przegląd architektury

Funkcja deduplikacji danych składa się ze sterownika filtru, który monitoruje lokalne lub zdalne operacje wejścia/wyjścia, oraz z usługi deduplikacji, która steruje trzema dostępnymi typami zadań (optymalizacji, odzyskiwania pamięci i czyszczenia danych).

Właściwością architektury deduplikacji jest odporność na awarie sprzętowe — pełna weryfikacja sum kontrolnych danych i metadanych, w tym nadmiarowość metadanych oraz najczęściej używanych fragmentów danych.

Funkcja deduplikacji danych może potencjalnie przetworzyć wszystkie dane w wybranym woluminie (z wyjątkiem plików o rozmiarze mniejszym niż 32 KB, plików w wykluczonych folderach lub plików z zastosowanymi ustawieniami dotyczącymi wieku). Przed włączeniem tej funkcji należy starannie sprawdzić, czy serwer i dołączone woluminy są odpowiednimi obiektami do deduplikacji. Stanowczo zaleca się, aby podczas deduplikacji regularnie tworzyć kopie zapasowe ważnych danych.

Zobacz też

Dodatkowe powiązane informacje znajdują się w następujących zasobach.

Typ zawartości	Odwołania
Ocena produktu	Rozszerzanie deduplikacji danych na nowe obciążenia w systemie Windows Server 2012 R2
Wdrażanie	Wdrażanie deduplikacji danych na potrzeby magazynu VDI w systemie Windows Server 2012 R2 Planowanie wdrożenia funkcji deduplikacji danych Kopia zapasowa i przywracanie zagadnienia dotyczące woluminów Deduplikowanych Deduplikacja danych — współdziałanie Instalowanie i konfigurowanie deduplikacji danych
Operacje	Monitorowanie oraz raporty deduplikacji danych
Zasoby społeczności	Forum w witrynie TechNet dotyczące usług plików i przechowywania w systemie Blog „Storage Team at Microsoft File Cabinet” Blog „Ask the Directory Services Team” Blog Jose Barreto Informacje dotyczące systemu Windows Server na Twitterze
Technologie pokrewne	Usługi plików i magazynowania — omówienie Klaster trybu failover — omówienie Miejsca do magazynowania — omówienie