Informazioni sulla deduplicazione datiUnderstanding Data Deduplication

Si applica a: Windows Server 2019, Windows Server 2016, Windows Server (canale semestrale)Applies to: Windows Server 2019, Windows Server 2016, Windows Server (Semi-Annual Channel)

Questo documento descrive come funziona Deduplicazione dati.This document describes how Data Deduplication works.

Come funziona la deduplicazione dei dati?How does Data Deduplication work?

La Deduplicazione dati in Windows Server è stata creata con i due principi seguenti:Data Deduplication in Windows Server was created with the following two principles:

  1. Ottimizzazione non deve ostacolare la scrittura su discoOptimization should not get in the way of writes to the disk
    La deduplicazione dati consente di ottimizzare i dati usando un modello di post-elaborazione.Data Deduplication optimizes data by using a post-processing model. Tutti i dati vengono scritti sul disco senza essere ottimizzati per poi essere ottimizzati in un secondo tempo con la deduplicazione dati.All data is written unoptimized to the disk and then optimized later by Data Deduplication.

  2. Ottimizzazione non deve modificare la semantica di accessoOptimization should not change access semantics
    Gli utenti e le applicazioni che accedono ai dati in un volume ottimizzato non sono affatto consapevoli che i file a cui stanno accedendo sono stati deduplicati.Users and applications that access data on an optimized volume are completely unaware that the files they are accessing have been deduplicated.

Dopo essere stata abilitata per un volume, la deduplicazione dati viene eseguita in background per:Once enabled for a volume, Data Deduplication runs in the background to:

  • Identificare i modelli ripetuti in tutti i file di quel volume.Identify repeated patterns across files on that volume.
  • Spostare facilmente queste porzioni, o blocchi, con puntatori speciali di nome reparse point che puntano a una copia univoca di quel blocco.Seamlessly move those portions, or chunks, with special pointers called reparse points that point to a unique copy of that chunk.

Ciò si verifica nei quattro passaggi seguenti:This occurs in the following four steps:

  1. Analizzare il file system per individuare i file che soddisfano i criteri di ottimizzazione.Scan the file system for files meeting the optimization policy.
    Analisi del file system
  2. Suddivisione dei file in blocchi di dimensioni variabili.Break files into variable-size chunks.
    Suddivisione dei file in blocchi
  3. Identificazione dei blocchi univoci.Identify unique chunks.
    Identificazione dei blocchi univoci
  4. Collocazione dei blocchi nell'archivio blocchi e, facoltativamente, compressione.Place chunks in the chunk store and optionally compress.
    Spostamento nell'archivio blocchi
  5. Sostituzione del flusso di file originale ora ottimizzato con un reparse point nell'archivio blocchi.Replace the original file stream of now optimized files with a reparse point to the chunk store.
    Sostituzione del flusso di file con un reparse point

Quando vengono letti i file ottimizzati, il file system invia i file con un reparse point al filtro del file system per la deduplicazione dati (Dedup.sys).When optimized files are read, the file system sends the files with a reparse point to the Data Deduplication file system filter (Dedup.sys). Il filtro reindirizza l'operazione di lettura ai blocchi appropriati che costituiscono il flusso per il file nell'archivio blocchi.The filter redirects the read operation to the appropriate chunks that constitute the stream for that file in the chunk store. Le modifiche apportate agli intervalli di un file deduplicato vengono scritte sul disco e ottimizzate alla sua esecuzione successiva tramite il processo di ottimizzazione.Modifications to ranges of a deduplicated files get written unoptimized to the disk and are optimized by the Optimization job the next time it runs.

Tipi di utilizzoUsage Types

I seguenti tipi di uso indicano la configurazione più ragionevole di deduplicazione dati per carichi di lavoro comuni:The following Usage Types provide reasonable Data Deduplication configuration for common workloads:

Tipo di usoUsage Type Carichi di lavoro idealiIdeal workloads DifferenzeWhat's different
DefaultDefault File server per uso generale:General purpose file server:
  • Condivisioni del teamTeam shares
  • Cartelle di lavoroWork Folders
  • Reindirizzamento cartelleFolder redirection
  • Condivisioni per lo sviluppo di softwareSoftware development shares
  • Ottimizzazione in backgroundBackground optimization
  • Criteri predefiniti di ottimizzazione:Default optimization policy:
    • Età minima del file = 3 giorniMinimum file age = 3 days
    • Ottimizzazione dei file in uso = NoOptimize in-use files = No
    • Ottimizzazione dei file parziali = NoOptimize partial files = No
Hyper-VHyper-V Server VDI (Virtual Desktop Infrastructure)Virtualized Desktop Infrastructure (VDI) servers
  • Ottimizzazione in backgroundBackground optimization
  • Criteri predefiniti di ottimizzazione:Default optimization policy:
    • Età minima del file = 3 giorniMinimum file age = 3 days
    • Ottimizzazione dei file in uso = SìOptimize in-use files = Yes
    • Ottimizzazione dei file parziali = SìOptimize partial files = Yes
  • Modifiche avanzate per l'interoperabilità di Hyper-V"Under-the-hood" tweaks for Hyper-V interop
BackupBackup Applicazioni di backup virtualizzate, ad esempio Microsoft Data Protection Manager (DPM)Virtualized backup applications, such as Microsoft Data Protection Manager (DPM)
  • Ottimizzazione della prioritàPriority optimization
  • Criteri predefiniti di ottimizzazione:Default optimization policy:
    • Età minima del file = 0 giorniMinimum file age = 0 days
    • Ottimizzazione dei file in uso = SìOptimize in-use files = Yes
    • Ottimizzazione dei file parziali = NoOptimize partial files = No
  • Modifiche avanzate per l'interoperabilità con soluzioni DPM/analoghe a DPM"Under-the-hood" tweaks for interop with DPM/DPM-like solutions

ProcessiJobs

La deduplicazione dati usa una strategia di post-elaborazione per ottimizzare e mantenere l'efficienza dello spazio del volume.Data Deduplication uses a post-processing strategy to optimize and maintain a volume's space efficiency.

Nome processoJob name Descrizioni del processoJob descriptions Pianificazione predefinitaDefault schedule
OttimizzazioneOptimization Il processo Ottimizzazione esegue la deduplicazione suddividendo i dati in blocchi su un volume in base alle impostazioni dei criteri del volume, comprimendo facoltativamente tali blocchi e archiviandoli in modo univoco nell'archivio blocchi.The Optimization job deduplicates by chunking data on a volume per the volume policy settings, (optionally) compressing those chunks, and storing chunks uniquely in the chunk store. Il processo di ottimizzazione che usa la deduplicazione dati è descritto in dettaglio in Come funziona la deduplicazione dati?.The optimization process that Data Deduplication uses is described in detail in How does Data Deduplication work?. Una volta ogni oraOnce every hour
Operazione di Garbage CollectionGarbage Collection Il processo Garbage Collection richiede il recupero di spazio su disco rimuovendo blocchi inutili a cui i file che sono stati recentemente modificati o eliminati non fanno più riferimento.The Garbage Collection job reclaims disk space by removing unnecessary chunks that are no longer being referenced by files that have been recently modified or deleted. Ogni sabato alle 2:35Every Saturday at 2:35 AM
Pulitura dell'integritàIntegrity Scrubbing Il processo Pulitura dell'integrità identifica eventuali danneggiamenti nell'archivio blocchi causati da errori del disco o settori danneggiati.The Integrity Scrubbing job identifies corruption in the chunk store due to disk failures or bad sectors. Quando possibile, la deduplicazione dati può usare automaticamente le funzionalità di volume (come mirror o parità in un volume di Spazi di archiviazione) per ricostruire i dati danneggiati.When possible, Data Deduplication can automatically use volume features (such as mirror or parity on a Storage Spaces volume) to reconstruct the corrupted data. Tramite la deduplicazione dati vengono anche mantenute copie di backup dei blocchi usati più di frequente quando vi viene fatto riferimento più di 100 volte in un'area denominata hotspot.Additionally, Data Deduplication keeps backup copies of popular chunks when they are referenced more than 100 times in an area called the hotspot. Ogni sabato alle 3:35Every Saturday at 3:35 AM
Annullamento dell'ottimizzazioneUnoptimization Il processo Annullamento dell'ottimizzazione può essere eseguito solo manualmente. Questo processo speciale annulla l'ottimizzazione eseguita dalla deduplicazione e disabilita la deduplicazione dati per il volume.The Unoptimization job, which is a special job that should only be run manually, undoes the optimization done by deduplication and disables Data Deduplication for that volume. Solo su richiestaOn-demand only

Terminologia di deduplicazione datiData Deduplication terminology

NomeTerm DefinizioneDefinition
bloccoChunk Un blocco è una sezione di un file che potrebbe verificarsi in altri file simili secondo l'algoritmo di suddivisione in blocchi di Deduplicazione dati.A chunk is a section of a file that has been selected by the Data Deduplication chunking algorithm as likely to occur in other, similar files.
Archivio blocchiChunk store L'archivio dei blocchi è una serie organizzata di file contenitore nella cartella Informazioni del volume di sistema che usa la deduplicazione dati per archiviare in modo univoco i blocchi.The chunk store is an organized series of container files in the System Volume Information folder that Data Deduplication uses to uniquely store chunks.
deduplicazioneDedup Un'abbreviazione di Deduplicazione dati usata in PowerShell, nelle API e nei componenti di Windows Server e di uso comune nella community di Windows Server.An abbreviation for Data Deduplication that's commonly used in PowerShell, Windows Server APIs and components, and the Windows Server community.
I metadati dei fileFile metadata Ogni file contiene metadati che descrivono le proprietà interessanti sul file che non sono correlate al contenuto principale del file.Every file contains metadata that describes interesting properties about the file that are not related to the main content of the file. Ad esempio, data di creazione, data dell'ultima lettura, autore e così via.For instance, Date Created, Last Read Date, Author, etc.
Flusso di fileFile stream Il flusso di file è il contenuto principale del file.The file stream is the main content of the file. Questa è la parte del file che la deduplicazione dati ottimizza.This is the part of the file that Data Deduplication optimizes.
File systemFile system Il file system è la struttura dei dati su disco e software che consente al sistema operativo di archiviare i file sul supporto di archiviazione.The file system is the software and on-disk data structure that the operating system uses to store files on storage media. La deduplicazione dati è supportata nei volumi NTFS formattati.Data Deduplication is supported on NTFS formatted volumes.
Filtro del file systemFile system filter Un filtro del file system è un plug-in che modifica il comportamento predefinito del file system.A file system filter is a plugin that modifies the default behavior of the file system. Per mantenere la semantica di accesso, la deduplicazione dati usa un filtro del file system (Dedup.sys) per reindirizzare le letture del contenuto ottimizzato in modo completamente trasparente all'utente o applicazione che effettua la richiesta di lettura.To preserve access semantics, Data Deduplication uses a file system filter (Dedup.sys) to redirect reads to optimized content completely transparently to the user or application that makes the read request.
OttimizzazioneOptimization Un file viene considerato ottimizzato o deduplicato da Deduplicazione dati se è stato suddiviso in blocchi e i blocchi univoci sono stati archiviati nell'archivio blocchi.A file is considered optimized (or deduplicated) by Data Deduplication if it has been chunked, and its unique chunks have been stored in the chunk store.
Criteri di ottimizzazioneOptimization policy I criteri di ottimizzazione specificano quali file devono essere considerati per la deduplicazione dati.The optimization policy specifies the files that should be considered for Data Deduplication. Ad esempio, i file potrebbero risultare non idonei ai criteri se sono completamente nuovi, aperti, in un determinato percorso del volume o di un determinato tipo.For example, files may be considered out-of-policy if they are brand new, open, in a certain path on the volume, or a certain file type.
Il punto di analisiReparse point Un reparse point è un tag speciale che notifica al file system di passare le operazioni di I/O a un filtro specifico del file system.A reparse point is a special tag that notifies the file system to pass off I/O to a specified file system filter. Quando il flusso di file del file è stato ottimizzato, la deduplicazione dati sostituisce il flusso di file con un reparse point, che consente alla funzionalità di mantenere la semantica di accesso per tale file.When a file's file stream has been optimized, Data Deduplication replaces the file stream with a reparse point, which enables Data Deduplication to preserve the access semantics for that file.
VolumeVolume Un volume è un costrutto di Windows per un'unità di archiviazione logica che può estendere diversi dispositivi di archiviazione fisica in un uno o più server.A volume is a Windows construct for a logical storage drive that may span multiple physical storage devices across a one or more servers. La deduplicazione è abilitata in base al principio di volume per volume.Deduplication is enabled on a volume-by-volume basis.
carico di lavoroWorkload Un carico di lavoro è un'applicazione che viene eseguita su Windows Server.A workload is an application that runs on Windows Server. Esempi dei carichi di lavoro includono file server a scopi generici, Hyper-V e SQL Server.Example workloads include general purpose file server, Hyper-V, and SQL Server.

Avviso

A meno che non sia richiesto dal personale di supporto Microsoft autorizzato, non tentare di modificare manualmente l'archivio blocchi.Unless instructed by authorized Microsoft Support Personnel, do not attempt to manually modify the chunk store. Questa azione può comportare il danneggiamento o la perdita dei dati.Doing so may result in data corruption or loss.

Domande frequentiFrequently asked questions

La deduplicazione dati è diversa da altri prodotti di ottimizzazione?How does Data Deduplication differ from other optimization products?
Vi sono alcune differenze importanti tra la deduplicazione dati e altri prodotti comuni di ottimizzazione dell'archiviazione:There are several important differences between Data Deduplication and other common storage optimization products:

  • Come deduplicazione dati è diversa da una singola istanza di Store?How does Data Deduplication differ from Single Instance Store?
    Single Instance Store, o SIS, è una tecnologia precedente a Deduplicazione dati introdotta in Windows Storage Server 2008 R2.Single Instance Store, or SIS, is a technology that preceded Data Deduplication and was first introduced in Windows Storage Server 2008 R2. Single Instance Store ottimizzava un volume identificando i file completamente identici e sostituendoli con collegamenti logici a una singola copia di un file archiviato nell'archivio comune SIS.To optimize a volume, Single Instance Store identified files that were completely identical and replaced them with logical links to a single copy of a file that's stored in the SIS common store. A differenza di Single Instance Store, Deduplicazione dati può risparmiare spazio da file che non sono identici ma condividono molti modelli comuni e da file che a loro volta contengono molti modelli ripetuti.Unlike Single Instance Store, Data Deduplication can get space savings from files that are not identical but share many common patterns and from files that themselves contain many repeated patterns. Single Instance Store è stata deprecata in Windows Server 2012 R2 e rimossa in Windows Server 2016 a favore di Deduplicazione dati.Single Instance Store was deprecated in Windows Server 2012 R2 and removed in Windows Server 2016 in favor of Data Deduplication.

  • La deduplicazione dati è diversa dalla compressione NTFS?How does Data Deduplication differ from NTFS compression?
    La compressione NTFS è una funzionalità di NTFS che può essere abilitata facoltativamente a livello di volume.NTFS compression is a feature of NTFS that you can optionally enable at the volume level. Con la compressione NTFS ogni singolo file è ottimizzato singolarmente tramite la compressione in fase di scrittura.With NTFS compression, each file is optimized individually via compression at write-time. A differenza della compressione NTFS, Deduplicazione dati può risparmiare spazio da tutti i file in un volume.Unlike NTFS compression, Data Deduplication can get spacing savings across all the files on a volume. Questo rappresenta un vantaggio rispetto alla compressione NTFS perché i file possono avere sia una duplicazione interna, che è interessata dalla compressione NTFS, sia analogie con altri file nel volume, che non viene interessato dalla compressione NTFS.This is better than NTFS compression because files may have both internal duplication (which is addressed by NTFS compression) and have similarities with other files on the volume (which is not addressed by NTFS compression). Deduplicazione dati include anche un modello di post-elaborazione, il che significa che i nuovi file o le modifiche ai file esistenti verranno scritti sul disco e ottimizzati solo in un momento successivo da Deduplicazione dati.Additionally, Data Deduplication has a post-processing model, which means that new or modified files will be written to disk unoptimized and will be optimized later by Data Deduplication.

  • La deduplicazione dati è diversa dai formati di archivio come zip, rar, 7z, cab e così via.?How does Data Deduplication differ from archive file formats like zip, rar, 7z, cab, etc.?
    I formati file di archivio come i file con estensione zip, rar, 7z, cab e così via eseguono la compressione su un set di file specificato.Archive file formats, like zip, rar, 7z, cab, etc., perform compression over a specified set of files. Come la deduplicazione dei dati, i modelli duplicati all'interno dei file e modelli duplicati tra file sono ottimizzati.Like Data Deduplication, duplicated patterns within files and duplicated patterns across files are optimized. È tuttavia necessario scegliere i file che si vuole includere nell'archivio.However, you have to choose the files that you want to include in the archive. Anche la semantica di accesso è diversa.Access semantics are different, too. Per accedere a un file specifico all'interno dell'archivio, è necessario aprire l'archivio, selezionare un file specifico e decomprimere il file per l'uso.To access a specific file within the archive, you have to open the archive, select a specific file, and decompress that file for use. Deduplicazione dati funziona in modo trasparente per gli utenti e gli amministratori e non richiede un avvio manuale.Data Deduplication operates transparently to users and administrators and requires no manual kick-off. Deduplicazione dati consente anche di mantenere la semantica di accesso: i file ottimizzati appaiono invariati dopo l'ottimizzazione.Additionally, Data Deduplication preserves access semantics: optimized files appear unchanged after optimization.

È possibile modificare le impostazioni di deduplicazione dati per il tipo di uso selezionato?Can I change the Data Deduplication settings for my selected Usage Type?
Sì.Yes. Anche se Deduplicazione dati offre impostazioni predefinite ragionevoli per Carichi di lavoro consigliati, può comunque risultare utile modificare le relative impostazioni per sfruttare al meglio l'archiviazione.Although Data Deduplication provides reasonable defaults for Recommended workloads, you might still want to tweak Data Deduplication settings to get the most out of your storage. Inoltre, altri carichi di lavoro richiedono alcune modifiche per verificare che Deduplicazione dati non interferisca con il carico di lavoro.Additionally, other workloads will require some tweaking to ensure that Data Deduplication does not interfere with the workload.

Si eseguono manualmente un processo di deduplicazione dati?Can I manually run a Data Deduplication job?
Sì, tutti i processi di Deduplicazione dati possono essere eseguiti manualmente.Yes, all Data Deduplication jobs may be run manually. Ciò può essere opportuno se i processi pianificati non sono stati eseguiti a causa di risorse di sistema insufficienti o di un errore.This may be desirable if scheduled jobs did not run due to insufficient system resources or because of an error. Inoltre, il processo di annullamento dell'ottimizzazione può essere eseguito solo manualmente.Additionally, the Unoptimization job can only be run manually.

È possibile monitorare la cronologia dei risultati dei processi di deduplicazione dati?Can I monitor the historical outcomes of Data Deduplication jobs?
Sì, ogni processo di deduplicazione dati costituisce una voce nel registro eventi di Windows.Yes, all Data Deduplication jobs make entries in the Windows Event Log.

È possibile modificare le pianificazioni predefinite per i processi di deduplicazione dati sul mio sistema?Can I change the default schedules for the Data Deduplication jobs on my system?
Sì, tutte le pianificazioni sono configurabili.Yes, all schedules are configurable. Modificare le pianificazioni predefinite di Deduplicazione dati è particolarmente utile per garantire che i processi di Deduplicazione dati dispongano di tempo a sufficienza per essere completati e non siano in competizione per le risorse con il carico di lavoro.Modifying the default Data Deduplication schedules is particularly desirable to ensure that the Data Deduplication jobs have time to finish and do not compete for resources with the workload.