Deduplicare l'archiviazione DPM

Articolo
05/30/2023

Importante

Questa versione di Data Protection Manager (DPM) ha raggiunto la fine del supporto. È consigliabile eseguire l'aggiornamento a DPM 2022.

System Center Data Protection Manager (DPM) può usare la deduplicazione dei dati.

La deduplicazione dei dati (dedup) individua e rimuove i dati duplicati in un volume, garantendo che i dati rimangano corretti e completi. Altre informazioni sulla pianificazione della deduplicazione.

Dedup riduce il consumo di archiviazione. Anche se la quantità di ridondanza per un set di dati dipenderà dal carico di lavoro e dal tipo di dati, in genere i dati di backup mostrano un risparmio elevato quando viene usato il dedup.
La ridondanza dei dati può essere ulteriormente ridotta con la deduplicazione quando si elaborano insieme dati di backup dello stesso tipo e carichi di lavoro.
Dedup è progettato per essere installato nei volumi di dati primari senza hardware dedicato aggiuntivo in modo che non influisca sul carico di lavoro primario nel server. Le impostazioni predefinite sono non intrusive, in quanto consentono ai dati di età per cinque giorni prima di elaborare un determinato file e avere una dimensione minima minima predefinita di 32 KB. L'implementazione è progettata per un utilizzo ridotto della CPU e della memoria.
La deduplicazione può essere implementata nei carichi di lavoro seguenti:
- Condivisioni di file generici: pubblicazione e condivisione di contenuto di gruppo, home directory dell'utente e Reindirizzamento di cartelle/File offline
- Condivisioni di distribuzione software: File binari del software, immagini e aggiornamenti
- Librerie VHD: archiviazione dei file su disco rigido virtuale (VHD) per il provisioning agli hypervisor
- Distribuzioni di VDI (solo Windows Server 2012 R2): distribuzioni di Virtual Desktop Infrastructure (VDI) tramite Hyper-V
- Backup virtualizzato: soluzioni di backup (ad esempio DPM in esecuzione in una macchina virtuale Hyper-V) che salvano i dati di backup nei file VHD/VHDX in un file server file windows

DPM e deduplicazione

L'uso della deduplicazione con DPM può generare notevoli risparmi. La quantità di spazio salvato dalla deduplicazione con l'ottimizzazione dei dati di backup di DPM varia a seconda del tipo di dati di cui viene eseguito il backup. Un backup di un server di database crittografato, ad esempio, potrebbe produrre un risparmio minimo perché tutti i dati duplicati sono nascosti a causa del processo di crittografia. Tuttavia, il backup di una distribuzione di Virtual Desktop Infrastructure (VDI) di grandi dimensioni può comportare un risparmio elevato nell'intervallo di 70-90+%, poiché in genere è presente una grande quantità di duplicazione dei dati tra gli ambienti desktop virtuali. Nella configurazione descritta nell'articolo sono stati eseguiti vari carichi di lavoro di test e sono stati visualizzati risparmi compresi tra il 50% e il 90%.

Per usare dedup per l'archiviazione DPM, DPM deve essere in esecuzione in una macchina virtuale Hyper-V e archiviare i dati di backup nei dischi rigidi virtuali nelle cartelle condivise con dati abilitati.

Distribuzione consigliata

Per distribuire DPM come macchina virtuale per il backup dei dati su un volume deduplicato, è consigliabile la topologia di distribuzione seguente:

DPM in esecuzione su una macchina virtuale in un cluster host Hyper-V.
Archiviazione di DPM utilizzando i file VHD/VHDX archiviati in una condivisione SMB 3.0 su un file server.
Per l'esempio di test è stato configurato il file server come file server con scalabilità orizzontale distribuita usando volumi di archiviazione configurati da pool di Spazi di archiviazione compilati usando unità SAS connesse direttamente. Questa distribuzione garantisce prestazioni su larga scala.

Tenere presente quanto segue:

Questa distribuzione è supportata per DPM 2012 R2 e versioni successive e per tutti i dati del carico di lavoro che possono essere sottoposti a backup da DPM 2012 R2 e versioni successive.
Tutti i nodi di File Server Windows in cui si trovano i dischi rigidi virtuali di DPM e sui quali verrà abilitata la deduplicazione devono eseguire Windows Server 2012 R2 con l'aggiornamento cumulativo di novembre 2014 o versioni successive.
Forniremo consigli e istruzioni generali per la distribuzione di questo scenario. Ogni volta che vengono forniti esempi specifici dell'hardware, l'hardware distribuito su Microsoft Cloud Platform System (CPS) viene utilizzato per riferimento.
In questo esempio vengono usate condivisioni SMB 3.0 remote per archiviare i dati di backup, quindi i requisiti hardware primari si usano nei nodi file server anziché nei nodi Hyper-V. La configurazione hardware seguente viene usata in CPS per l'archiviazione di backup e di produzione. L'hardware complessivo viene usato sia per il backup che per l'archiviazione di produzione, ma il numero di unità elencate negli enclosure dell'unità sono solo quelli usati per il backup.
- Cluster di quattro nodi di File Server con scalabilità orizzontale
- Configurazione per nodo
  - CPU 2x Intel(R) Xeon(R) E5-2650 0 @ 2,00 GHz, 2001 MHz, 8 core, 16 processori logici
  - 128 GB di memoria RDIMM a 1333 MHz
  - Connessioni di archiviazione: 2 porte della firma di accesso condiviso, 1 porta di 10 GbE iWarp/RDMA
- Quattro chassis per unità JBOD
  - 18 Dischi in ogni JBOD - 16 x 4 TB DI DISCHI RIGIDI + 2 x 800 GB
  - Doppio percorso per ogni unità - Criteri di bilanciamento del carico I/O multipath impostati per eseguire il failover solo
  - Ssd configurati per la cache di write-back (WBC) e il resto per le unità di journal dedicate

Impostare i volumi di deduplicazione

È necessario considerare le dimensioni che i volumi devono avere per supportare i file VHDX deduplicati contenenti dati di DPM. In CPS sono stati creati volumi di 7,2 TB ciascuno. Le dimensioni ottimali di un volume dipendono principalmente dalla quantità e dalla frequenza delle modifiche apportate ai dati su tale volume e dalla velocità effettiva di accesso ai dati del sottosistema di archiviazione su disco. È importante notare che se l'elaborazione della deduplicazione non riesce a mantenere la velocità delle modifiche giornaliere dei dati (la varianza), il tasso di risparmio verrà ridotto fino al completamento dell'elaborazione. Per informazioni più dettagliate, vedere Ridimensionare i volumi per la deduplicazione dei dati. Per i volumi dedup sono consigliate le linee guida generali seguenti:

Utilizzare spazi di archiviazione con parità con riconoscimento del contenitore per maggiore resilienza ed efficienza di utilizzo del disco.
Formattare NTFS con unità di allocazione a 64 KB e segmenti di record di file di grandi dimensioni per funzionare meglio con l'uso di file sparse.
Nella configurazione hardware sopra le dimensioni del volume consigliate di volumi da 7,2 TB, i volumi verranno configurati come segue:
- Cache di scrittura con 7,2 TB e 1 GB di cache di scrittura
  - ResiliencySettingName == Parity
  - PhysicalDiskRedundancy == 2
  - NumberOfColumns == 7
  - Interleave == 256 KB (prestazioni di parità doppia a 64 KB tra interleave è molto inferiore rispetto all'interleave predefinito 256 KB)
  - IsEnclosureAware = = $true
  - AllocationUnitSize=64 KB
  - Servizio Replica file (FRS) di grandi dimensioni
  Configurare un nuovo disco virtuale nel pool di archiviazione specificato come indicato di seguito:
```
New-VirtualDisk -Size 7.2TB -PhysicalDiskRedundancy 2 -ResiliencySettingName Parity -StoragePoolFriendlyName BackupPool -FriendlyName BackupStorage -NumberOfColumns 7 -IsEnclosureAware $true
```
- Ognuno di questi volumi deve essere formattato come segue:
```
Format-Volume -Partition <volume> -FileSystem NTFS -AllocationUnitSize 64 KB -UseLargeFRS -Force
```
  Nella distribuzione di CPS, tali volumi vengono quindi configurati come volumi CVS.
- All'interno di questi volumi, DPM archivierà una serie di file VHDX per contenere i dati di backup. Abilitare la deduplicazione nel volume dopo la formattazione come segue:
```
Enable-DedupVolume -Volume <volume> -UsageType HyperV
Set-DedupVolume -Volume <volume> -MinimumFileAgeDays 0 -OptimizePartialFiles:$false
```
  Questo comando modifica anche le impostazioni dedup a livello di volume seguenti:
  - Impostare UsageType su HyperV: In questo modo i file aperti verranno elaborati dal processo di deduplicazione, condizione necessaria affinché i file VHDX usati da DPM per l'archiviazione dei backup rimangano aperti con DPM in esecuzione nella relativa macchina virtuale.
  - Disabilita PartialFileOptimization: ciò causa l'ottimizzazione di tutte le sezioni di un file aperto anziché l'analisi delle sezioni modificate con un'età minima.
  - Impostare il parametro MinFileAgeDays su 0: Con il parametro PartialFileOptimization disabilitato, MinFileAgeDays modifica il proprio comportamento in modo che la deduplicazione consideri solo i file che non sono stati modificati per il numero di giorni impostato. Poiché si desidera che la deduplicazione inizi a elaborare i dati di backup in tutti i file VHDX di DPM senza alcun ritardo, è necessario impostare MinFileAgeDays su 0.

Per altre informazioni sulla configurazione della deduplicazione, vedere Installare e configurare la duplicazione dei dati.

Impostare l'archiviazione DPM

Per evitare problemi di frammentazione e mantenere l'efficienza, l’archiviazione di DPM viene allocata utilizzando file VHDX che risiedono in volumi deduplicati. Dieci file VHDX dinamici di 1 TB vengono creati in ogni volume e collegati a DPM. Inoltre, 3 TB di overprovisioning dello spazio di archiviazione viene eseguito per sfruttare i risparmi di archiviazione prodotti da dedup. Poiché dedup produce risparmi di archiviazione aggiuntivi, è possibile creare nuovi file VHDX in questi volumi per utilizzare lo spazio salvato. Il server DPM è stato testato con un massimo di 30 file VHDX collegati.

Eseguire questo comando per creare dischi rigidi virtuali che verranno aggiunti in seguito al server DPM:

New-SCVirtualDiskDrive -Dynamic -SCSI -Bus $Bus -LUN $Lun -JobGroup $JobGroupId -VirtualHardDiskSizeMB 1048576 -Path $Using:Path -FileName <VHDName>

Aggiungere quindi i dischi rigidi virtuali creati al server DPM come indicato di seguito:
```
Import-Module "DataProtectionManager"
Set-StorageSetting -NewDiskPolicy OnlineAll
$dpmdisks = @()
$dpmdisks = Get-DPMDisk -DPMServerName $env:computername | ? {$_.CanAddToStoragePool -
eq $true -and $_.IsInStoragePool -eq $false -and $_.HasData -eq $false}
Add-DPMDisk $dpmdisks
```
Questo passaggio configura un pool di archiviazione come disco o dischi in cui DPM archivia repliche e punti di ripristino per i dati protetti. Questo pool è parte della configurazione di DPM ed è separato dal pool di spazi di archiviazione utilizzato per creare i volumi di dati descritti nella sezione precedente. Per altre informazioni sui pool di archiviazione DPM, vedere Configurare i pool di archiviazione e archiviazione su disco.

Impostare il cluster del file server Windows

La deduplicazione richiede una serie speciale di opzioni di configurazione per supportare l'archiviazione di DPM virtualizzata a causa della scala dei dati e delle dimensioni dei singoli file. Queste opzioni sono globali per il cluster o il nodo del cluster. È necessario abilitare la deduplicazione e le impostazioni del cluster devono essere configurate singolarmente su ogni nodo del cluster.

Abilitare la deduplicazione sull'archiviazione dei file server Windows: il ruolo di deduplicazione deve essere installato su tutti i nodi del cluster di file server di Windows. A tale scopo, eseguire il comando powerShell seguente in ogni nodo del cluster:
```
Install-WindowsFeature -Name FileAndStorage-Services,FS-Data-Deduplication -ComputerName <node name>
```
Ottimizzare l'elaborazione dedup per i file di dati di backup: eseguire il comando powerShell seguente per impostare per avviare l'ottimizzazione senza ritardo e non per ottimizzare le scritture parziali dei file. Per impostazione predefinita, i processi di Garbage Collection (GC) vengono pianificati ogni settimana e ogni quarta settimana, il processo GC viene eseguito in modalità "GC profonda" per una ricerca più completa e intensivo del tempo per la rimozione dei dati. Per il carico di lavoro DPM, questa modalità "deep GC" non comporta guadagni apprezzabili e riduce la quantità di tempo in cui dedup può ottimizzare i dati. Abbiamo pertanto disabilitato la modalità "GC approfondita".
```
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name DeepGCInterval -Value 0xFFFFFFFF
```
Ottimizzare le prestazioni per le operazioni su larga scala: eseguire lo script di PowerShell seguente per:
- Disabilitare elaborazione aggiuntiva e I/O durante l’esecuzione della garbage collection approfondita
- Riservare memoria aggiuntiva per l'elaborazione di hash
- Abilitare l'ottimizzazione delle priorità per consentire la deframmentazione immediata dei file di grandi dimensioni
```
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name HashIndexFullKeyReservationPercent -Value 70
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name EnablePriorityOptimization -Value 1
```
Queste impostazioni modificano quanto riportato di seguito:
- HashIndexFullKeyReservationPercent: questo valore controlla la quantità di memoria del processo di ottimizzazione usata per gli hash dei blocchi esistenti rispetto ai nuovi hash dei blocchi. A scala elevata, un valore del 70% comporta una migliore velocità effettiva di ottimizzazione rispetto al valore predefinito di 50%.
- EnablePriorityOptimization: con i file che si avvicinano a 1 TB, la frammentazione di un singolo file può accumulare frammenti sufficienti per raggiungere il limite di file. L’elaborazione di ottimizzazione consente di consolidare i frammenti e impedisce che tale limite venga raggiunto. Impostando questa chiave del Registro di sistema, la deduplicazione aggiungerà un processo aggiuntivo per gestire con priorità alta i file deduplicati con elevata frammentazione.

Impostare la pianificazione di DPM e deduplicazione

Le operazioni sia di backup che di deduplicazione comportano un utilizzo intensivo dell’I/O. Se fossero eseguite contemporaneamente, il sovraccarico introdotto dal passaggio tra le operazioni potrebbe essere oneroso e causare il backup o la deduplicazione di una minore quantità di dati su base giornaliera. Si consiglia di configurare finestre dedicate e separate per la deduplicazione e il backup. Ciò garantisce che il traffico di I/O per ognuna di queste operazioni sia distribuito in modo efficiente durante le operazioni del sistema ogni giorno. Le linee guida consigliate per la pianificazione sono:

Suddividere i giorni in finestre non sovrapposte per il backup e la deduplicazione.
Configurare pianificazioni di backup personalizzate.
Configurare pianificazioni di deduplicazione personalizzate.
Pianificare l'ottimizzazione nella finestra di deduplicazione giornaliera.
Configurare separatamente le pianificazioni di deduplicazione nei fine settimana , utilizzando tale periodo di tempo per i processi di garbage collection e di pulitura.

Per configurare pianificazioni di DPM è possibile utilizzare il comando PowerShell seguente:

Set-DPMConsistencyCheckWindow -ProtectionGroup $mpg -StartTime $startTime -
DurationInHours $duration
Set-DPMBackupWindow -ProtectionGroup $mpg -StartTime $startTime -DurationInHours
$duration

In questa configurazione, DPM è configurato per eseguire il backup di macchine virtuali tra le ore 22 e le ore 6. La deduplicazione è pianificata per le rimanenti 16 ore del giorno. Il tempo effettivo di deduplicazione configurato dipenderà dalle dimensioni del volume. Per altre informazioni, vedere Ridimensionamento dei volumi per deduplicazione dati. Una finestra di deduplicazione di 16 ore con avvio alle ore 6 dopo il termine della finestra di backup sarà configurata come indicato di seguito da qualsiasi nodo del cluster singolo:

#disable default schedule
Set-DedupSchedule * -Enabled:$false
#Remainder of the day after an 8 hour backup window starting at 10pm $dedupDuration = 16
$dedupStart = "6:00am"
#On weekends GC and scrubbing start one hour earlier than optimization job.
# Once GC/scrubbing jobs complete, the remaining time is used for weekend
# optimization.
$shortenedDuration = $dedupDuration - 1
$dedupShortenedStart = "7:00am"
#if the previous command disabled priority optimization schedule
#reenable it
if ((Get-DedupSchedule -name PriorityOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name PriorityOptimization -Enabled:$true
}
#set weekday and weekend optimization schedules
New-DedupSchedule -Name DailyOptimization -Type Optimization -DurationHours $dedupDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -Days Monday,Tuesday,Wednesday,Thursday,Friday
New-DedupSchedule -Name WeekendOptimization -Type Optimization -DurationHours $shortenedDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupShortenedStart -Days Saturday,Sunday
#re-enable and modify scrubbing and garbage collection schedules
Set-DedupSchedule -Name WeeklyScrubbing -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Sunday
Set-DedupSchedule -Name WeeklyGarbageCollection -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Saturday
#disable background optimization
if ((Get-DedupSchedule -name BackgroundOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name BackgroundOptimization -Enabled:$false
}

Ogni volta che viene modificata la finestra di backup, è fondamentale che la finestra di deduplicazione venga modificata insieme a essa in modo che non si sovrappongano. La finestra di deduplicazione e backup non deve riempire tutte le 24 ore del giorno; È tuttavia consigliabile consentire variazioni nel tempo di elaborazione a causa delle modifiche giornaliere previste nei carichi di lavoro e nella varianza dei dati.

Implicazioni per le prestazioni di backup

Dopo che un set di file è stato deduplicato, può verificarsi un lieve costo delle prestazioni durante l'accesso ai file. Ciò è dovuto all’elaborazione aggiuntiva necessaria per accedere al formato di file utilizzato dai file deduplicati. In questo scenario, i file sono un set di file VHDX soggetti a un utilizzo continuo da parte di DPM durante la finestra di backup. L'effetto di deduplicare questi file significa che le operazioni di backup e ripristino possono essere leggermente più lente rispetto a senza deduplicazione. Come per qualsiasi prodotto di backup, DPM implica un carico di lavoro pesante in termini di operazioni di scrittura, mentre le operazioni di lettura risultano più importanti durante il ripristino. Di seguito sono riportati alcuni consigli per risolvere le implicazioni relative alle prestazioni di backup dovute alla deduplicazione:

Operazioni di lettura/ripristino: gli effetti sulle operazioni di lettura sono in genere trascurabili e non richiedono particolari considerazioni poiché le funzionalità di deduplicazione memorizzano nella cache blocchi deduplicati.
Operazioni di scrittura/backup: pianificare un aumento del tempo di backup del 5-10% durante la definizione della finestra di backup. (Si tratta di un aumento rispetto al tempo di backup previsto nel caso di scrittura su volumi non deduplicati).

Monitoraggio

DPM e la deduplicazione dati possono essere monitorati per assicurarsi che:

Sia stato eseguito il provisioning di spazio su disco sufficiente per archiviare i dati di backup
I processi di backup di DPM siano completati normalmente
La deduplicazione sia abilitata nei volumi di backup
Le pianificazioni di deduplicazione siano impostate correttamente
L’elaborazione di deduplicazione sia completata normalmente su base giornaliera
I tassi di risparmio per la deduplicazione corrispondano alle ipotesi effettuate per la configurazione del sistema

Il successo della deduplicazione dipende dalle capacità dell’hardware del sistema complessivo, (incluse velocità di elaborazione della CPU, larghezza di banda di I/O, capacità di archiviazione), dalla configurazione corretta del sistema, dal carico medio del sistema e dalla quantità di dati modificati giornalmente.

È possibile monitorare DPM utilizzando la Console centrale DPM. Vedere l’articolo su come Installare la Console centrale.

È possibile monitorare la deduplicazione per controllare lo stato di deduplicazione, il salvataggio della frequenza e lo stato di pianificazione usando i comandi di PowerShell seguenti:

Get status:

PS C:\> Get-DedupStatus
FreeSpace SavedSpace OptimizedFiles InPolicyFiles Volume
-------------- ---------- -------------- ------------- ------
280.26 GB 529.94 GB 36124 36125 X:
151.26 GB 84.19 GB 43017 43017 Z:

Get savings:

PS C:\> Get-DedupVolume
Enabled SavedSpace SavingsRate Volume
------- ---------- ----------- ------
True 529.94 GB 74 % X:

Per ottenere lo stato di pianificazione utilizzare il cmdlet Get-DedupSchedule.

Monitorare gli eventi

Il monitoraggio del registro eventi può aiutare a comprendere gli eventi di deduplicazione e il relativo stato.

Per visualizzare gli eventi di deduplicazione in Esplora File, accedere a Registri applicazioni e servizi>Microsoft>Windows>Deduplicazione.
Se il valore LastOptimizationResult = 0x00000000 viene visualizzato nei risultati Get-DedupStatus |fl Windows PowerShell, l'intero set di dati è stato elaborato dal processo di ottimizzazione precedente. In caso contrario il sistema non è riuscito a completare l'elaborazione di deduplicazione e potrebbe essere consigliabile controllare le impostazioni di configurazione, ad esempio le dimensioni del volume.

Per ulteriori esempi di cmdlet, vedere Monitoraggio e report per la deduplicazione dati.

Monitorare l'archiviazione di backup

Nell'esempio di configurazione i volumi da 7,2 TB vengono riempiti con 10 TB di dati "logici" (le dimensioni dei dati quando non vengono deduplicati) archiviati in file VHDX dinamici da 10 x 1 TB. Poiché questi file accumulano continuamente nuovi dati di backup, lentamente riempiono il volume. Se la percentuale di risparmio risultante dalla deduplicazione è sufficientemente elevata, tutti i 10 file saranno in grado di raggiungere le dimensioni logiche massime e di adattarsi al volume da 7,2 TB (potenzialmente potrebbe esserci spazio aggiuntivo per allocare file VHDX aggiuntivi per i server DPM da usare). Tuttavia, se i risparmi di dimensioni derivanti dalla deduplicazione non sono sufficienti, lo spazio nel volume potrebbe essere esaurito prima che i file VHDX raggiungano le dimensioni logiche complete e il volume sarà pieno. Per evitare che i volumi diventino pieni, è consigliabile:

Considerare requisiti conservativi per le dimensioni dei volumi e consentire un certo overprovisioning di archiviazione. È consigliabile consentire un buffer di almeno il 10% quando si pianifica l'utilizzo dell'archiviazione di backup per consentire variazioni previste nel risparmio di deduplicazione e nella varianza dei dati.
Monitorare i volumi utilizzati per l'archiviazione di backup per garantire che l’utilizzo di spazio e i tassi di risparmio della deduplicazione siano entro i livelli previsti.

Se il volume diventa pieno, si verifica quanto segue:

La macchina virtuale di DPM entrerà in uno stato critico/di sospensione e non sarà più in grado di avviare ulteriori processi di backup.
Tutti i processi di backup che utilizzano i file VHDX nel volume pieno avranno esito negativo.

Per eseguire il ripristino da questa condizione e ripristinare il normale funzionamento del sistema, è possibile eseguire il provisioning di risorse di archiviazione aggiuntive e una migrazione di archiviazione della macchina virtuale DPM o del relativo VHDX per liberare spazio:

Arrestare il Server DPM a cui appartengono i file VHDX contenuti nella condivisione di backup piena.
Creare un nuovo volume e una nuova condivisione di backup utilizzando la stessa configurazione e impostazioni utilizzate per le condivisioni esistenti, incluse le impostazioni per NTFS e deduplicazione.
Eseguire la migrazione dell'archiviazione per la macchina virtuale DPM Server ed eseguire la migrazione di almeno un file VHDX dalla condivisione di backup completa alla nuova condivisione di backup creata nel passaggio 2.
Eseguire un processo di garbage collection (GC) di deduplicazione dei dati nella condivisione di backup di origine piena. Il processo di garbage collection deve avere esito positivo e recuperare lo spazio libero.
Riavviare la macchina virtuale del Server DPM.
Un processo di verifica coerenza DPM verrà attivato durante la finestra di backup successiva per tutte le origini dati non riuscite in precedenza.
Tutti i processi di backup saranno ora completati correttamente.

Riepilogo

La combinazione della deduplicazione con DPM consente un risparmio di spazio significativo. Ciò consente tassi di conservazione superiori, maggiore frequenza di backup e un migliore TCO per la distribuzione di DPM. Le linee guida e i consigli forniti in questo documento dovrebbero fornire gli strumenti e le informazioni necessari per configurare la deduplicazione per l'archiviazione DPM e verificarne i vantaggi nella propria distribuzione.

Domande frequenti

D: Le dimensioni dei file VHDX di DPM devono essere pari a 1 TB. Ciò significa che DPM non è in grado di eseguire il backup di una macchina virtuale o di un database SQL o di un volume di file di dimensioni > pari a 1 TB?

A: No. DPM esegue l’aggregazione di più volumi in uno per archiviare i backup. Pertanto, le dimensioni del file da 1 TB non hanno implicazioni per le dimensioni dell'origine dati di cui DPM può eseguire il backup.

Q: sembra che file VHDX di archiviazione di DPM debbano essere distribuiti solo in condivisioni file SMB remote. Cosa succede se archivio i file VHDX di backup in volumi abilitati per la deduplicazione nello stesso sistema in cui viene eseguita la macchina virtuale di DPM?

Un: Come illustrato in precedenza, DPM, Hyper-V e dedup sono operazioni a elevato utilizzo di archiviazione e calcolo. La combinazione di tutte e tre in un singolo sistema può portare a operazioni di I/O e a elevato utilizzo di processi che possono fissare Hyper-V e le relative macchine virtuali. Se si decide di sperimentare la configurazione di DPM in una macchina virtuale con i volumi di archiviazione di backup nello stesso computer, è necessario monitorare attentamente le prestazioni per assicurarsi che la larghezza di banda di I/O e la capacità di calcolo siano sufficienti per mantenere tutte e tre le operazioni nello stesso computer.

Q: si consiglia di configurare finestre dedicate e separate per la deduplicazione e il backup. Perché non è possibile abilitare la deduplicazione mentre viene eseguito il backup di DPM? Devo eseguire il backup del database SQL ogni 15 minuti.

Un: Dedup e DPM sono operazioni a elevato utilizzo di archiviazione e la loro esecuzione contemporaneamente può risultare inefficiente e causare un'i/O di fame. Pertanto, per proteggere i carichi di lavoro più di una volta al giorno (ad esempio, SQL Server ogni 15 minuti) e per abilitare la deduplicazione contemporaneamente, assicurarsi che sia disponibile una larghezza di banda di I/O sufficiente e capacità del computer per evitare la fame di risorse.

Q: in base alla configurazione descritta, DPM deve essere in esecuzione in una macchina virtuale. Perché non è possibile abilitare direttamente la deduplicazione sul volume di replica e sui volumi di copie shadow anziché sui file VHDX?

A: dedup esegue la deduplicazione per ogni volume sui singoli file. Poiché dedup ottimizza a livello di file, non è progettato per supportare la tecnologia VolSnap usata da DPM per archiviare i dati di backup. Eseguendo DPM in una macchina virtuale, Hyper-V esegue il mapping delle operazioni di DPM sui volumi a livello di file VHDX, consentendo a dedup di ottimizzare i dati di backup e fornire maggiore risparmio di spazio di archiviazione.

D: La configurazione di esempio precedente ha creato solo volumi da 7,2 TB. È possibile creare volumi di dimensioni maggiori o minori?

A: dedup esegue un thread per ogni volume. Con il crescere della dimensione del volume, dedup richiede più tempo per completare l'ottimizzazione. D'altra parte, con volumi di piccole dimensioni, sono presenti meno dati in cui trovare blocchi duplicati, con conseguente riduzione dei risparmi. È quindi consigliabile ottimizzare le dimensioni del volume in base alla varianza totale e alle funzionalità hardware del sistema per risparmiare in modo ottimale. Informazioni più dettagliate sulla determinazione delle dimensioni dei volumi sono reperibili nell’articolo che illustra il Dimensionamento dei volumi per la deduplicazione in Windows Server. Per informazioni più dettagliate sulla determinazione delle dimensioni del volume usate con la deduplicazione, vedere Ridimensionamento dei volumi per deduplicazione dati.