Desduplicar el almacenamiento DPMDeduplicate DPM storage

System Center Data Protection Manager (DPM) puede usar la desduplicación de los datos.System Center Data Protection Manager (DPM) can use data deduplication.

La desduplicación de datos (dedup) busca y quita datos duplicados en un volumen al tiempo que garantiza la corrección e integridad de esos datos.Data deduplication (dedup) finds and removed duplicated data in a volume while ensuring data remains correct and complete. Obtenga más información sobre Planear la implementación de la desduplicación de datos.Learn more about deduplication planning.

  • La desduplicación reduce el consumo de almacenamiento y, aunque la cantidad de redundancia de un conjunto de datos dependerá de la carga de trabajo y del tipo de datos, normalmente los datos de copia de seguridad muestran un importante ahorro cuando se usa la desduplicación.Dedup reduces storage consumption and although the amount of redundancy for a set of data will depend on the workload and data type, typically backup data shows strong savings when dedup is used.

  • La redundancia de datos puede reducirse aún más con la desduplicación si los datos de copia de seguridad de tipos y cargas de trabajo similares se procesan juntos.Data redundancy can be further reduced with dedup when backed up data of similar types and workloads is processed together.

  • La desduplicación de datos está diseñada para instalarse en volúmenes de datos principales sin agregar hardware dedicado adicional para que no influya en la carga de trabajo principal en el servidor.Dedup is designed to be installed on primary data volumes without adding additional dedicated hardware so that it doesn't impact the primary workload on the server. La configuración predeterminada es no intrusiva porque permite a los datos una antigüedad de cinco días antes de procesar un archivo concreto y tiene un tamaño de archivo mínimo predeterminado de 32 KB.The default settings are nonintrusive because they allow data to age for five days before processing a particular file, and has a default minimum file size of 32 KB. La implementación está diseñada para un consumo bajo de CPU y memoria.The implementation is designed for low memory and CPU usage.

  • La desduplicación se puede implementar en las cargas de trabajo siguientes:Dedup can be implemented on the following workloads:

    • Recursos compartidos de archivos generales: publicación y uso compartido de contenido del grupo, carpetas principales del usuario y redirección de carpetas/archivos sin conexiónGeneral file shares: Group content publication and sharing, user home folders, and Folder Redirection/Offline Files

    • Recursos compartidos de implementación de software: archivos binarios, imágenes y actualizaciones de softwareSoftware deployment shares: Software binaries, images, and updates

    • Bibliotecas de VHD: almacenamiento de archivos en discos duros virtuales (VHD) para el aprovisionamiento de hipervisoresVHD libraries: Virtual hard disk (VHD) file storage for provisioning to hypervisors

    • Implementaciones de VDI (solo Windows Server 2012 R2): implementaciones de infraestructura de escritorio virtual (VDI) mediante Hyper-VVDI Deployments (Windows Server 2012 R2 only): Virtual Desktop Infrastructure (VDI) deployments using Hyper-V

    • Copia de seguridad virtualizada: soluciones de copia de seguridad (por ejemplo, DPM ejecutándose en una máquina virtual de Hyper-V) que guardan los datos de copia de seguridad en archivos VHD/VHDX en un servidor de archivos de Windows.Virtualized backup: Backup solutions (such as DPM running in a Hyper-V virtual machine) that save backup data to VHD/VHDX files on a Windows File Server.

DPM y desduplicaciónDPM and dedup

El uso de la desduplicación con DPM puede generar grandes ahorros.Using dedup with DPM can result in large savings. La cantidad de espacio que se ahorra con la desduplicación al optimizar los datos de copia de seguridad de DPM varía según el tipo de datos del que se realiza la copia de seguridad.The amount of space saved by dedup when optimizing DPM backup data varies depending on the type of data being backed up. Por ejemplo, una copia de seguridad de un servidor de base de datos cifrada puede producir un ahorro mínimo, ya que los datos duplicados están ocultos por el proceso de cifrado.For example, a backup of an encrypted database server may result in minimal savings since any duplicate data is hidden by the encryption process. Pero la copia de seguridad de una implementación de Infraestructura de escritorio virtual (VDI) de gran tamaño puede dar como resultado un gran ahorro en el intervalo del 70-90 +% o más, ya que suele haber una gran cantidad de duplicación de datos entre los entornos de escritorio virtuales.However backup of a large Virtual Desktop Infrastructure (VDI) deployment can result in very large savings in the range of 70-90+% range, since there is typically a large amount of data duplication between the virtual desktop environments. En la configuración que se describe en este tema, hemos ejecutado una variedad de cargas de trabajo de prueba y hemos visto el ahorro de entre el 50% y el 90%.In the configuration described in this topic we ran a variety of test workloads and saw savings ranging between 50% and 90%.

Para usar la desduplicación en el almacenamiento de DPM, DPM debe ejecutar una máquina virtual Hyper-V y almacenar los datos de la copia de seguridad en VHD ubicados en carpetas compartidas con la desduplicación de datos habilitada.To use dedup for DPM storage DPM should be running in a Hyper-V virtual machine and store backup data to VHDs in shared folders with data dedup enabled.

Para implementar DPM como una máquina virtual que realiza la copia de seguridad de datos en un volumen desduplicado, se recomienda la topología de implementación siguiente:To deploy DPM as a virtual machine backing up data to a dedupl volume we recommend the following deployment topology:

  • DPM ejecutándose en una máquina virtual en un clúster de hosts de Hyper-V.DPM running in a virtual machine in a Hyper-V host cluster.

  • Almacenamiento DPM que usa archivos VHD/VHDX almacenados en un recurso compartido de SMB 3.0 en un servidor de archivos.DPM storage using VHD/VHDX files stored on an SMB 3.0 share on a file server.

  • Para nuestro ejemplo de prueba, hemos configurado el servidor de archivos como un servidor de archivos de escala horizontal (SOFS) implementado con volúmenes de almacenamiento que se han configurado desde grupos de espacios de almacenamiento creados con unidades SAS de conexión directa.For our test example we configured the file server as a scaled-out file server (SOFS) deployed using storage volumes configured from Storage Spaces pools built using directly connected SAS drives. Tenga en cuenta que esta implementación garantiza el rendimiento a escala.Note that this deployment ensures performance at scale.

Tenga en cuenta que:Note that:

  • Esta implementación es compatible con DPM 2012 R2 y con todos los datos de carga de trabajo de los que se pueden hacer copia de seguridad con DPM 2012 R2.This deployment is supported for DPM 2012 R2, and for all workload data that can be backed up by DPM 2012 R2.

  • Todos los nodos de servidor de archivos de Windows en los que residen discos duros virtuales DPM y en los que se habilitará la desduplicación deben ejecutar Windows Server 2012 R2 con al menos el paquete acumulativo de actualizaciones de noviembre de 2014.All the Windows File Server nodes on which DPM virtual hard disks reside and on which dedup will be enabled must be running Windows Server 2012 R2 with at least Update Rollup November 2014.

  • Proporcionaremos recomendaciones generales e instrucciones para la implementación del escenario.We'll provide general recommendations and instructions for the scenario deployment. Cada vez que se proporcionan ejemplos específicos del hardware, el hardware implementado en Microsoft Cloud Platform System (CPS) se usa como referencia.Whenever hardware-specific examples are given, the hardware deployed in the Microsoft Cloud Platform System (CPS) is used for reference.

  • Este ejemplo usa recursos compartidos de SMB 3.0 para almacenar los datos de copia de seguridad, por lo que los principales requisitos de hardware se centran en los nodos del servidor de archivos en lugar de en los nodos de Hyper-V.This example uses remote SMB 3.0 shares to store the backup data, so primary hardware requirements center around the File Server nodes rather than the Hyper-V nodes. La siguiente configuración de hardware se usa en CPS para el almacenamiento de copia de seguridad y de producción.The following hardware configuration is used in CPS for backup and production storage. Tenga en cuenta que el hardware general se usa para el almacenamiento de copia de seguridad y de producción, pero el número de unidades que aparecen en los gabinetes de unidades se limita a los que se usan con fines de copia de seguridad.Note that the overall hardware is used for both backup and production storage, but the number of drives listed in the drive enclosures are only those used for backup.

    • Clúster de servidores de archivos de escalabilidad horizontal de 4 nodos4 node Scale Out File Server cluster

    • Configuración por nodoPer node configuration

      • 2x Intel(R) Xeon(R) CPU E5-2650 0 @ 2.00GHz, 2001 MHz, 8 núcleos, 16 procesadores lógicos2x Intel(R) Xeon(R) CPU E5-2650 0 @ 2.00GHz, 2001 MHz, 8 cores, 16 logical processors

      • Memoria RDIMM de 128 GB a 1333 MHz128GB 1333MHz RDIMM memory

      • Conexiones de almacenamiento: 2 puertos SAS, 1 puerto de 10 GbE iWarp/RDMAStorage connections: 2 ports of SAS, 1 port of 10GbE iWarp/RDMA

    • 4 gabinetes de unidad JBOD4 JBOD drive enclosures

      • 18 discos en cada JBOD: 16 unidades de disco duro de 4 TB + 2 SSD de 800 GB18 Disks in each JBOD - 16 x 4TB HDDs + 2 x 800GB SSDs

      • Ruta de acceso dual a cada unidad- directiva de equilibrio de carga de ruta de E/S múltiple establecida solo en conmutación por errorDual path to each drive - Multipath I/O load balancing policy set to failover only

      • SSD configurados para la caché con reescritura (WBC) y el resto de unidades de diario dedicadasSSDs configured for write back cache (WBC) and the rest for dedicated journal drives

Configurar los volúmenes de desduplicaciónSet up dedup volumes

Veamos qué tamaño deben tener los volúmenes para admitir los archivos VHDX desduplicados que contienen datos DPM.Let's consider how big volumes should be to support the deduplicated VHDX files containing DPM data. Hemos creado volúmenes de 7,2 TB cada uno en CPS.In CPS we've created volumes of 7.2TB each. El tamaño óptimo del volumen depende principalmente de la cantidad y la frecuencia de los cambios de volumen y de la capacidad de proceso del acceso a datos del subsistema de almacenamiento del disco.The optimum volume size depends primarily on how much and how frequently the data on the volume changes, and on the data access throughput rates of the disk storage subsystem. Es importante tener en cuenta que si el procesamiento de la desduplicación no puede mantener la capacidad de cambios de datos diarios (renovación), el porcentaje de ahorro disminuirá hasta que se pueda completar el procesamiento.It's important to note that if the deduplication processing can't keep up with the rate of daily data changes (the churn) the savings rate will drop until the processing can complete. Para obtener información más detallada, consulte Sizing Volumes for Data Deduplication (Definición del tamaño de los volúmenes para la desduplicación de datos).For more detailed information see Sizing Volumes for Data Deduplication. Se recomiendan las siguientes directrices generales para los volúmenes de desduplicación:The following general guidelines are recommended for the dedup volumes:

  • Usar espacios de almacenamiento de paridad con reconocimiento de contenedor para ganar en resistencia y mayor uso del disco.Use Parity Storage Spaces with enclosure-awareness for resiliency and increased disk utilization.

  • Formatear NTFS con unidades de asignación de 64 KB y segmentos de registro de archivos de gran tamaño para que funcione mejor con el uso desduplicado de archivos dispersos.Format NTFS with 64 KB allocation units and large file record segments to work better with dedup use of sparse files.

  • En la configuración de hardware anterior, el tamaño de volumen recomendado es de 7,2 TB y los volúmenes se configurarán como sigue:In the hardware configuration above the recommended volume size is 7.2TB volumes and volumes will be configured as follows:

    • Paridad dual con reconocimiento de contenedor de almacenamiento de 7,2 TB + caché con reescritura de 1 GBEnclosure aware dual parity 7.2TB + 1GB Write back cache

      • ResiliencySettingName == ParityResiliencySettingName == Parity

      • PhysicalDiskRedundancy == 2PhysicalDiskRedundancy == 2

      • NumberOfColumns == 7NumberOfColumns == 7

      • Interleave == 256 KB (el rendimiento de paridad dual con una intercalación de 64 KB es mucho menor que con la intercalación predeterminada de 256 KB)Interleave == 256KB (Dual parity performance at 64KB interleave is much lower than at the default 256KB interleave)

      • IsEnclosureAware == $trueIsEnclosureAware == $true

      • AllocationUnitSize=64KBAllocationUnitSize=64KB

      • Large FRSLarge FRS

      Configure un nuevo disco virtual en el bloque de almacenamiento especificado como sigue:Set up a new virtual disk in the specified storage pool as follows:

      New-VirtualDisk -Size 7.2TB -PhysicalDiskRedundancy 2 -ResiliencySettingName Parity -StoragePoolFriendlyName BackupPool -FriendlyName BackupStorage -NumberOfColumns 7 -IsEnclosureAware $true
      
    • Cada uno de estos volúmenes debe formatearse como:Each of these volumes must then be formatted as:

      Format-Volume -Partition <volume> -FileSystem NTFS -AllocationUnitSize 64KB -UseLargeFRS -Force
      

      En la implementación de CPS, se configuran luego como CSV.In the CPS deployment, these are then configured as CSVs.

    • Dentro de estos volúmenes, DPM almacenará una serie de archivos VHDX para contener los datos de copia de seguridad.Within these volumes DPM will store a series of VHDX files to hold the backup data. Habilite la desduplicación en el volumen después de darle formato de la siguiente manera:Enable deduplication on the volume after formatting it, as follows:

      Enable-DedupVolume -Volume <volume> -UsageType HyperV
      Set-DedupVolume -Volume <volume> -MinimumFileAgeDays 0 -OptimizePartialFiles:$false
      

      Este comando también modifica la siguiente configuración de desduplicación de nivel de volumen:This command also modifies the following volume level dedup settings:

      • Establecer UsageType en HyperV:esto provoca el procesamiento de desduplicación de archivos abiertos, lo que es necesario porque los archivos VHDX que DPM utiliza para el almacenamiento de copia de seguridad permanecen abiertos con DPM ejecutándose en su máquina virtual.Set UsageType to HyperV: This results in dedup processing open files, which is required because the VHDX files used for backup storage by DPM remain open with DPM running in its virtual machine.

      • Deshabilitar PartialFileOptimization: esto hace que la desduplicación optimice todas las secciones de un archivo abierto en lugar de buscar las secciones modificadas con una antigüedad mínima.Disable PartialFileOptimization: This causes dedup to optimize all sections of an open file rather scan for changed sections with a minimum age.

      • Establecer el parámetro MinFileAgeDays en 0: con PartialFileOptimization deshabilitado, MinFileAgeDays cambia su comportamiento para que la desduplicación solo considere los archivos que no han cambiado en esa cantidad de días.Set MinFileAgeDays parameter to 0: With PartialFileOptimization disabled, MinFileAgeDays changes its behavior so that dedup only considers files that haven't changed in that many days. Puesto que deseamos que la desduplicación comience a procesar los datos de copia de seguridad de todos los archivos VHDX de DPM sin demora, es necesario establecer MinFileAgeDays en 0.Since we want dedup to begin processing the backup data in all DPM VHDX files without any delay, we need to set MinFileAgeDays to 0.

Para obtener más información sobre cómo configurar la desduplicación, consulte Instalar y configurar la desduplicación de datos.For more information on setting up deduplication see Install and Configure Data Duplication.

Configuración del almacenamiento DPMSet up DPM storage

Para evitar problemas de fragmentación y mantener el nivel de eficacia, el almacenamiento DPM se asigna mediante archivos VHDX que residen en los volúmenes desduplicados.To avoid fragmentation issues and maintain efficiency, DPM storage is allocated using VHDX files residing on the deduplicated volumes. 10 archivos VHDX dinámicos de 1 TB cada uno se crean en cada volumen y se ajuntan a DPM.10 dynamic VHDX files of 1TB each are created on each volume and attached to DPM. Tenga en cuenta que se crean 3 TB de exceso de almacenamiento para aprovechar el ahorro de almacenamiento que produce la desduplicación.Note that 3TB of overprovisioning of storage is done to take advantage of the storage savings produced by dedup. A medida que la desduplicación produce un mayor ahorro de almacenamiento, se pueden crear nuevos archivos VHDX en estos volúmenes para consumir el espacio ahorrado.As dedup produces additional storage savings, new VHDX files can be created on these volumes to consume saved space. Hemos probado el servidor DPM con hasta 30 archivos VHDX adjuntos.We tested the DPM sever with up to 30 VHDX files attached to it.

  1. Ejecute el siguiente comando para crear discos duros virtuales que se agregarán más adelante al servidor DPM:Run the following command to create virtual hard disks that will be added later to the DPM server:

    New-SCVirtualDiskDrive -Dynamic -SCSI -Bus $Bus -LUN $Lun -JobGroup $JobGroupId -VirtualHardDiskSizeMB 1048576 -Path $Using:Path -FileName <VHDName>
    
  2. Luego agregue los discos duros virtuales creados al servidor DPM como se indica a continuación:Then added the created virtual hard disks to the DPM server as follows:

    Import-Module "DataProtectionManager"
    Set-StorageSetting -NewDiskPolicy OnlineAll
    $dpmdisks = @()
    $dpmdisks = Get-DPMDisk -DPMServerName $env:computername | ? {$_.CanAddToStoragePool -
    eq $true -and $_.IsInStoragePool -eq $false -and $_.HasData -eq $false}
    Add-DPMDisk $dpmdisks
    

    Tenga en cuenta que este paso configura un bloque de almacenamiento como el disco o los discos en que DPM almacena las réplicas y los puntos de recuperación de datos protegidos.Note that this step configures a storage pool as the disk or disks on which DPM stores replicas and recovery points for protected data. Este bloque forma parte de la configuración de DPM y es independiente del grupo de espacios de almacenamiento utilizado para crear los volúmenes de datos descritos en la sección anterior.This pool is part of the DPM configuration and is separate from the Storage Spaces pool used to create the data volumes described in the previous section. Para obtener más información sobre los bloques de almacenamiento DPM, consulte Configuración de bloques de almacenamiento y almacenamiento en disco.For more information on DPM storage pools see Configure disk storage and storage pools.

Configurar el clúster de servidor de archivos de WindowsSet up the Windows File Server cluster

La desduplicación requiere un conjunto especial de opciones de configuración para admitir el almacenamiento DPM virtualizado debido a la escala de los datos y al tamaño de los archivos individuales.Dedup requires a special set of configuration options to support virtualized DPM storage due to the scale of data and size of individual files. Estas opciones son globales para el clúster o el nodo de clúster.These options are global to the cluster or the cluster node. La desduplicación debe estar habilitada y la configuración del clúster debe definirse individualmente en cada nodo del clúster.Dedup must be enabled and the cluster settings must be individually configured on each node of the cluster.

  1. Habilitar la desduplicación en el almacenamiento del servidor de archivos de Windows: el rol Desduplicación debe estar instalado en todos los nodos del clúster de servidor de archivos de Windows.Enable dedup on Windows File Server storage- The Deduplication role must be installed on all nodes of the Windows File Server cluster. Para ello, ejecute el siguiente comando de PowerShell en cada nodo del clúster:To do this run the following PowerShell command on each node of the cluster:

    Install-WindowsFeature -Name FileAndStorage-Services,FS-Data-Deduplication -ComputerName <node name>
    
  2. Ajustar el procesamiento de desduplicación para la copia de seguridad de archivos de datos ejecute el siguiente comando de PowerShell para establecer el inicio inmediato de la optimización, pero sin optimizar las escrituras de archivos parciales.Tune dedup processing for backup data files-Run the following PowerShell command to set to start optimization without delay and not to optimize partial file writes. Tenga en cuenta que, de forma predeterminada, los trabajos de recopilación de elementos no usados (GC) se programan cada semana y que, cada cuatro semanas, el trabajo de GC se ejecuta en modo de "GC en profundidad" para llevar a cabo una búsqueda más exhaustiva e intensiva de los datos que deben quitarse.Note that by default Garbage Collection (GC) jobs are scheduled every week, and every fourth week the GC job runs in "deep GC" mode for a more exhaustive and time intensive search for data to remove. Para la carga de trabajo DPM, este modo de "GC en profundidad" no da como resultado ganancias que puedan apreciarse y reduce la cantidad de tiempo que la desduplicación puede optimizar los datos.For the DPM workload, this "deep GC" mode does not result in any appreciative gains and reduces the amount of time in which dedup can optimize data. Por lo tanto, deshabilitaremos este modo profundo.We therefore disable this deep mode.

    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name DeepGCInterval -Value 0xFFFFFFFF
    
  3. Ajustar el rendimiento de la operaciones a gran escala. Ejecute el siguiente script de PowerShell para:Tune performance for large scale operations-Run the following PowerShell script to:

    • Deshabilitar el procesamiento adicional y la E/S cuando se ejecuta la recolección de elementos no usados en profundidadDisable additional processing and I/O when deep garbage collection runs

    • Reservar memoria adicional para el procesamiento de hashReserve additional memory for hash processing

    • Habilitar la optimización de prioridad para permitir la desfragmentación inmediata de archivos grandesEnable priority optimization to allow immediate defragmentation of large files

    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name HashIndexFullKeyReservationPercent -Value 70
    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name EnablePriorityOptimization -Value 1
    

    Esta configuración modifica lo siguiente:These settings modify the following:

    • HashIndexFullKeyReservationPercent: este valor controla la cantidad de memoria de trabajo de optimización que se utiliza para valores hash de fragmento existentes, frente a los nuevos valores hash de fragmento.HashIndexFullKeyReservationPercent: This value controls how much of the optimization job memory is used for existing chunk hashes, versus new chunk hashes. A gran escala, un 70% da como resultado un mayor rendimiento de optimización que el valor predeterminado de 50%.At high scale, 70% results in better optimization throughput than the 50% default.

    • EnablePriorityOptimization: con los archivos que se acercan a 1 TB, la fragmentación de un único archivo puede acumular suficientes fragmentos para acercarse al límite por archivo.EnablePriorityOptimization: With files approaching 1TB, fragmentation of a single file can accumulate enough fragments to approach the per file limit. El procesamiento de optimización consolida estos fragmentos y evita que se alcanza este límite.Optimization processing consolidates these fragments and prevents this limit from being reached. Al establecer esta clave del registro, la desduplicación agregará un proceso adicional para tratar los archivos desduplicados muy fragmentados con prioridad alta.By setting this registry key, dedup will add an additional process to deal with highly fragmented deduped files with high priority.

Configurar la programación de desduplicación y DPMSet up DPM and dedup scheduling

Las operaciones de copia de seguridad y desduplicación consumen una gran cantidad de E/S.Both backup and deduplication operations are I/O intensive. Si fueran a ejecutarse al mismo tiempo, una sobrecarga adicional para cambiar entre las operaciones podría ser costosa y provocar una disminución de los datos desduplicados o de los que se crea una copia de seguridad diariamente.If they were to run at the same time, additional overhead to switch between the operations could be costly and result in less data being backed up or deduplicated on a daily basis. Se recomienda que configurar franjas de copia de seguridad y desduplicación dedicadas e independientes.We recommended you configure dedicated and separate deduplication and backup windows. Esto ayuda a garantizar que el tráfico de E/S para cada una de estas operaciones se distribuye eficazmente durante el funcionamiento diario del sistema.This helps ensure that the I/O traffic for each of these operations is efficiently distributed during daily system operation. Las instrucciones recomendadas para la programación son:The recommended guidelines for scheduling are:

  • Dividir los días en franjas de copia de seguridad y desduplicación que no se solapen.Split days into non-overlapping backup and dedup windows.

  • Configurar programaciones de copia de seguridad personalizadas.Set up custom backup schedules.

  • Configurar programaciones de desduplicación personalizadas.Set up custom dedup schedules.

  • Programar la optimización en la franja de desduplicación diaria.Schedule optimization in the daily dedup window.

  • Configurar las programaciones de desduplicación del fin de semana por separado, usando esa hora para la recopilación de elementos no utilizados y los trabajos de limpieza.Set up weekend dedup schedules separately, using that time for garbage collection and scrubbing jobs.

Puede configurar programaciones DPM con el siguiente comando de PowerShell:You can set up DPM schedules with the following PowerShell command:

Set-DPMConsistencyCheckWindow -ProtectionGroup $mpg -StartTime $startTime -
DurationInHours $duration
Set-DPMBackupWindow -ProtectionGroup $mpg -StartTime $startTime -DurationInHours
$duration

En esta configuración, DPM está configurado para realizar copias de seguridad de máquinas virtuales entre las 22:00 y las 6:00.In this configuration, DPM is configured to back up virtual machines between 10 PM and 6 AM. La desduplicación está programada para las 16 horas restantes del día.Deduplication is scheduled for the remaining 16 hours of the day. Tenga en cuenta que el tiempo real de desduplicación que configure dependerá del tamaño del volumen.Note that the actual dedup time you configure will depend on the volume size. Consulte Sizing Volumes for Data Deduplication (Definición del tamaño de los volúmenes para la desduplicación de datos) para obtener más información.See Sizing Volumes for Data Deduplication for more information. Una franja de desduplicación de 16 horas que empieza a las 6:00 cuando termina la franja de copia de seguridad se puede configurar como se indica a continuación desde cualquier nodo de clúster individual:A 16 hour deduplication window starting at 6 AM after the backup window ends would be configured as follows from any individual cluster node:

#disable default schedule
Set-DedupSchedule * -Enabled:$false
#Remainder of the day after an 8 hour backup window starting at 10pm $dedupDuration = 16
$dedupStart = "6:00am"
#On weekends GC and scrubbing start one hour earlier than optimization job.
# Once GC/scrubbing jobs complete, the remaining time is used for weekend
# optimization.
$shortenedDuration = $dedupDuration - 1
$dedupShortenedStart = "7:00am"
#if the previous command disabled priority optimization schedule
#reenable it
if ((Get-DedupSchedule -name PriorityOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name PriorityOptimization -Enabled:$true
}
#set weekday and weekend optimization schedules
New-DedupSchedule -Name DailyOptimization -Type Optimization -DurationHours $dedupDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -Days Monday,Tuesday,Wednesday,Thursday,Friday
New-DedupSchedule -Name WeekendOptimization -Type Optimization -DurationHours $shortenedDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupShortenedStart -Days Saturday,Sunday
#re-enable and modify scrubbing and garbage collection schedules
Set-DedupSchedule -Name WeeklyScrubbing -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Sunday
Set-DedupSchedule -Name WeeklyGarbageCollection -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Saturday
#disable background optimization
if ((Get-DedupSchedule -name BackgroundOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name BackgroundOptimization -Enabled:$false
}

Si se modifica la franja de copia de seguridad, es vital que se modifique la de desduplicación para evitar que se solapen.Whenever the backup window is modified it's vital that the deduplication window is modified along with it so they don't overlap. La franja de desduplicación y copia de seguridad no tienen que llenar las 24 horas del día, pero se recomienda que lo hagan para permitir variaciones en el tiempo de procesamiento debido a cambios diarios inesperados en las cargas de trabajo y a la renovación de datos.The deduplication and backup window don't have to fill up the full 24 hours of the day, but it's highly recommended that they do to allow for variations in processing time due to expected daily changed in workloads and data churn.

Implicaciones del rendimiento de la copia de seguridadImplications for backup performance

Después de desduplicar un conjunto de archivos, puede darse un ligero coste de rendimiento al acceder a los archivos.After a set of files have been deduplicated there can be a slight performance cost when accessing the files. Esto se debe al procesamiento adicional necesario para acceder al formato de archivo utilizado por los archivos desduplicados.This is due to the additional processing required to access the file format used by deduplicated files. En este escenario, los archivos son un conjunto de archivos VHDX que experimentan el uso continuo por parte de DPM durante la franja de copia de seguridad.In this scenario, the files are a set of VHDX files that see continuous usage by DPM during the backup window. El impacto de tener estos archivos desduplicados significa que las operaciones de copia de seguridad y recuperación pueden ser ligeramente más lentas que sin desduplicación.The impact of having these files deduplicated means that the backup and recovery operations can be slightly slower than without deduplication. Como sucede con cualquier producto de copia de seguridad, DPM es una carga de trabajo de escritura intensiva, en que las operaciones de lectura son más importantes durante las operaciones de restauración.As for any backup product, DPM is a write-heavy workload with read operations being most important during restore operations. Las recomendaciones para afrontar las implicaciones del rendimiento de la copia de seguridad debido a la desduplicación son:The recommendations for addressing the implications for backup performance due to deduplication are:

  • Operaciones de lectura/restauración: los efectos en las operaciones de lectura son normalmente insignificantes y no requieren ninguna consideración especial, puesto que la característica de desduplicación almacena en caché los fragmentos desduplicados.Read/restore operations: Effects on read operations are typically negligible and don't require any special considerations since the deduplication feature caches deduplicated chunks.

  • Operaciones de escritura/copia de seguridad: planifique un aumento en el tiempo de copia de seguridad de entre el 5 y el 10 % aproximadamente al definir la franja de copia de seguridad.Write / backup operations: Plan for an increase in backup time of approximately 5% to 10 % when defining the backup window. (Esto supone un incremento en comparación con el tiempo de copia de seguridad previsto al escribir en volúmenes no desduplicados.)(This is an increase compared to the expected backup time when writing to non-deduplicated volumes.)

SupervisiónMonitoring

La desduplicación de datos y DPM puede supervisarse para garantizar que:DPM and data deduplication can be monitored to ensure that:

  • El espacio en disco es suficiente para almacenar los datos de copia de seguridadSufficient disk space is provisioned to store the backup data

  • Los trabajos de copia de seguridad de DPM se completan con normalidadDPM backup jobs are completing normally

  • La desduplicación se habilita en los volúmenes de copia de seguridadDeduplication is enabled on the backup volumes

  • Las programaciones de desduplicación se han establecido correctamenteDeduplication schedules are set correctly

  • El procesamiento de desduplicación se completa con normalidad diariamenteDeduplication processing is completing normally on a daily basis

  • El porcentaje de ahorro de desduplicación coincide con los supuestos realizados para la configuración del sistemaDeduplication savings rate matches assumptions made for system configuration

El éxito de la desduplicación depende de las capacidades de hardware generales del sistema (incluyendo la velocidad de procesamiento de la CPU, el ancho de banda de E/S y la capacidad de almacenamiento), la configuración correcta del sistema, la carga media del sistema y la cantidad de datos modificados diariamente.The success of deduplication depends on the overall system hardware capabilities (including CPU processing speed, I/O bandwidth, storage capacity), correct system configuration, the average system load, and the daily amount of modified data.

DPM se puede supervisar mediante la Consola central de DPM.You can monitor DPM using the DPM Central Console. Consulte Instalación de la Consola central.See Install Central Console.

Puede supervisar la desduplicación para comprobar el estado de la desduplicación, el porcentaje de ahorro y el estado de la programación mediante los siguientes comandos de PowerShell:You can monitor dedup to check the dedup status, saving rate and schedule status using the following PowerShell commands:

Obtener estado:Get status:

PS C:\> Get-DedupStatus
FreeSpace SavedSpace OptimizedFiles InPolicyFiles Volume
-------------- ---------- -------------- ------------- ------
280.26 GB 529.94 GB 36124 36125 X:
151.26 GB 84.19 GB 43017 43017 Z:

Obtener ahorro:Get savings:

PS C:\> Get-DedupVolume
Enabled SavedSpace SavingsRate Volume
------- ---------- ----------- ------
True 529.94 GB 74 % X:

Obtenga el estado de la programación mediante el cmdlet Get-DedupSchedule.Get the schedule status using the Get-DedupSchedule cmdlet.

Supervisión de eventosMonitor events

La supervisión del registro de eventos puede ayudar a comprender el estado y los eventos de desduplicación.Monitoring the event log can help understand deduplication events and status.

  • Para ver los eventos de desduplicación, en el Explorador de archivos, vaya a Registros de aplicaciones y servicios > Microsoft > Windows > Desduplicación.To view deduplication events, in File Explorer, navigate to Applications and Services Logs > Microsoft > Windows > Deduplication.

  • Si el valor LastOptimizationResult = 0x00000000 aparece en los resultados de Windows PowerShell Get-DedupStatus |fl, el trabajo de optimización anterior procesó todo el conjunto de datos.If the value LastOptimizationResult = 0x00000000 appears in the Get-DedupStatus |fl Windows PowerShell results, the entire dataset was processed by the previous optimization job. De lo contrario, el sistema no pudo completar el procesamiento de desduplicación y es posible que desee comprobar las opciones de configuración como, por ejemplo, el tamaño del volumen.If not then the system was unable to complete the deduplication processing and you might want to check your configuration settings, for example volume size.

Para obtener ejemplos de cmdlet detallados, consulte Monitor and Report for Data Deduplication (Supervisión e informes de desduplicación de datos.For more detailed cmdlet examples, see Monitor and Report for Data Deduplication.

Supervisión del almacenamiento de copia de seguridadMonitor backup storage

En nuestro ejemplo de configuración, los volúmenes de 7,2 TB se rellenan con 10 TB de datos "lógicos" (el tamaño de los datos cuando no están desduplicados) y se almacenan en 10 archivos VHDX dinámicos de 1 TB.In our configuration example the 7.2 TB volumes are filled with 10 TB of "logical" data (the size of the data when it is not deduplicated) stored in 10 x 1 TB dynamic VHDX files. Dado que estos archivos acumulan datos de copia de seguridad adicionales, rellenan el volumen lentamente.As these files accumulate additional backup data, they'll slowly fill up the volume. Si el porcentaje de ahorro resultante de la desduplicación es bastante alto, los 10 archivos podrán alcanzar el tamaño lógico máximo, pero seguirán ajustándose al volumen de 7,2 TB (es posible que quede espacio adicional para asignar archivos VHDX adicionales para que los usen los servidores DPM).If the savings percentage resulting from deduplication is high enough, all 10 files will be able to reach their maximum logical size but still fit in the 7.2 TB volume (potentially there might even be additional space to allocate additional VHDX files for DPM servers to use). Pero si el ahorro de tamaño de la desduplicación no es suficiente, el espacio del volumen podría agotarse antes de que los archivos VHDX alcancen su tamaño lógico total, y el volumen estará lleno.But if the size savings from deduplication aren't sufficient, the space on the volume might run out before the VHDX files reach their full logical size, and the volume will be full. Para evitar que los volúmenes se llenen, se recomienda lo siguiente:To prevent volumes becoming full we recommend the following:

  • Ser conservador en los requisitos de tamaño de volumen y dejar algún exceso de almacenamiento.Be conservative in volume size requirements and allow for some overprovisioning of storage. Se recomienda permitir un búfer de al menos un 10% al planificar el uso de almacenamiento de copia de seguridad para permitir la variación prevista en el ahorro de la desduplicación y la renovación de datos.It is recommended to allow for a buffer of at least 10% when planning for backup storage usage to allow for expected variation in deduplication savings and data churn.

  • Supervisar los volúmenes utilizados para el almacenamiento de copia de seguridad a fin de garantizar que los porcentajes de uso de espacio y ahorro de la desduplicación se encuentran dentro de los niveles previstos.Monitor the volumes used for backup storage to ensure that space utilization and deduplication savings rates are at expected levels.

Si el volumen se llena, se observarán los síntomas siguientes:If the volume becomes full the following symptoms result:

  • La máquina virtual DPM se colocará en un estado crítico de pausa y la máquina virtual no podrá emitir más trabajos de copia de seguridad.The DPM virtual machine will be put into a pause-critical state and no further backup jobs can be issued by that VM.

  • Se producirá un error en todos los trabajos de copia de seguridad que utilicen los archivos VHDX del volumen completo.All backup jobs that use the VHDX files on the full volume will fail.

Para recuperarse de esta condición y restaurar el sistema a su funcionamiento normal, se puede aprovisionar almacenamiento adicional y realizar una migración de almacenamiento de la máquina virtual DPM o su VHDX para liberar espacio:To recover from this condition and restore the system to normal operation, additional storage can be provisioned and a storage migration of the DPM virtual machine or its VHDX can be performed to free up space:

  1. Detenga el servidor DPM que posee los archivos VHDX en el recurso compartido de copia de seguridad completa.Stop the DPM Server that owns the VHDX files on the full backup share.

  2. Cree un volumen adicional y un recurso compartido de copia de seguridad con la misma configuración que los recursos compartidos existentes, incluidas las opciones para NTFS y desduplicación.Create an additional volume and backup share using the same configuration and settings as used for the existing shares, including settings for NTFS and deduplication.

  3. Migre el almacenamiento de la máquina virtual del servidor DPM y migre al menos un archivo VHDX desde el recurso compartido de copia de seguridad completa al nuevo recurso de copia de seguridad creado en el paso 2.Migrate Storage for the DPM Server virtual machine, and migrate at least one VHDX file from the full backup share to the new backup share created in step 2.

  4. Ejecute un trabajo de recopilación de elementos no utilizados (GC) de desduplicación de datos en el recurso compartido copia de seguridad de origen que estaba lleno.Run a Data Deduplication garbage collection (GC) job on the source backup share that was full. El trabajo de GC debe realizarse correctamente y recuperar el espacio libre.The GC job should succeed and reclaim the free space.

  5. Reinicie la máquina virtual del servidor DPM.Restart the DPM Server virtual machine.

  6. Se desencadenará un trabajo de comprobación de coherencia de DPM durante la siguiente franja de copia de seguridad para todos los orígenes de datos que habían fallado anteriormente.A DPM consistency check job will be triggered during the next backup window for all data sources which previously failed.

  7. Todos los trabajos de copia de seguridad deberían realizarse ahora correctamente.All backup jobs should now succeed.

ResumenSummary

La combinación de desduplicación y DPM proporciona un ahorro de espacio considerable.The combination of deduplication and DPM provides substantial space savings. Esto permite mayores tasas de retención, copias de seguridad más frecuentes y un TCO mejorado para la implementación de DPM.This allows higher retention rates, more frequent backups, and better TCO for the DPM deployment. La orientación y las recomendaciones de este documento deben proporcionarle las herramientas y los conocimientos necesarios para configurar la desduplicación para el almacenamiento de DPM, así como para descubrir las ventajas por sí mismo en su propia implementación.The guidance and recommendations in this document should provide you with the tools and knowledge to configure deduplication for DPM storage and see the benefits for yourself in your own deployment.

Preguntas frecuentesCommon questions

P: Los archivos VHDX de DPM deben tener un tamaño de 1 TB.Q: DPM VHDX files need to be 1TB of size. ¿Significa esto que DPM no puede realizar la copia de seguridad de un volumen de máquina virtual, SharePoint o SQL DB o archivo de tamaño > 1 TB?Does this mean DPM cannot backup a VM or SharePoint or SQL DB or file volume of size > 1TB?

R: No.A: No. DPM acumula varios volúmenes en uno para almacenar las copias de seguridad.DPM aggregates multiple volumes into one to store backups. Por tanto, el tamaño de archivo de 1 TB no tiene ninguna implicación en los tamaños de origen de datos de los que DPM puede crear la copia de seguridad.So, the 1TB file size doesn't have any implications for data source sizes that DPM can backup.

P: Parece que los archivos VHDX de almacenamiento DPM deben implementarse en recursos compartidos de archivos SMB remotos solamente.Q: It looks as though DPM storage VHDX files must be deployed on remote SMB file shares only. ¿Qué sucederá si almaceno los archivos VHDX de copia de seguridad en volúmenes habilitados para la desduplicación en el mismo sistema donde se está ejecutando la máquina virtual DPM?What will happen if I store the backup VHDX files on dedup-enabled volumes on the same system where the DPM virtual machine is running?

R: Como hemos explicado anteriormente, DPM, Hyper-V y la desduplicación son operaciones intensivas de almacenamiento y cálculo.A: As discussed above, DPM, Hyper-V and dedup are storage and compute intensive operations. La combinación de las tres en un único sistema puede dar lugar a operaciones intensivas de E/S y de proceso que podrían privar a Hyper-V y sus máquinas virtuales.Combining all three of them in a single system can lead to I/O and process intensive operations that could starve Hyper-V and its VMs. Si decide probar la configuración de DPM en una máquina virtual con los volúmenes de almacenamiento de copia de seguridad en el mismo equipo, debe supervisar el rendimiento con atención para asegurarse de que hay suficiente ancho de banda de E/S y calcular la capacidad para mantener las tres operaciones en el mismo equipo.If you decide to experiment configuring DPM in a VM with the backup storage volumes on the same machine, you should monitor performance carefully to ensure that there is enough I/O bandwidth and compute capacity to maintain all three operations on the same machine.

P: Se recomienda configurar franjas de copia de seguridad y desduplicación dedicadas e independientes.Q: You recommend dedicated, separate deduplication and backup windows. ¿Por qué no puedo habilitar la desduplicación mientras DPM realiza copias de seguridad?Why can't I enable dedup while DPM is backing up? Necesito realizar la copia de seguridad de mi base de datos SQL cada 15 minutos.I need to backup my SQL DB every 15 minutes.

R: La desduplicación y DPM son operaciones intensivas de almacenamiento y ejecutarlas al mismo tiempo puede ser ineficaz y conducir al colapso de E/S.A: Dedup and DPM are storage intensive operations and having both of them running at the same time can be inefficient and lead to I/O starvation. Por tanto, la protección de las cargas de trabajo más de una vez al día (por ejemplo SQL Server cada 15 minutos) y la habilitación de la desduplicación al mismo tiempo garantizan que la capacidad del equipo y el ancho de banda de E/S son suficientes para evitar el agotamiento de los recursos.Therefore, to protect workloads more than once a day (for example SQL Server every 15 minutes) and to enable dedup at the same time, ensures there's enough I/O bandwith and computer capacity to avoid resource starvation.

P: Según la configuración descrita, DPM debe ejecutarse en una máquina virtual.Q: Based on the configuration described, DPM needs to be running in a virtual machine. ¿Por qué no puedo habilitar la desduplicación en el volumen de réplica y los volúmenes de instantáneas directamente en lugar de en archivos VHDX?Why can't I enable dedup on replica volume and shadow copy volumes directly rather than on VHDX files?

R: La desduplicación se realiza por volumen operativo en archivos individuales.A: Dedup does deduplication per volume operating on individual files. Puesto que la desduplicación se optimiza en el nivel de archivo, no está diseñada para admitir la tecnología VolSnap que DPM usa para almacenar sus datos de copia de seguridad.Since dedup optimizes at the file level, it is not designed to support the VolSnap technology that DPM leverages to store its backup data. Al ejecutar DPM en una máquina virtual, Hyper-V asigna las operaciones de volumen DPM en el nivel de archivo VHDX, lo que permite que la desduplicación optimice los datos de copia de seguridad y proporcione un mayor ahorro de almacenamiento.By running DPM in a VM, Hyper-V maps the DPM volume operations to the VHDX file level, allowing dedup to optimize backup data and provide larger storage savings.

P: La configuración del ejemplo anterior ha creado solo volúmenes de 7,2 TB.Q: The above sample configuration has created only 7.2TB volumes. ¿Puedo crear volúmenes mayores o menores?Can I create bigger or smaller volumes?

R: La desduplicación ejecuta un subproceso por volumen.A: Dedup runs one thread per volume. Dado que el tamaño del volumen es mayor, la desduplicación requiere más tiempo para completar su optimización.As the volume size becomes bigger, dedup requires more time to complete its optimization. Por otro lado, con volúmenes pequeños, existen menos datos en los que buscar fragmentos duplicados, lo que puede dar como resultado ahorros reducidos.On the other hand with small volumes there is less data in which to find duplicate chunks, which can result in reduced savings. Por lo tanto, es conveniente ajustar el tamaño del volumen en función de la renovación total y las capacidades de hardware del sistema para conseguir un ahorro óptimo.So, it is advisable to fine tune the volume size based on total churn and system hardware capabilities for optimal savings. Para obtener más información acerca de cómo determinar los tamaños de los volúmenes con la desduplicación, consulte Sizing Volumes for Deduplication in Windows Server (Definición del tamaño de los volúmenes para la desduplicación en Windows Server).More detailed information on determining volume sizes used with deduplication can be found in Sizing volumes for Deduplication in Windows Server. Para obtener más información acerca de cómo determinar los tamaños de los volúmenes con la desduplicación, consulte Sizing Volumes for Data Deduplication (Definición del tamaño de los volúmenes para la desduplicación de datos).For more detailed information on determining volume sizes used with deduplication see Sizing Volumes for Data Deduplication.