Дедупликация хранилища DPMDeduplicate DPM storage

System Center Data Protection Manager (DPM) может использовать дедупликацию данных.System Center Data Protection Manager (DPM) can use data deduplication.

Функция дедупликации данных обнаруживает и удаляет повторяющиеся данные на томе, одновременно обеспечивая правильность и полноту данных.Data deduplication (dedup) finds and removed duplicated data in a volume while ensuring data remains correct and complete. Дополнительные сведения о планировании дедупликации.Learn more about deduplication planning.

  • Дедупликация позволяет сократить потребление объема хранилища и, несмотря на то, что избыточность для набора данных будет зависеть от рабочей нагрузки и типа данных, как правило, при использовании дедупликации для архивированных данных наблюдается значительная экономия.Dedup reduces storage consumption and although the amount of redundancy for a set of data will depend on the workload and data type, typically backup data shows strong savings when dedup is used.

  • Избыточность данных можно дополнительно уменьшить с помощью дедупликации, когда архивируемые данные сходных типов и рабочих нагрузок обрабатываются вместе.Data redundancy can be further reduced with dedup when backed up data of similar types and workloads is processed together.

  • Система дедупликации предназначена для установки на основных томах данных без добавления специального дополнительного оборудования. Она не влияет на основную рабочую нагрузку сервера.Dedup is designed to be installed on primary data volumes without adding additional dedicated hardware so that it doesn't impact the primary workload on the server. Параметры по умолчанию задают не слишком жесткий режим, поскольку позволяют выдерживать пять дней перед обработкой определенного файла и определяют минимальный размер файла 32 КБ.The default settings are nonintrusive because they allow data to age for five days before processing a particular file, and has a default minimum file size of 32 KB. Реализация рассчитана на низкий уровень использования памяти и ЦП.The implementation is designed for low memory and CPU usage.

  • Дедупликация может быть реализована для следующих рабочих нагрузок.Dedup can be implemented on the following workloads:

    • Общие сетевые папки: публикация содержимого групп и совместное использование, домашние папки пользователей, файлы перенаправления папок/автономные файлы.General file shares: Group content publication and sharing, user home folders, and Folder Redirection/Offline Files

    • Общие ресурсы развертывания программного обеспечения: двоичные файлы программ, изображения, обновления.Software deployment shares: Software binaries, images, and updates

    • Библиотеки виртуального жесткого диска: хранилище файлов виртуального жесткого диска (VHD) для подготовки для гипервизоров.VHD libraries: Virtual hard disk (VHD) file storage for provisioning to hypervisors

    • Развертывания VDI (только для Windows Server 2012 R2): развертывания инфраструктуры виртуальных рабочих столов (VDI) с помощью Hyper-V.VDI Deployments (Windows Server 2012 R2 only): Virtual Desktop Infrastructure (VDI) deployments using Hyper-V

    • Виртуализированное резервное копирование: решения резервного копирования, (например DPM, работающие на виртуальной машине Hyper-V), использующие сохранение данных резервных копий в файлах VHD/VHDX на файловом сервере Windows.Virtualized backup: Backup solutions (such as DPM running in a Hyper-V virtual machine) that save backup data to VHD/VHDX files on a Windows File Server.

DPM и дедупликацияDPM and dedup

Применение дедупликации с использованием DPM позволит получить большую экономию.Using dedup with DPM can result in large savings. Объем пространства, освобождаемого при дедупликации с оптимизацией данных резервного копирования DPM, зависит от типа архивируемых данных.The amount of space saved by dedup when optimizing DPM backup data varies depending on the type of data being backed up. Например, при резервировании сервера зашифрованной базы данных экономия может получиться незначительной, поскольку в процессе шифрования скрываются все повторяющиеся данные.For example, a backup of an encrypted database server may result in minimal savings since any duplicate data is hidden by the encryption process. Напротив, резервное копирование крупномасштабного развертывания инфраструктуры виртуальных рабочих столов (VDI) может дать существенную экономию (70–90+%), поскольку обычно наблюдается большая степень дублирования данных между средами виртуальных рабочих столов.However backup of a large Virtual Desktop Infrastructure (VDI) deployment can result in very large savings in the range of 70-90+% range, since there is typically a large amount of data duplication between the virtual desktop environments. В конфигурации, описанной в этом разделе, мы запускали разнообразные тестовые нагрузки и получали экономию от 50 до 90 %.In the configuration described in this topic we ran a variety of test workloads and saw savings ranging between 50% and 90%.

Для использования дедупликации для хранилища DPM диспетчер DPM должен выполняться на виртуальной машине Hyper-V и сохранять данные резервного копирования на VHD в общих папках, для которых включена дедупликация данных.To use dedup for DPM storage DPM should be running in a Hyper-V virtual machine and store backup data to VHDs in shared folders with data dedup enabled.

Для развертывания DPM в качестве виртуальной машины, выполняющей резервное копирование данных на дедуплицированный том, рекомендуется использовать следующую топологию развертывания.To deploy DPM as a virtual machine backing up data to a dedupl volume we recommend the following deployment topology:

  • DPM, выполняющийся на виртуальной машине в кластере узлов Hyper-V.DPM running in a virtual machine in a Hyper-V host cluster.

  • Хранилище DPM, использующее файлы VHD/VHDX, хранящиеся в общей папке SMB 3.0 на файловом сервере.DPM storage using VHD/VHDX files stored on an SMB 3.0 share on a file server.

  • Для этого тестового примера файловый сервер был настроен как масштабируемый файловый сервер (SOFS), использующий тома хранилища, взятые из пулов дисковых пространств, построенных с применением непосредственно подключенных дисков SAS.For our test example we configured the file server as a scaled-out file server (SOFS) deployed using storage volumes configured from Storage Spaces pools built using directly connected SAS drives. Обратите внимание на то, что это развертывание обеспечивает производительность в масштабе.Note that this deployment ensures performance at scale.

Обратите внимание на следующие условия.Note that:

  • Это развертывание поддерживается для DPM 2012 R2, а также для всех данных рабочей нагрузки, которые можно архивировать с помощью DPM 2012 R2.This deployment is supported for DPM 2012 R2, and for all workload data that can be backed up by DPM 2012 R2.

  • Все узлы файлового сервера Windows, на которых находятся виртуальные жесткие диски DPM и на которых будет включена дедупликация, должны работать под управлением Windows Server 2012 R2, как минимум с накопительным пакетом обновления за ноябрь 2014 г.All the Windows File Server nodes on which DPM virtual hard disks reside and on which dedup will be enabled must be running Windows Server 2012 R2 with at least Update Rollup November 2014.

  • Корпорация Майкрософт будет предоставлять общие рекомендации и инструкции по развертыванию сценария.We'll provide general recommendations and instructions for the scenario deployment. Каждый раз, когда приводятся примеры, относящиеся к оборудованию, имеется в виду оборудование, развернутое в системе облачной платформы Майкрософт (CPS).Whenever hardware-specific examples are given, the hardware deployed in the Microsoft Cloud Platform System (CPS) is used for reference.

  • В этом примере используются удаленные общие папки SMB 3.0 для хранения резервных копий данных, поэтому основные требования к оборудованию связаны с узлами файлового сервера, а не узлами Hyper-V.This example uses remote SMB 3.0 shares to store the backup data, so primary hardware requirements center around the File Server nodes rather than the Hyper-V nodes. Следующая конфигурация оборудования используется в CPS для резервного копирования и рабочего хранилища.The following hardware configuration is used in CPS for backup and production storage. Обратите внимание, что для хранения резервных копий и рабочих данных используется одно и то же оборудование, однако количество дисков, указанное на корпусах с дисками, учитывает только те диски, которые используются для резервного копирования.Note that the overall hardware is used for both backup and production storage, but the number of drives listed in the drive enclosures are only those used for backup.

    • Кластер масштабируемых файловых серверов из 4 узлов4 node Scale Out File Server cluster

    • Конфигурация на каждый узелPer node configuration

      • 2 ЦП(R) Xeon(R) E5-2650-0 @ 2,0 ГГц, 2001 МГц, 8 ядер, 16 логических процессоров2x Intel(R) Xeon(R) CPU E5-2650 0 @ 2.00GHz, 2001 MHz, 8 cores, 16 logical processors

      • RDIMM память 128 ГБ 1333 МГц128GB 1333MHz RDIMM memory

      • Подключения к хранилищу: 2 порта SAS, 1 порт 10GbE iWarp/RDMAStorage connections: 2 ports of SAS, 1 port of 10GbE iWarp/RDMA

    • 4 корпуса с дисками JBOD4 JBOD drive enclosures

      • 18 дисков в каждом корпусе JBOD — 16 x 4 ТБ HDD + 2 x 800 ГБ SSD18 Disks in each JBOD - 16 x 4TB HDDs + 2 x 800GB SSDs

      • Два пути для каждого диска — политика балансировки нагрузки на многопутевую систему ввода-вывода, настроенная только на отработку отказовDual path to each drive - Multipath I/O load balancing policy set to failover only

      • Службы SSD, настроенные для кэша обратной записи (WBC), а остальные — для выделенных дисков журналовSSDs configured for write back cache (WBC) and the rest for dedicated journal drives

Настройка томов дедупликацииSet up dedup volumes

Давайте рассмотрим, насколько большими должны быть тома, чтобы они могли поддерживать дедуплицированные VHDX-файлы, содержащие данные DPM.Let's consider how big volumes should be to support the deduplicated VHDX files containing DPM data. В CPS мы создали тома по 7,2 ТБ каждый.In CPS we've created volumes of 7.2TB each. Оптимальный объем зависит главным образом от того, насколько много и насколько часто меняются данные в томе, а также от скорости передачи данных в подсистеме дискового хранилища.The optimum volume size depends primarily on how much and how frequently the data on the volume changes, and on the data access throughput rates of the disk storage subsystem. Важно отметить, что, если при дедупликации ежедневно меняющиеся данные (обновления) не успевают обрабатываться, экономия уменьшится до завершения обработки.It's important to note that if the deduplication processing can't keep up with the rate of daily data changes (the churn) the savings rate will drop until the processing can complete. Дополнительные сведения см. в разделе Определение размеров томов для дедупликации данных.For more detailed information see Sizing Volumes for Data Deduplication. При дедупликации томов рекомендуется придерживаться следующих общих рекомендаций.The following general guidelines are recommended for the dedup volumes:

  • Использовать дисковые пространства с контролем четности с контролем наличия корпуса для увеличения гибкости и улучшения использования дискового пространства.Use Parity Storage Spaces with enclosure-awareness for resiliency and increased disk utilization.

  • Форматировать в NTFS с размером единицы распределения 64 КБ и сегментами записи больших файлов, чтобы функция дедупликации лучше работала с разреженными файлами.Format NTFS with 64 KB allocation units and large file record segments to work better with dedup use of sparse files.

  • В конфигурации оборудования, приведенной выше, рекомендуемый размер тома — 7,2 ТБ и тома будут настроены следующим образом.In the hardware configuration above the recommended volume size is 7.2TB volumes and volumes will be configured as follows:

    • Контроль наличия корпуса, двойная четность, 7,2 ТБ + 1 ГБ кэша обратной записиEnclosure aware dual parity 7.2TB + 1GB Write back cache

      • ResiliencySettingName == ParityResiliencySettingName == Parity

      • PhysicalDiskRedundancy == 2PhysicalDiskRedundancy == 2

      • NumberOfColumns == 7NumberOfColumns == 7

      • Interleave == 256KB (Производительность при двойной четности с чередованием 64 КБ значительно ниже, чем с чередованием 256 КБ (значение по умолчанию))Interleave == 256KB (Dual parity performance at 64KB interleave is much lower than at the default 256KB interleave)

      • IsEnclosureAware == $trueIsEnclosureAware == $true

      • AllocationUnitSize=64KBAllocationUnitSize=64KB

      • Large FRSLarge FRS

      Настройте новый виртуальный диск в указанном пуле носителей следующим образом.Set up a new virtual disk in the specified storage pool as follows:

      New-VirtualDisk -Size 7.2TB -PhysicalDiskRedundancy 2 -ResiliencySettingName Parity -StoragePoolFriendlyName BackupPool -FriendlyName BackupStorage -NumberOfColumns 7 -IsEnclosureAware $true
      
    • Каждый из этих томов необходимо затем отформатировать в:Each of these volumes must then be formatted as:

      Format-Volume -Partition <volume> -FileSystem NTFS -AllocationUnitSize 64KB -UseLargeFRS -Force
      

      В развертывании CPS они затем настраиваются как CSV.In the CPS deployment, these are then configured as CSVs.

    • В этих томах DPM будет хранить последовательность VHDX-файлов для хранения резервных копий данных.Within these volumes DPM will store a series of VHDX files to hold the backup data. Включите дедупликацию в томе после завершения его форматирования, как описано ниже.Enable deduplication on the volume after formatting it, as follows:

      Enable-DedupVolume -Volume <volume> -UsageType HyperV
      Set-DedupVolume -Volume <volume> -MinimumFileAgeDays 0 -OptimizePartialFiles:$false
      

      Эта команда также изменяет следующие параметры уровня дедупликации тома:This command also modifies the following volume level dedup settings:

      • Задайте для параметра UsageType значение Hyper-V: это задает выполнение дедупликации открытых файлов, которая необходима, поскольку VHDX-файлы, используемые DPM для хранения резервных копий, остаются открытыми в случае запуска DPM в своей виртуальной машине.Set UsageType to HyperV: This results in dedup processing open files, which is required because the VHDX files used for backup storage by DPM remain open with DPM running in its virtual machine.

      • Отключите PartialFileOptimization: это задает выполнение дедупликации в режиме оптимизации всех разделов открытого файла, а не в режиме поиска измененных разделов с минимальным возрастом.Disable PartialFileOptimization: This causes dedup to optimize all sections of an open file rather scan for changed sections with a minimum age.

      • Задайте для параметра MinFileAgeDays значение 0: с отключенным параметром PartialFileOptimization параметр MinFileAgeDays определяет такой режим, при котором дедупликация выполняется только для тех файлов, которые не были изменены в течение этого количества дней.Set MinFileAgeDays parameter to 0: With PartialFileOptimization disabled, MinFileAgeDays changes its behavior so that dedup only considers files that haven't changed in that many days. Поскольку мы хотим начать дедупликацию данных резервного копирования во всех файлах DPM VHDX без задержки, нам нужно указать для параметра MinFileAgeDays значение 0.Since we want dedup to begin processing the backup data in all DPM VHDX files without any delay, we need to set MinFileAgeDays to 0.

Дополнительные сведения о настройке дедупликации см. в разделе Установка и настройка дублирования данных.For more information on setting up deduplication see Install and Configure Data Duplication.

Настройка хранилища DPMSet up DPM storage

Чтобы избежать проблем с фрагментацией и сохранить эффективность, хранилище DPM размещается с использованием VHDX-файлов, находящихся на дедуплицированных томах.To avoid fragmentation issues and maintain efficiency, DPM storage is allocated using VHDX files residing on the deduplicated volumes. 10 динамических VHDX-файлов по 1 ТБ каждый создается в каждом томе и прикрепляется к DPM.10 dynamic VHDX files of 1TB each are created on each volume and attached to DPM. Обратите внимание, что для того, чтобы воспользоваться выигрышем от дедупликации, выделяется 3 ТБ избыточного объема в хранилище.Note that 3TB of overprovisioning of storage is done to take advantage of the storage savings produced by dedup. По мере того как при выполнении дедупликации будет освобождаться дополнительное пространство в хранилище, могут создаваться новые VHDX-файлы в этих томах, чтобы занять освобождающееся место.As dedup produces additional storage savings, new VHDX files can be created on these volumes to consume saved space. Мы протестировали сервер DPM с присоединенными к нему VHDX-файлами в количестве до 30.We tested the DPM sever with up to 30 VHDX files attached to it.

  1. Выполните следующую команду, чтобы создать виртуальные жесткие диски, которые будут добавлены позже на сервер DPM.Run the following command to create virtual hard disks that will be added later to the DPM server:

    New-SCVirtualDiskDrive -Dynamic -SCSI -Bus $Bus -LUN $Lun -JobGroup $JobGroupId -VirtualHardDiskSizeMB 1048576 -Path $Using:Path -FileName <VHDName>
    
  2. Затем добавьте созданные виртуальные жесткие диски на сервер DPM следующим образом.Then added the created virtual hard disks to the DPM server as follows:

    Import-Module "DataProtectionManager"
    Set-StorageSetting -NewDiskPolicy OnlineAll
    $dpmdisks = @()
    $dpmdisks = Get-DPMDisk -DPMServerName $env:computername | ? {$_.CanAddToStoragePool -
    eq $true -and $_.IsInStoragePool -eq $false -and $_.HasData -eq $false}
    Add-DPMDisk $dpmdisks
    

    Обратите внимание, что на этом шаге выполняется настройка пула носителей в качестве диска или дисков, на которых DPM хранит реплики и точки восстановления для защищенных данных.Note that this step configures a storage pool as the disk or disks on which DPM stores replicas and recovery points for protected data. Этот пул является частью конфигурации DPM и отделен от пула дисковых пространств, используемого для создания томов данных, описанных в предыдущем разделе.This pool is part of the DPM configuration and is separate from the Storage Spaces pool used to create the data volumes described in the previous section. Дополнительные сведения о пулах носителей DPM см. в разделе Конфигурация дискового пространства и пулов носителей.For more information on DPM storage pools see Configure disk storage and storage pools.

Настройка кластера файлового сервера WindowsSet up the Windows File Server cluster

Для дедупликации требуется специальный набор параметров конфигурации для поддержки виртуализированного хранилища DPM в соответствии с масштабом данных и размером отдельных файлов.Dedup requires a special set of configuration options to support virtualized DPM storage due to the scale of data and size of individual files. Эти параметры являются глобальными для кластера или узла кластера.These options are global to the cluster or the cluster node. Включить дедупликацию и настроить параметры кластера необходимо отдельно на каждом узле кластера.Dedup must be enabled and the cluster settings must be individually configured on each node of the cluster.

  1. Включить дедупликацию в хранилище файлового сервера Windows. Роль дедупликации должна быть установлена на всех узлах кластера файлового сервера Windows.Enable dedup on Windows File Server storage- The Deduplication role must be installed on all nodes of the Windows File Server cluster. Чтобы сделать это, выполните на каждом узле кластера следующую команду PowerShell.To do this run the following PowerShell command on each node of the cluster:

    Install-WindowsFeature -Name FileAndStorage-Services,FS-Data-Deduplication -ComputerName <node name>
    
  2. Настроить дедупликацию для файлов данных резервных копий. Чтобы запустить оптимизацию без задержки и не оптимизировать частичные записи файлов, выполните следующую команду PowerShell.Tune dedup processing for backup data files-Run the following PowerShell command to set to start optimization without delay and not to optimize partial file writes. Обратите внимание на то, что задания сборки мусора (GC) по умолчанию запланированы еженедельно, а каждую четвертую неделю задание сборки мусора выполняется в режиме "глубокой сборки" — более тщательного и продолжительного поиска данных, требующих удаления.Note that by default Garbage Collection (GC) jobs are scheduled every week, and every fourth week the GC job runs in "deep GC" mode for a more exhaustive and time intensive search for data to remove. Для рабочей нагрузки DPM этот режим "глубокой сборки мусора" не дает заметного преимущества, но сокращает количество времени, которое можно использовать для дедупликации данных.For the DPM workload, this "deep GC" mode does not result in any appreciative gains and reduces the amount of time in which dedup can optimize data. Поэтому мы отключаем этот режим.We therefore disable this deep mode.

    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name DeepGCInterval -Value 0xFFFFFFFF
    
  3. Настроить производительность для крупномасштабных операций. Выполните следующий сценарий PowerShell, чтобы:Tune performance for large scale operations-Run the following PowerShell script to:

    • отключить дополнительную обработку и операции ввода-вывода при выполнении глубокой сборки мусора;Disable additional processing and I/O when deep garbage collection runs

    • зарезервировать дополнительную память для обработки хэша;Reserve additional memory for hash processing

    • включить приоритетную оптимизацию, чтобы разрешить немедленную дефрагментацию больших файлов.Enable priority optimization to allow immediate defragmentation of large files

    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name HashIndexFullKeyReservationPercent -Value 70
    Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name EnablePriorityOptimization -Value 1
    

    Эти параметры определяют следующие режимы.These settings modify the following:

    • HashIndexFullKeyReservationPercent. Это значение определяет, какой объем памяти задания оптимизации используется для существующих хэшей блоков в сравнении с новыми хэшами блоков.HashIndexFullKeyReservationPercent: This value controls how much of the optimization job memory is used for existing chunk hashes, versus new chunk hashes. На больших масштабах значение 70 % дает большую производительность оптимизации, чем значение по умолчанию 50 %.At high scale, 70% results in better optimization throughput than the 50% default.

    • EnablePriorityOptimization. В файлах с размером, приближающимся к 1 ТБ, при фрагментации может образоваться столько фрагментов, что их число станет близким к заданному пороговому значению для одного файла.EnablePriorityOptimization: With files approaching 1TB, fragmentation of a single file can accumulate enough fragments to approach the per file limit. При оптимизации эти фрагменты будут объединены и это позволит предотвратить достижение заданного ограничения.Optimization processing consolidates these fragments and prevents this limit from being reached. Установка этого раздела реестра позволяет добавлять при дедупликации дополнительные процедуры обработки дедуплицированных файлов с высокой степенью фрагментации, имеющих высокий приоритет.By setting this registry key, dedup will add an additional process to deal with highly fragmented deduped files with high priority.

Настройка DPM и планирование дедупликацииSet up DPM and dedup scheduling

Операции резервного копирования и дедупликации являются операциями с большим объемом ввода-вывода.Both backup and deduplication operations are I/O intensive. Если они будут выполняться в одно и то же время, дополнительные затраты на переключение между операциями может оказаться значительным и привести к тому, что за день будет зарезервирован или дедуплицирован меньший объем данных.If they were to run at the same time, additional overhead to switch between the operations could be costly and result in less data being backed up or deduplicated on a daily basis. Мы рекомендуем определить отдельные специальные окна для дедупликации и для резервного копирования.We recommended you configure dedicated and separate deduplication and backup windows. Это позволит гарантировать, что трафик ввода-вывода для каждой из этих операций будет эффективно распределен по времени ежедневной работы системы.This helps ensure that the I/O traffic for each of these operations is efficiently distributed during daily system operation. Имеются следующие рекомендации по планированию.The recommended guidelines for scheduling are:

  • Разбейте дни на неперекрывающиеся периоды для резервного копирования и дедупликации.Split days into non-overlapping backup and dedup windows.

  • Настройте пользовательские расписания резервного копирования.Set up custom backup schedules.

  • Настройте пользовательские расписания дедупликации.Set up custom dedup schedules.

  • Спланируйте оптимизацию в окне дедупликации ежедневного расписания.Schedule optimization in the daily dedup window.

  • Настройте расписания дедупликации на выходные дни отдельно, используя это время для заданий сборки мусора и очистки.Set up weekend dedup schedules separately, using that time for garbage collection and scrubbing jobs.

Расписания DPM можно настроить с помощью следующей команды PowerShell.You can set up DPM schedules with the following PowerShell command:

Set-DPMConsistencyCheckWindow -ProtectionGroup $mpg -StartTime $startTime -
DurationInHours $duration
Set-DPMBackupWindow -ProtectionGroup $mpg -StartTime $startTime -DurationInHours
$duration

В этой конфигурации DPM настроен на выполнение резервного копирования виртуальных машин в интервале времени от 22:00 до 6:00.In this configuration, DPM is configured to back up virtual machines between 10 PM and 6 AM. Дедупликация запланирована на оставшиеся 16 часов суток.Deduplication is scheduled for the remaining 16 hours of the day. Обратите внимание на то, что фактическое время дедупликации, задаваемое в расписании, будет зависеть от размера тома.Note that the actual dedup time you configure will depend on the volume size. Дополнительные сведения см. в разделе Определение размеров томов для дедупликации данных .See Sizing Volumes for Data Deduplication for more information. Окно дедупликации продолжительностью 16 часов, начинающееся с 6:00 после завершения окна резервного копирования, настраивается с любого узла кластера следующим образом.A 16 hour deduplication window starting at 6 AM after the backup window ends would be configured as follows from any individual cluster node:

#disable default schedule
Set-DedupSchedule * -Enabled:$false
#Remainder of the day after an 8 hour backup window starting at 10pm $dedupDuration = 16
$dedupStart = "6:00am"
#On weekends GC and scrubbing start one hour earlier than optimization job.
# Once GC/scrubbing jobs complete, the remaining time is used for weekend
# optimization.
$shortenedDuration = $dedupDuration - 1
$dedupShortenedStart = "7:00am"
#if the previous command disabled priority optimization schedule
#reenable it
if ((Get-DedupSchedule -name PriorityOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name PriorityOptimization -Enabled:$true
}
#set weekday and weekend optimization schedules
New-DedupSchedule -Name DailyOptimization -Type Optimization -DurationHours $dedupDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -Days Monday,Tuesday,Wednesday,Thursday,Friday
New-DedupSchedule -Name WeekendOptimization -Type Optimization -DurationHours $shortenedDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupShortenedStart -Days Saturday,Sunday
#re-enable and modify scrubbing and garbage collection schedules
Set-DedupSchedule -Name WeeklyScrubbing -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Sunday
Set-DedupSchedule -Name WeeklyGarbageCollection -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Saturday
#disable background optimization
if ((Get-DedupSchedule -name BackgroundOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name BackgroundOptimization -Enabled:$false
}

При изменении окна резервного копирования крайне важно, чтобы окно дедупликации было изменено вместе с ним, чтобы не получилось перекрытие окон.Whenever the backup window is modified it's vital that the deduplication window is modified along with it so they don't overlap. Окна дедупликации и резервного копирования не должны заполнять собой полностью все 24 часа суток, но настоятельно рекомендуется при их планировании учитывать изменения времени обработки, обусловленные ежедневными колебаниями рабочих нагрузок и объемов данных.The deduplication and backup window don't have to fill up the full 24 hours of the day, but it's highly recommended that they do to allow for variations in processing time due to expected daily changed in workloads and data churn.

Вопросы, связанные с производительностью резервного копированияImplications for backup performance

После того как некоторый набор файлов будет дедуплицирован, при доступе к ним может возникнуть незначительное снижение производительности.After a set of files have been deduplicated there can be a slight performance cost when accessing the files. Это связано с тем, что требуется дополнительная обработка для доступа к файлам в формате дедуплицированных файлов.This is due to the additional processing required to access the file format used by deduplicated files. В этом сценарии файлы представляют собой набор файлов VHDX, которые непрерывно используются DPM во время окна резервного копирования.In this scenario, the files are a set of VHDX files that see continuous usage by DPM during the backup window. Последствия дедупликации этих файлов заключаются в том, что операции резервного копирования и восстановления могут выполняться немного медленнее, чем без дедупликации.The impact of having these files deduplicated means that the backup and recovery operations can be slightly slower than without deduplication. Как и любой продукт резервного копирования, DPM является тяжелой рабочей нагрузкой по операциям записи, а по операциям чтения он проявляет себя главным образом во время процедуры восстановления.As for any backup product, DPM is a write-heavy workload with read operations being most important during restore operations. По вопросам, связанным с производительностью резервного копирования и влиянием на нее дедупликации, предлагаются следующие рекомендации.The recommendations for addressing the implications for backup performance due to deduplication are:

  • Операции чтения/восстановления. Влияние на операции чтения обычно незначительно и не требует особого внимания, поскольку функция дедупликации кэширует дедуплицированные фрагменты.Read/restore operations: Effects on read operations are typically negligible and don't require any special considerations since the deduplication feature caches deduplicated chunks.

  • Операции записи/резервного копирования. При определении окна резервного копирования следует планировать увеличение времени создания резервных копий приблизительно на 5–10 %.Write / backup operations: Plan for an increase in backup time of approximately 5% to 10 % when defining the backup window. (Это увеличение по сравнению с ожидаемым временем выполнения резервного копирования при записи на недедуплицированные тома.)(This is an increase compared to the expected backup time when writing to non-deduplicated volumes.)

МониторингMonitoring

За работой DPM и процессом дедупликации можно наблюдать с целью получения следующих сведений.DPM and data deduplication can be monitored to ensure that:

  • Для хранения резервных копий выделено достаточно места на диске.Sufficient disk space is provisioned to store the backup data

  • Задания резервного копирования DPM выполняются нормально.DPM backup jobs are completing normally

  • Дедупликация включена на резервных томах.Deduplication is enabled on the backup volumes

  • Расписания дедупликации заданы правильно.Deduplication schedules are set correctly

  • Выполнение дедупликации проходит нормально каждый день.Deduplication processing is completing normally on a daily basis

  • Выигрыш от дедупликации соответствует предположениям, сделанным при конфигурации системы.Deduplication savings rate matches assumptions made for system configuration

Успех дедупликации зависит от аппаратных возможностей системы в целом, (включая быстродействие ЦП, пропускную способность системы ввода-вывода, емкость хранилища), конфигурации системы, среднего уровня нагрузки и ежедневного объема измененных данных.The success of deduplication depends on the overall system hardware capabilities (including CPU processing speed, I/O bandwidth, storage capacity), correct system configuration, the average system load, and the daily amount of modified data.

Наблюдать за работой DPM можно с помощью центральной консоли DPM.You can monitor DPM using the DPM Central Console. См. раздел Установка центральной консоли.See Install Central Console.

Вы можете наблюдать за процессом дедупликации (проверять состояние дедупликации, получаемую экономию, состояние расписания), используя следующие команды PowerShell.You can monitor dedup to check the dedup status, saving rate and schedule status using the following PowerShell commands:

Получить состояние:Get status:

PS C:\> Get-DedupStatus
FreeSpace SavedSpace OptimizedFiles InPolicyFiles Volume
-------------- ---------- -------------- ------------- ------
280.26 GB 529.94 GB 36124 36125 X:
151.26 GB 84.19 GB 43017 43017 Z:

Получить экономию:Get savings:

PS C:\> Get-DedupVolume
Enabled SavedSpace SavingsRate Volume
------- ---------- ----------- ------
True 529.94 GB 74 % X:

Получите состояние расписания с помощью командлета Get-DedupSchedule.Get the schedule status using the Get-DedupSchedule cmdlet.

Мониторинг событийMonitor events

Журнал мониторинга событий может помочь понять события дедупликации и состояние.Monitoring the event log can help understand deduplication events and status.

  • Чтобы просмотреть события дедупликации, в проводникеперейдите в раздел Журналы приложений и служб > Microsoft > Windows > Дедупликация.To view deduplication events, in File Explorer, navigate to Applications and Services Logs > Microsoft > Windows > Deduplication.

  • Если значение LastOptimizationResult = 0x00000000 появится в результатах Get-DedupStatus |fl Windows PowerShell, значит весь набор данных был обработан предыдущим заданием оптимизации.If the value LastOptimizationResult = 0x00000000 appears in the Get-DedupStatus |fl Windows PowerShell results, the entire dataset was processed by the previous optimization job. В противном случае это значит, что системе не удалось завершить выполнение дедупликации и имеет смысл проверить параметры конфигурации, например размер тома.If not then the system was unable to complete the deduplication processing and you might want to check your configuration settings, for example volume size.

Более подробные примеры командлетов см. в разделе Мониторинг и создание отчетов по дедупликации данных.For more detailed cmdlet examples, see Monitor and Report for Data Deduplication.

Мониторинг хранилища резервных копийMonitor backup storage

В нашем примере конфигурации тома объемом 7,2 ТБ заполнены "логическими" данными на 10 ТБ (размер данных при отсутствии дедупликации), хранящимися в динамических файлах VHDX размером 10 x 1 ТБ.In our configuration example the 7.2 TB volumes are filled with 10 TB of "logical" data (the size of the data when it is not deduplicated) stored in 10 x 1 TB dynamic VHDX files. Поскольку эти файлы накапливают дополнительные данные резервных копий, они медленнее заполняют том.As these files accumulate additional backup data, they'll slowly fill up the volume. Если процент экономии, полученной в результате дедупликации, достаточно велик, все 10 файлов смогут достичь своего максимального логического размера, но при этом помещаться в томе размером 7,2 ТБ (потенциально может даже найтись дополнительное пространство для выделения дополнительных файлов VHDX для использования серверами DPM).If the savings percentage resulting from deduplication is high enough, all 10 files will be able to reach their maximum logical size but still fit in the 7.2 TB volume (potentially there might even be additional space to allocate additional VHDX files for DPM servers to use). Но если размер экономии от дедупликации будет невелик, место в томе может быть израсходовано до того, как VHDX-файлы достигнут своего максимального логического размера, и том будет заполнен.But if the size savings from deduplication aren't sufficient, the space on the volume might run out before the VHDX files reach their full logical size, and the volume will be full. Для предотвращения переполнения томов рекомендуется принять следующие меры.To prevent volumes becoming full we recommend the following:

  • Не предъявлять слишком жестких требований к размеру тома и допускать некоторый избыток по объему хранилища.Be conservative in volume size requirements and allow for some overprovisioning of storage. Рекомендуется оставить запас размером по крайней мере 10 % при планировании использования резервного хранилища для покрытия колебаний размера экономии от дедупликации и объема обрабатываемых данных.It is recommended to allow for a buffer of at least 10% when planning for backup storage usage to allow for expected variation in deduplication savings and data churn.

  • Вести наблюдение за томами, используемыми для хранения резервных копий, чтобы контролировать использование пространства и размер экономии от дедупликации.Monitor the volumes used for backup storage to ensure that space utilization and deduplication savings rates are at expected levels.

При переполнении тома появляются следующие симптомы.If the volume becomes full the following symptoms result:

  • Виртуальная машина DPM будет переведена в критическое состояние и приостановлена, новые задания резервного копирования не смогут запускаться этой виртуальной машиной.The DPM virtual machine will be put into a pause-critical state and no further backup jobs can be issued by that VM.

  • Все задания резервного копирования, использующие VHDX-файлы на переполненном томе, завершатся сбоем.All backup jobs that use the VHDX files on the full volume will fail.

Чтобы исправить это положение и восстановить нормальную работу системы, можно выделить дополнительное пространство для хранения и выполнить перенос хранилища виртуальной машины DPM или его VHDX-файлов для освобождения места.To recover from this condition and restore the system to normal operation, additional storage can be provisioned and a storage migration of the DPM virtual machine or its VHDX can be performed to free up space:

  1. Остановите сервер DPM, которому принадлежат VHDX-файлы, находящиеся в переполненном резервном ресурсе.Stop the DPM Server that owns the VHDX files on the full backup share.

  2. Создайте дополнительный том и ресурс для резервных копий с использованием тех же параметров конфигурации, которые были использованы для существующих ресурсов, включая параметры файловой системы NTFS и дедупликации.Create an additional volume and backup share using the same configuration and settings as used for the existing shares, including settings for NTFS and deduplication.

  3. Перенесите хранилище для виртуальной машины сервера DPM и перенесите по крайней мере один VHDX-файл из переполненного резервного ресурса на новый ресурс, созданный на шаге 2.Migrate Storage for the DPM Server virtual machine, and migrate at least one VHDX file from the full backup share to the new backup share created in step 2.

  4. Запустите задание сборки мусора дедупликации данных на исходном резервном ресурсе, который был переполнен.Run a Data Deduplication garbage collection (GC) job on the source backup share that was full. Задание должно успешно выполниться и освободить место.The GC job should succeed and reclaim the free space.

  5. Перезапустите виртуальную машину сервера DPM.Restart the DPM Server virtual machine.

  6. Во время следующего окна резервного копирования будет запущено задание DPM по проверке согласованности для всех источников данных, которые ранее вызывали сбой.A DPM consistency check job will be triggered during the next backup window for all data sources which previously failed.

  7. Теперь все задания резервного копирования должны выполняться успешно.All backup jobs should now succeed.

СводкаSummary

Использование дедупликации совместно с DPM обеспечивает значительную экономию места.The combination of deduplication and DPM provides substantial space savings. Это позволяет получить более высокий коэффициент хранения, увеличить частоту выполнения резервного копирования и снизить совокупную стоимость владения развертывания DPM.This allows higher retention rates, more frequent backups, and better TCO for the DPM deployment. Советы и рекомендации в этом документе должны дать вам средства и знания для настройки дедупликации хранилища DPM и продемонстрировать преимущества на примере вашего собственного развертывания.The guidance and recommendations in this document should provide you with the tools and knowledge to configure deduplication for DPM storage and see the benefits for yourself in your own deployment.

Часто задаваемые вопросыCommon questions

Вопрос. VHDX-файлы DPM должны быть размером 1 ТБ.Q: DPM VHDX files need to be 1TB of size. Означает ли это, что DPM не может выполнять резервное копирование виртуальных машин, SharePoint, баз данных SQL Server или файловых томов размером более 1 ТБ?Does this mean DPM cannot backup a VM or SharePoint or SQL DB or file volume of size > 1TB?

Ответ. Нет.A: No. DPM объединяет несколько томов в один для хранения резервных копий.DPM aggregates multiple volumes into one to store backups. Таким образом, ограничение на размер файла 1 ТБ не имеет отношения к размерам источников данных, резервное копирование которых может выполнять DPM.So, the 1TB file size doesn't have any implications for data source sizes that DPM can backup.

Вопрос. Создается впечатление, что VHDX-файлы хранилища DPM могут быть развернуты только на удаленных файловых ресурсах SMB.Q: It looks as though DPM storage VHDX files must be deployed on remote SMB file shares only. Что произойдет, если сохранить VHDX-файлы резервных копий на дедуплицированном томе на том же компьютере, на котором запущена виртуальная машина DPM?What will happen if I store the backup VHDX files on dedup-enabled volumes on the same system where the DPM virtual machine is running?

Ответ. Как отмечалось выше, DPM, Hyper-V и дедупликация являются операциями, требующими больших объемов хранения и большой вычислительной мощности.A: As discussed above, DPM, Hyper-V and dedup are storage and compute intensive operations. Объединение в одной системе всех трех функций может привести к избыточному потреблению пропускной способности ввода-вывода и процессорной мощности, что может создать препятствия в работе Hyper-V и его виртуальных машин.Combining all three of them in a single system can lead to I/O and process intensive operations that could starve Hyper-V and its VMs. Если вы решили поэкспериментировать с настройкой DPM на виртуальной машине с томами резервного хранилища на одном и том же компьютере, следует провести тщательные наблюдения за производительностью, чтобы убедиться, что имеется достаточно пропускной способности ввода-вывода и вычислительной мощности для обслуживания всех трех функций на одном компьютере.If you decide to experiment configuring DPM in a VM with the backup storage volumes on the same machine, you should monitor performance carefully to ensure that there is enough I/O bandwidth and compute capacity to maintain all three operations on the same machine.

Вопрос. Вы рекомендуете определить отдельные специальные окна для дедупликации и для резервного копирования.Q: You recommend dedicated, separate deduplication and backup windows. Почему нельзя включить дедупликацию во время резервного копирования, выполняемого DPM?Why can't I enable dedup while DPM is backing up? Мне нужно создавать резервную копию моих баз данных SQL Server каждые 15 минут.I need to backup my SQL DB every 15 minutes.

Ответ. Дедупликация и DPM являются операциями, требующими больших объемов хранения. Запуск обеих функций одновременно может оказаться неэффективным и привести к нехватке пропускной способности ввода-вывода.A: Dedup and DPM are storage intensive operations and having both of them running at the same time can be inefficient and lead to I/O starvation. Таким образом, чтобы защищать рабочие нагрузки более одного раза в день (например, SQL Server каждые 15 минут) и включить дедупликацию в это же время, необходимо гарантировать, что имеется достаточно пропускной способности ввода-вывода и вычислительной мощности, чтобы избежать нехватки ресурсов.Therefore, to protect workloads more than once a day (for example SQL Server every 15 minutes) and to enable dedup at the same time, ensures there's enough I/O bandwith and computer capacity to avoid resource starvation.

Вопрос. Согласно описанной конфигурации, DPM должен быть запущен на виртуальной машине.Q: Based on the configuration described, DPM needs to be running in a virtual machine. Почему нельзя включить дедупликацию на томе реплики и выполнять теневое копирование томов напрямую, а не на VHDX-файлы?Why can't I enable dedup on replica volume and shadow copy volumes directly rather than on VHDX files?

Ответ. Дедупликация выполняется по каждому тому с обработкой отдельных файлов.A: Dedup does deduplication per volume operating on individual files. Поскольку оптимизация при дедупликации выполняется на уровне файлов, поддержка технологии VolSnap, которую DPM использует для хранения резервных копий данных, не предусмотрена.Since dedup optimizes at the file level, it is not designed to support the VolSnap technology that DPM leverages to store its backup data. При работе DPM на виртуальной машине Hyper-V сопоставляет операции с томами DPM на уровне VHDX-файлов, что позволяет оптимизировать резервные копии данных и получать больше экономии пространства хранения при дедупликации.By running DPM in a VM, Hyper-V maps the DPM volume operations to the VHDX file level, allowing dedup to optimize backup data and provide larger storage savings.

Вопрос. В описанном примере конфигурации используются только тома размером 7,2 ТБ.Q: The above sample configuration has created only 7.2TB volumes. Можно ли создавать тома большего или меньшего размера?Can I create bigger or smaller volumes?

Ответ. При дедупликации запускается один поток для каждого тома.A: Dedup runs one thread per volume. Если размер тома будет больше, потребуется больше времени для выполнения его оптимизации.As the volume size becomes bigger, dedup requires more time to complete its optimization. С другой стороны, в томах меньшего размера находится меньше данных, в которых можно найти повторяющиеся блоки, а следовательно, экономия получится меньше.On the other hand with small volumes there is less data in which to find duplicate chunks, which can result in reduced savings. Таким образом, рекомендуется уточнить оптимальный размер тома с учетом общего объема обновлений и аппаратных возможностей системы.So, it is advisable to fine tune the volume size based on total churn and system hardware capabilities for optimal savings. Более подробные сведения об определении размера тома, используемого при дедупликации, можно найти в разделе «Определение размеров томов для дедупликации в Windows Server».More detailed information on determining volume sizes used with deduplication can be found in Sizing volumes for Deduplication in Windows Server. Более подробные сведения об определении размера тома, используемого при дедупликации, см. в разделе Определение размеров томов для дедупликации данных.For more detailed information on determining volume sizes used with deduplication see Sizing Volumes for Data Deduplication.