Noções básicas da eliminação de duplicação de dadosUnderstanding Data Deduplication

Aplica-se a: 2019, Windows Server 2016, Windows Server (canal semestral) do Windows ServerApplies to: Windows Server 2019, Windows Server 2016, Windows Server (Semi-Annual Channel)

Este documento descreve como funciona a Eliminação de Duplicação de Dados.This document describes how Data Deduplication works.

Como funciona a eliminação de duplicação de dados?How does Data Deduplication work?

A Eliminação de Duplicação de Dados no Windows Server foi criada com os dois princípios a seguir:Data Deduplication in Windows Server was created with the following two principles:

  1. Otimização não interferir as gravações no discoOptimization should not get in the way of writes to the disk
    A eliminação de duplicação de dados otimiza os dados usando um modelo de pós-processamento.Data Deduplication optimizes data by using a post-processing model. Todos os dados são gravados de forma não otimizada no disco e são otimizados posteriormente pela Eliminação de Duplicação de Dados.All data is written unoptimized to the disk and then optimized later by Data Deduplication.

  2. Otimização não deve alterar a semântica de acessoOptimization should not change access semantics
    Os usuários e aplicativos que acessam dados em um volume otimizado não têm a menor a ideia de que os arquivos que eles estão acessando passaram pela eliminação de duplicação.Users and applications that access data on an optimized volume are completely unaware that the files they are accessing have been deduplicated.

Uma vez habilitada para um volume, a eliminação de duplicação de dados é executada em segundo plano para:Once enabled for a volume, Data Deduplication runs in the background to:

  • Identificar padrões repetidos em arquivos nesse volume.Identify repeated patterns across files on that volume.
  • Mover continuamente esses fragmentos, ou partes, com ponteiros especial chamados pontos de nova análise que apontam para uma cópia única nessa parte.Seamlessly move those portions, or chunks, with special pointers called reparse points that point to a unique copy of that chunk.

Isso ocorre em quatro etapas, descritas a seguir:This occurs in the following four steps:

  1. Verificação de arquivos que atendam à política de otimização no sistema de arquivos.Scan the file system for files meeting the optimization policy.
    Verificação do sistema de arquivos
  2. Divisão dos arquivos em partes de tamanho variável.Break files into variable-size chunks.
    Divisão dos arquivos em partes
  3. Identificação de partes exclusivas.Identify unique chunks.
    Identificação de partes exclusivas
  4. Inserção das partes no repositório de partes e, opcionalmente, compactação.Place chunks in the chunk store and optionally compress.
    Movimentação para o armazenamento de partes
  5. Substituição do fluxo de arquivos original dos arquivos agora otimizados com um ponto de nova análise para o repositório de partes.Replace the original file stream of now optimized files with a reparse point to the chunk store.
    Substituição do fluxo de arquivos com o ponto de nova análise

Quando os arquivos otimizados são lidos, o sistema de arquivos os envia com um ponto de nova análise ao filtro do sistema de arquivos de Eliminação de Duplicação de Dados (Dedup.sys).When optimized files are read, the file system sends the files with a reparse point to the Data Deduplication file system filter (Dedup.sys). O filtro redireciona a operação de leitura para as partes apropriadas que compõem o fluxo para esse arquivo no repositório de partes.The filter redirects the read operation to the appropriate chunks that constitute the stream for that file in the chunk store. As modificações em intervalos de arquivos que passaram pela eliminação de duplicação são gravadas de forma não otimizada no disco e são otimizadas pelo Trabalho de otimização da próxima vez em que ele for executado.Modifications to ranges of a deduplicated files get written unoptimized to the disk and are optimized by the Optimization job the next time it runs.

Tipos de usoUsage Types

Os tipos de uso a seguir fornecem uma configuração razoável de Eliminação de Duplicação de Dados para cargas de trabalho comuns:The following Usage Types provide reasonable Data Deduplication configuration for common workloads:

Tipos de usoUsage Type Cargas de trabalho ideaisIdeal workloads Qual é a diferençaWhat's different
DefaultDefault Servidor de arquivos de finalidade geral:General purpose file server:
  • Compartilhamentos de equipeTeam shares
  • Pastas de trabalhoWork Folders
  • Redirecionamento de pastaFolder redirection
  • Compartilhamentos de desenvolvimento de softwareSoftware development shares
  • Otimização em segundo planoBackground optimization
  • Política de otimização padrão:Default optimization policy:
    • Idade mínima do arquivo = 3 diasMinimum file age = 3 days
    • Otimizar arquivos em uso = NãoOptimize in-use files = No
    • Otimizar arquivos parciais = NãoOptimize partial files = No
Hyper-VHyper-V Servidores de VDI (Virtual Desktop Infrastructure)Virtualized Desktop Infrastructure (VDI) servers
  • Otimização em segundo planoBackground optimization
  • Política de otimização padrão:Default optimization policy:
    • Idade mínima do arquivo = 3 diasMinimum file age = 3 days
    • Otimizar arquivos em uso = SimOptimize in-use files = Yes
    • Otimizar arquivos parciais = SimOptimize partial files = Yes
  • Ajustes "nos bastidores" para interoperabilidade do Hyper-V"Under-the-hood" tweaks for Hyper-V interop
BackupBackup Aplicativos de backup virtualizado, como Microsoft DPM (Data Protection Manager)Virtualized backup applications, such as Microsoft Data Protection Manager (DPM)
  • Otimização da prioridadePriority optimization
  • Política de otimização padrão:Default optimization policy:
    • Idade mínima do arquivo = 0 diasMinimum file age = 0 days
    • Otimizar arquivos em uso = SimOptimize in-use files = Yes
    • Otimizar arquivos parciais = NãoOptimize partial files = No
  • Ajustes "nos bastidores" para interoperabilidade com soluções de DPM ou semelhantes a DPM"Under-the-hood" tweaks for interop with DPM/DPM-like solutions

TrabalhosJobs

A Eliminação de Duplicação de Dados usa uma estratégia de pós-processamento para otimizar e manter a eficiência do espaço de um volume.Data Deduplication uses a post-processing strategy to optimize and maintain a volume's space efficiency.

Nome do TrabalhoJob name Descrições do trabalhoJob descriptions Agendamento padrãoDefault schedule
OtimizaçãoOptimization O trabalho Otimização elimina a duplicação de dados fragmentando dados em um volume de acordo com as configurações de política de volume, compactando (opcionalmente) essas partes e as armazenando de forma exclusiva no repositório de partes.The Optimization job deduplicates by chunking data on a volume per the volume policy settings, (optionally) compressing those chunks, and storing chunks uniquely in the chunk store. O processo de otimização usado pela Eliminação de Duplicação de Dados está descrito detalhadamente em Como funciona a Eliminação de Duplicação de Dados?.The optimization process that Data Deduplication uses is described in detail in How does Data Deduplication work?. Uma vez a cada horaOnce every hour
Coleta de lixoGarbage Collection O trabalho Coleta de lixo recupera o espaço em disco removendo partes desnecessárias que não estão mais sendo referenciadas por arquivos modificados ou excluídos recentemente.The Garbage Collection job reclaims disk space by removing unnecessary chunks that are no longer being referenced by files that have been recently modified or deleted. Todo sábado às 2h35Every Saturday at 2:35 AM
Depuração de integridadeIntegrity Scrubbing O trabalho Depuração de integridade identifica danos no repositório de partes devido a falhas de disco ou setores inválidos.The Integrity Scrubbing job identifies corruption in the chunk store due to disk failures or bad sectors. Quando possível, a Eliminação de Duplicação de Dados pode usar automaticamente os recursos do volume (como espelhamento ou paridade em um volume de Espaços de Armazenamento) para reconstruir os dados corrompidos.When possible, Data Deduplication can automatically use volume features (such as mirror or parity on a Storage Spaces volume) to reconstruct the corrupted data. Além disso, a Eliminação de Duplicação de Dados guarda cópias de backup das partes populares quando elas são referenciadas mais de 100 vezes em uma área denominada ponto de acesso.Additionally, Data Deduplication keeps backup copies of popular chunks when they are referenced more than 100 times in an area called the hotspot. Todo sábado às 3h35Every Saturday at 3:35 AM
Cancelamento da otimizaçãoUnoptimization O trabalho Cancelamento da otimização, um trabalho especial que só pode ser executado manualmente, desfaz a otimização feita pela eliminação de duplicação e desabilita a Eliminação de Duplicação de Dados nesse volume.The Unoptimization job, which is a special job that should only be run manually, undoes the optimization done by deduplication and disables Data Deduplication for that volume. Somente sob demandaOn-demand only

Terminologia da eliminação de duplicação de dadosData Deduplication terminology

TermoTerm DefiniçãoDefinition
ChunkChunk Uma parte é uma seção de um arquivo que foi selecionada pelo algoritmo de fragmentação da Eliminação de Duplicação de Dados como algo provável de ocorrer em outros arquivos semelhantes.A chunk is a section of a file that has been selected by the Data Deduplication chunking algorithm as likely to occur in other, similar files.
Repositório de partesChunk store O repositório de partes é uma série organizada de arquivos de contêiner na pasta System Volume Information que a Eliminação de Duplicação de Dados usa para armazenar partes de forma exclusiva.The chunk store is an organized series of container files in the System Volume Information folder that Data Deduplication uses to uniquely store chunks.
eliminação de duplicaçãoDedup Uma abreviação da Eliminação de Duplicação de Dados usada normalmente no PowerShell, em APIs e componentes do Windows Server e na comunidade do Windows Server.An abbreviation for Data Deduplication that's commonly used in PowerShell, Windows Server APIs and components, and the Windows Server community.
Metadados de arquivoFile metadata Cada arquivo contém metadados que descrevem propriedades interessantes sobre o arquivo que não estão relacionadas ao conteúdo principal do arquivo.Every file contains metadata that describes interesting properties about the file that are not related to the main content of the file. Por exemplo, Data de criação, Data da última leitura, Autor, etc.For instance, Date Created, Last Read Date, Author, etc.
Fluxo de arquivosFile stream O fluxo de arquivos é o conteúdo principal do arquivo.The file stream is the main content of the file. Essa é a parte do arquivo que otimiza a Eliminação de Duplicação de Dados.This is the part of the file that Data Deduplication optimizes.
Sistema de arquivosFile system O sistema de arquivos é a estrutura de dados em disco e em software que o sistema operacional usa para armazenar arquivos na mídia de armazenamento.The file system is the software and on-disk data structure that the operating system uses to store files on storage media. Há suporte para a Eliminação de Duplicação de Dados em volumes formatados em NTFS.Data Deduplication is supported on NTFS formatted volumes.
Filtro de sistema de arquivosFile system filter Um filtro de sistema de arquivos é um plug-in que modifica o comportamento padrão do sistema de arquivos.A file system filter is a plugin that modifies the default behavior of the file system. Para preservar a semântica de acesso, a Eliminação de Duplicação de Dados usa um filtro de sistema de arquivos (Dedup.sys) para redirecionar leituras ao conteúdo otimizado de forma totalmente transparente para o usuário ou aplicativo que faz a solicitação de leitura.To preserve access semantics, Data Deduplication uses a file system filter (Dedup.sys) to redirect reads to optimized content completely transparently to the user or application that makes the read request.
OtimizaçãoOptimization Um arquivo será considerado otimizado (ou com duplicação eliminada) pela Eliminação de Duplicação de Dados se tiver sido fragmentado e suas partes exclusivas tiverem sido armazenadas no repositório de partes.A file is considered optimized (or deduplicated) by Data Deduplication if it has been chunked, and its unique chunks have been stored in the chunk store.
Política de otimizaçãoOptimization policy A política de otimização especifica os arquivos que devem ser considerados para Eliminação de Duplicação de Dados.The optimization policy specifies the files that should be considered for Data Deduplication. Por exemplo, os arquivos poderão ser considerados fora da política se forem totalmente novos, estiverem abertos, em um determinado caminho no volume ou se forem de um determinado tipo de arquivo.For example, files may be considered out-of-policy if they are brand new, open, in a certain path on the volume, or a certain file type.
Ponto de nova análiseReparse point Um ponto de nova análise é uma marca especial que notifica o sistema de arquivos para passar as E/S a um filtro de sistema de arquivos especificado.A reparse point is a special tag that notifies the file system to pass off I/O to a specified file system filter. Quando o fluxo de arquivos do arquivo tiver sido otimizado, a Eliminação de Duplicação de Dados substitui o fluxo de arquivos por um ponto de nova análise, que permite à Eliminação de Duplicação de Dados preservar a semântica de acesso nesse arquivo.When a file's file stream has been optimized, Data Deduplication replaces the file stream with a reparse point, which enables Data Deduplication to preserve the access semantics for that file.
VolumeVolume Um volume é uma construção do Windows para uma unidade de armazenamento lógico que pode abranger vários dispositivos de armazenamento físicos em um ou mais servidores.A volume is a Windows construct for a logical storage drive that may span multiple physical storage devices across a one or more servers. A Eliminação de duplicação é habilitada de acordo com o volume.Deduplication is enabled on a volume-by-volume basis.
Carga de trabalhoWorkload Uma carga de trabalho é um aplicativo executado no Windows Server.A workload is an application that runs on Windows Server. Entre os exemplos de carga de trabalho de exemplo estão o servidor de arquivos de finalidade geral, Hyper-V e o SQL Server.Example workloads include general purpose file server, Hyper-V, and SQL Server.

Aviso

A menos que seja indicado pela Equipe de suporte autorizada da Microsoft, não tente modificar manualmente o repositório de partes.Unless instructed by authorized Microsoft Support Personnel, do not attempt to manually modify the chunk store. Isso pode resultar em corrupção ou perda de dados.Doing so may result in data corruption or loss.

Perguntas frequentesFrequently asked questions

Como a eliminação de duplicação de dados se diferem de outros produtos de otimização?How does Data Deduplication differ from other optimization products?
Há várias diferenças importantes entre a Eliminação de Duplicação de Dados e outros produtos de otimização de armazenamento comuns:There are several important differences between Data Deduplication and other common storage optimization products:

  • Como a eliminação de duplicação de dados se diferem de Store de instância única?How does Data Deduplication differ from Single Instance Store?
    O Single Instance Store, ou o SIS, é uma tecnologia anterior à Eliminação de Duplicação de Dados e foi introduzida pela primeira vez no Windows Storage Server 2008 R2.Single Instance Store, or SIS, is a technology that preceded Data Deduplication and was first introduced in Windows Storage Server 2008 R2. Para otimizar um volume, o Single Instance Store identifica os arquivos completamente idênticos e os substitui por links lógico em uma única cópia de um arquivo armazenado no armazenamento comum do SIS.To optimize a volume, Single Instance Store identified files that were completely identical and replaced them with logical links to a single copy of a file that's stored in the SIS common store. Ao contrário do Single Instance Store, a Eliminação de Duplicação de Dados pode conseguir uma economia de espaço dos arquivos que não são idênticos, mas que compartilham muitos padrões comuns, e de arquivos que contêm vários padrões repetidos.Unlike Single Instance Store, Data Deduplication can get space savings from files that are not identical but share many common patterns and from files that themselves contain many repeated patterns. O Single Instance Store foi preterido no Windows Server 2012 R2 e removido no Windows Server 2016 em favor da Eliminação de Duplicação de Dados.Single Instance Store was deprecated in Windows Server 2012 R2 and removed in Windows Server 2016 in favor of Data Deduplication.

  • Como a eliminação de duplicação de dados difere da compactação NTFS?How does Data Deduplication differ from NTFS compression?
    A compactação NTFS é um recurso do NTFS que você pode habilitar opcionalmente no nível do volume.NTFS compression is a feature of NTFS that you can optionally enable at the volume level. Com a compactação NTFS, cada arquivo é otimizado individualmente por meio de compactação no momento da gravação.With NTFS compression, each file is optimized individually via compression at write-time. Ao contrário da compactação NTFS, a Eliminação de Duplicação de Dados pode conseguir economia de espaço em todos os arquivos em um volume.Unlike NTFS compression, Data Deduplication can get spacing savings across all the files on a volume. Isso é melhor do que a compactação NTFS, porque ambos os arquivos podem ter uma duplicação interna (solucionada pela compactação NTFS) e ter semelhanças com outros arquivos no volume (não solucionado pela compactação NTFS).This is better than NTFS compression because files may have both internal duplication (which is addressed by NTFS compression) and have similarities with other files on the volume (which is not addressed by NTFS compression). Além disso, a Eliminação de Duplicação de Dados tem um modelo de pós-processamento, o que significa que arquivos novos ou modificados serão gravadas em disco de forma não otimizada e serão otimizados posteriormente pela Eliminação de Duplicação de Dados.Additionally, Data Deduplication has a post-processing model, which means that new or modified files will be written to disk unoptimized and will be optimized later by Data Deduplication.

  • Como a eliminação de duplicação de dados difere dos formatos de arquivo morto como zip, rar, 7z, cab, etc.?How does Data Deduplication differ from archive file formats like zip, rar, 7z, cab, etc.?
    Os formatos de arquivo morto zip, rar, 7z, cab, etc. executam a compactação em um conjunto especificado de arquivos.Archive file formats, like zip, rar, 7z, cab, etc., perform compression over a specified set of files. Como a Eliminação de Duplicação de Dados, padrões duplicados dentro de arquivos e padrões duplicados em arquivos são otimizados.Like Data Deduplication, duplicated patterns within files and duplicated patterns across files are optimized. No entanto, você precisa escolher os arquivos que você deseja incluir no arquivo morto.However, you have to choose the files that you want to include in the archive. A semântica de acesso também é diferente.Access semantics are different, too. Para acessar um arquivo específico dentro do arquivo morto, você precisa abrir o arquivo morto, selecionar um arquivo específico e descompactar esse arquivo para uso.To access a specific file within the archive, you have to open the archive, select a specific file, and decompress that file for use. A Eliminação de Duplicação de Dados opera de forma transparente para usuários e administradores e não exige qualquer inicialização manual.Data Deduplication operates transparently to users and administrators and requires no manual kick-off. Além disso, a Eliminação de Duplicação de Dados preserva a semântica de acesso: os arquivos otimizados aparecem inalterados após a otimização.Additionally, Data Deduplication preserves access semantics: optimized files appear unchanged after optimization.

Posso alterar as configurações de eliminação de duplicação de dados para o meu tipo de uso selecionado?Can I change the Data Deduplication settings for my selected Usage Type?
Sim.Yes. Embora a Eliminação de Duplicação de Dados forneça padrões razoáveis para Cargas de trabalho recomendadas, ainda convém ajustar as configurações da Eliminação de Duplicação de Dados para obter o máximo proveito de seu armazenamento.Although Data Deduplication provides reasonable defaults for Recommended workloads, you might still want to tweak Data Deduplication settings to get the most out of your storage. Além disso, outras cargas de trabalho exigirão alguns ajustes para garantir que a Eliminação de Duplicação de Dados não interfira com a carga de trabalho.Additionally, other workloads will require some tweaking to ensure that Data Deduplication does not interfere with the workload.

Posso executar manualmente um trabalho de eliminação de duplicação de dados?Can I manually run a Data Deduplication job?
Sim, todos os trabalhos de Eliminação de Duplicação de Dados podem ser executados manualmente.Yes, all Data Deduplication jobs may be run manually. Isso pode ser desejável se os trabalhos agendados não tiverem sido executados por falta de recursos do sistema ou por um erro.This may be desirable if scheduled jobs did not run due to insufficient system resources or because of an error. Além disso, o cancelamento da otimização do trabalho pode ser executado manualmente.Additionally, the Unoptimization job can only be run manually.

Para monitorar os resultados históricos de trabalhos de eliminação de duplicação de dados?Can I monitor the historical outcomes of Data Deduplication jobs?
Sim, todos os trabalhos de Eliminação de Duplicação de Dados criam entradas no Log de Eventos do Windows.Yes, all Data Deduplication jobs make entries in the Windows Event Log.

Pode alterar os agendamentos padrão para os trabalhos de eliminação de duplicação de dados em meu sistema?Can I change the default schedules for the Data Deduplication jobs on my system?
Sim, todas as agendas são configuráveis.Yes, all schedules are configurable. A modificação das agendas padrão da Eliminação de Duplicação de Dados é especialmente desejável para garantir que os trabalhos da Eliminação de Duplicação de Dados tenham tempo para concluir e não compitam por recursos com a carga de trabalho.Modifying the default Data Deduplication schedules is particularly desirable to ensure that the Data Deduplication jobs have time to finish and do not compete for resources with the workload.