Definir a arquitetura, os componentes e a funcionalidade da Eliminação de Duplicação de Dados

Concluído

A maioria das organizações e empresas, incluindo a Contoso, precisa lidar com o processamento e o armazenamento de um volume crescente de dados. Embora existam soluções que permitem descarregar e arquivar dados na nuvem, em muitos casos, é necessário mantê-los em datacenters locais. A gestão eficiente do armazenamento desses dados requer ferramentas adequadas. Ao usar o Windows Server, você tem a opção de usar para essa finalidade a Eliminação de Duplicação de Dados.

O que é a Eliminação de Dados Duplicados?

A Desduplicação de Dados é um serviço de função do Windows Server que identifica e remove duplicações nos dados sem comprometer a integridade dos dados. Isso atinge os objetivos de armazenar mais dados e usar menos espaço físico em disco.

Para reduzir a utilização do disco, a Eliminação de Duplicação de Dados verifica os arquivos, divide esses arquivos em partes e retém apenas uma cópia de cada bloco. Após a desduplicação, os arquivos não são mais armazenados como fluxos independentes de dados. Em vez disso, a Desduplicação de Dados substitui os arquivos por stubs que apontam para blocos de dados que ele armazena em um armazenamento de bloco comum. O processo de acesso a dados desduplicados é completamente transparente para usuários e aplicativos.

Em muitos casos, a Duplicação de Dados aumenta o desempenho geral do disco, porque vários arquivos podem compartilhar um pedaço armazenado em cache na memória. Dessa forma, pode ser possível recuperar dados desses arquivos executando menos operações de leitura, o que compensa um pequeno impacto no desempenho ao ler arquivos desduplicados. A desduplicação de dados não tem impacto no desempenho das gravações em disco porque se aplica aos dados que já estão no disco.

The concept of data deduplication, which replaces multiple copies of the same data with pointers to the chunk store, containing a single data instance.

Quais são os componentes da Desduplicação de Dados?

O serviço de função Eliminação de Duplicação de Dados consiste nos seguintes componentes:

  • Driver de filtro. Esse componente redireciona as solicitações de leitura para as partes que fazem parte do arquivo que está sendo solicitado. Há um driver de filtro para cada volume.
  • Serviço de desduplicação. Este componente gerencia os seguintes trabalhos:
    • Desduplicação e compressão. Esses trabalhos processam arquivos de acordo com a política de desduplicação de dados para o volume. Após a otimização inicial de um arquivo, se o arquivo for modificado e atender ao limite da política de desduplicação de dados para otimização, o arquivo será otimizado novamente.
    • Recolha de Lixo. Esse trabalho processa dados excluídos ou modificados no volume para que todos os blocos de dados que não estão mais sendo referenciados sejam limpos, gerando espaço livre em disco. Por padrão, a Coleta de Lixo é executada semanalmente, no entanto, você também pode considerar invocá-la depois de excluir muitos arquivos.
    • Depuração. Esse trabalho depende de recursos de resiliência como validação de soma de verificação e verificação de consistência de metadados para identificar e, sempre que possível, resolver automaticamente problemas de integridade de dados.

Nota

Devido aos recursos adicionais de validação, a desduplicação pode detetar e relatar os primeiros sinais de corrupção de dados.

  • Desotimização. Esse trabalho reverte a desduplicação em todos os arquivos otimizados no volume. Alguns dos cenários comuns para usar esse tipo de trabalho incluem a solução de problemas com dados desduplicados ou a migração de dados para outro sistema que não oferece suporte à Desduplicação de Dados.

Nota

Antes de iniciar este trabalho, você deve usar o cmdlet do Disable-DedupVolume Windows PowerShell para desabilitar mais atividades de desduplicação de dados em um ou mais volumes.

Nota

Depois de desativar a Desduplicação de Dados, o volume permanece no estado desduplicado e os dados desduplicados existentes permanecem acessíveis; No entanto, o servidor para de executar trabalhos de otimização para o volume e não desduplica os novos dados. Depois, você pode usar o trabalho de desotimização para desfazer os dados desduplicados existentes em um volume. No final de um trabalho de desotimização bem-sucedido, todos os metadados de desduplicação de dados são excluídos do volume.

Importante

Ao usar o trabalho de desotimização, certifique-se de verificar se o volume que hospeda esses dados tem espaço livre suficiente, porque todos os arquivos desduplicados serão revertidos para seu tamanho original.

The architecture of Data Deduplication, including file driver, deduplication service, its jobs, and the underlying file system chunk store.

Âmbito da eliminação da duplicação de dados

A Desduplicação de Dados processa todos os dados em um volume selecionado, com algumas exceções, incluindo:

  • Arquivos que não atendem à política de desduplicação configurada.
  • Arquivos em pastas que você exclui explicitamente do escopo da desduplicação.
  • Arquivos de estado do sistema.
  • Fluxos de dados alternados.
  • Ficheiros encriptados.
  • Arquivos com atributos estendidos.
  • Ficheiros com menos de 32 KB.

Nota

Desde o Windows Server 2019, o Resilient File System (ReFS) oferece suporte à desduplicação de dados para volumes de até 64 terabytes (TB) de tamanho e arquivos de até 4 TB. Ele também depende de um armazenamento de partes de tamanho variável que inclui compactação opcional para maximizar a economia de espaço em disco, enquanto a arquitetura de pós-processamento de vários threads mantém o impacto no desempenho mínimo.