Introducción a la desduplicación de datos

Se aplica a: Windows Server 2022, Windows Server 2019, Windows Server 2016; Azure Stack HCI, versiones 21H2 y 20H2

¿Qué es Desduplicación de datos?

Desduplicación de datos, a menudo llamada Dedud para abreviar, es una característica que puede ayudar a reducir el impacto de los datos redundantes en el coste de almacenamiento. Cuando está habilitada, Desduplicación de datos optimiza el espacio libre en un volumen mediante el examen de los datos del volumen en busca de partes duplicadas en el volumen. Las partes duplicadas del conjunto de datos del volumen se almacenan una vez y, opcionalmente, se comprimen para un ahorro adicional. Desduplicación de datos optimiza redundancias sin poner en peligro la integridad o fidelidad de datos. Encontrará más información sobre cómo funciona Desduplicación de datos en la sección ¿Cómo funciona Desduplicación de datos? de la página Información acerca de Desduplicación de datos.

Importante

KB4025334 contiene una serie de acumulaciones de correcciones para Desduplicación de datos, incluidas correcciones de confiabilidad importantes, y se recomienda encarecidamente su instalación cuando se utilice Desduplicación de datos con Windows Server 2016 y Windows Server 2019.

¿Por qué es útil Desduplicación de datos?

Desduplicación de datos ayuda a los administradores de almacenamiento a reducir los costos asociados a los datos duplicados. Los grandes conjuntos de datos con frecuencia tienen una gran cantidad de duplicación, lo que aumenta los costos de almacenamiento de datos. Por ejemplo:

  • Los recursos compartidos de archivos de usuario pueden tener varias copias de los mismos archivos o de archivos similares.
  • Los invitados de virtualización pueden ser prácticamente idénticos de una máquina virtual a otra.
  • Las instantáneas de copia de seguridad pueden tener diferencias menores de un día a otro.

Los ahorros de espacio que pueden obtenerse con Desduplicación de datos dependen del conjunto de datos o de la carga de trabajo en el volumen. Los conjuntos de datos con alta duplicación podrían ver tasas de optimización de hasta el 95 % o una reducción de 20 veces del uso del almacenamiento. En la tabla siguiente se destacan los ahorros típicos que produce la desduplicación para diferentes tipos de contenido:

Escenario Contenido Ahorro de espacio típico
Documentos de usuario Documentos de Office, fotos, música, vídeos, etc. 30-50 %
Recursos compartidos de implementación Archivos binarios de software, archivos CAB, símbolos, etc. 70-80 %
Bibliotecas de virtualización ISO, archivos de disco duro virtual, etc. 80-95 %
Recursos compartidos de archivos generales Todo lo anterior 50-60 %

Nota

Si solo busca liberar espacio en un volumen, considere la posibilidad de usar Azure File Sync con los niveles de nube habilitados. Esto le permite almacenar en la caché los archivos a los que se accede con más frecuencia de forma local y organizar los archivos a los que se accede con menos frecuencia en la nube, lo que ahorra espacio de almacenamiento local a la vez que se mantiene el rendimiento. Para obtener más información, consulte Planeamiento de una implementación de Azure File Sync.

¿Cuando se utiliza Desduplicación de datos?

Ilustración de escenario Descripción
Illustration of file servers. Los servidores de archivos de uso general: son los servidores de archivos destinados a un uso general que pueden contener alguno de los siguientes tipos de recursos compartidos:
  • Recursos compartidos del equipo
  • Carpetas particulares de usuario
  • Carpetas de trabajo
  • Recursos compartidos de desarrollo de software
Los servidores de archivos de uso general son un buen candidato para Desduplicación de datos debido a que los usuarios suelen tener muchas copias o versiones del mismo archivo. Los recursos compartidos de desarrollo de software se benefician de Desduplicación de datos porque muchos de los archivos binarios permanecen sin modificarse de una compilación a otra.
Illustration of VDI servers. Implementaciones de Infraestructura de escritorio virtual (VDI): los servidores VDI, como Servicios de Escritorio remoto, proporcionan una opción ligera para que las organizaciones aprovisionen de escritorios a los usuarios. Hay muchas razones para que una organización dependa de esa tecnología:
  • Implementación de aplicaciones: puede implementar rápidamente las aplicaciones en toda la empresa. Esto es especialmente útil cuando tiene aplicaciones que se actualizan con frecuencia, se usan con poca frecuencia o son difíciles de administrar.
  • Consolidación de aplicaciones: al instalar y ejecutar aplicaciones desde un conjunto de máquinas virtuales administradas centralmente, se elimina la necesidad de actualizar las aplicaciones en los equipos cliente. Esta opción también reduce la cantidad de ancho de banda de red que se necesita para acceder a las aplicaciones.
  • Acceso remoto: los usuarios pueden acceder a aplicaciones empresariales desde dispositivos como equipos domésticos, quioscos, hardware de baja potencia y sistemas operativos distintos de Windows.
  • Acceso a sucursales: las implementaciones de VDI pueden proporcionar un mejor rendimiento de la aplicación para los empleados de sucursales que necesitan acceder a los almacenes de datos centralizados. A veces las aplicaciones con un uso intensivo de datos no tienen protocolos cliente/servidor optimizados para conexiones de baja velocidad.
Las implementaciones de VDI son excelentes candidatas para Desduplicación de datos porque los discos duros virtuales que llevan los Escritorios remotos a los usuarios son prácticamente idénticos. Además, Desduplicación de datos puede ayudarle con los arranques simultáneos de VDI (lo que se conoce como boot storm), que reduce el rendimiento de almacenamiento cuando muchos usuarios inician sesión en el escritorio al mismo tiempo a la vez al comienzo del día.
Illustration of backup applications. Destinos de copia de seguridad, como las aplicaciones de copia de seguridad virtualizadas: las aplicaciones de copia de seguridad, como Microsoft Data Protection Manager (DPM), son candidatas perfectas para Desduplicación de datos debido a una duplicación significativa entre las instantáneas de copia de seguridad.
Illustration of other workloads. Otras cargas de trabajo: otras cargas de trabajo también pueden ser candidatas perfectas para Desduplicación de datos.