Vue d’ensemble de la déduplication des données

S’applique à : Windows Server 2022, Windows Server 2019, Windows Server 2016, Azure Stack HCI versions 21H2 et 20H2

Qu’est-ce que la déduplication des données ?

La déduplication des données, souvent appelée tout simplement déduplication, est une fonctionnalité qui permet de réduire l’impact des données redondantes sur les coûts de stockage. Quand elle est activée, la déduplication des données optimise l’espace libre sur un volume en examinant les données qu’il contient et en recherchant les parties dupliquées sur le volume. Les parties dupliquées du jeu de données du volume sont stockées une seule fois et sont (éventuellement) compressées pour réaliser encore plus d’économies. La déduplication des données permet d’optimiser les redondances sans compromettre la fidélité ni l’intégrité des données. Vous trouverez un complément d’informations sur le fonctionnement de la déduplication des données dans la section « Fonctionnement de la déduplication des données » de la page Présentation de la déduplication des données.

Important

KB4025334 contient un cumul de correctifs pour la déduplication des données, y compris des correctifs de fiabilité importants. Nous vous recommandons vivement de l’installer lorsque vous utilisez la déduplication des données avec Windows Server 2016 et Windows Server 2019.

Pourquoi la déduplication des données est-elle utile ?

La déduplication des données permet aux administrateurs du stockage de réduire les coûts associés aux données dupliquées. Les jeux de données volumineux impliquent souvent beaucoup de duplication, laquelle augmente les coûts du stockage des données. Par exemple :

  • Les partages de fichiers utilisateur peuvent comporter de nombreuses copies de fichiers identiques ou très similaires.
  • Les invités de virtualisation peuvent être presque identiques d’une machine virtuelle à l’autre.
  • Les instantanés de sauvegarde peuvent afficher des différences mineures d’un jour à l’autre.

L’espace que vous pouvez gagner avec la déduplication des données dépend du jeu de données ou de la charge de travail au niveau du volume. Les jeux de données qui présentent une duplication élevée peuvent obtenir des taux d’optimisation allant jusqu’à 95 % ou une utilisation du stockage divisée par 20. Le tableau ci-dessous met en relief les économies réalisées par une déduplication standard sur différents types de contenu :

Scénario Contenu Gains d’espace types
Documents utilisateur Documents Office, photos, musique, vidéos, etc. 30-50 %
Partages de déploiement Fichiers binaires de logiciels, fichiers cab, symboles, etc. 70-80 %
Bibliothèques de virtualisation Fichiers ISO, fichiers de disque dur virtuel, etc. 80-95 %
Partage de fichiers général Toutes les propositions ci-dessus 50-60 %

Notes

Si vous cherchez juste à libérer de l’espace sur un volume, envisagez d’utiliser Azure File Sync avec la hiérarchisation cloud activée. Il vous permet de mettre en cache vos fichiers les plus fréquemment sollicités localement et de hiérarchiser vos fichiers les moins fréquemment sollicités dans le cloud. Ainsi, vous économisez de l’espace de stockage local tout en maintenant les performances. Pour obtenir des détails, consultez Planification d’un déploiement Azure File Sync.

Quand la déduplication des données peut-elle être utilisée ?

Illustration de scénario Description
Illustration of file servers. Serveurs de fichiers à usage général : les serveurs de fichiers à usage général sont des serveurs de fichiers qui peuvent contenir l’un des types de partage suivants :
  • Partages d’équipe
  • Dossiers de base d’utilisateur
  • Dossiers de travail
  • Partages de développement de logiciels
Les serveurs de fichiers à usage général conviennent parfaitement à la déduplication des données, car les divers utilisateurs ont tendance à avoir plusieurs copies ou versions d’un même fichier. Les partages de développement logiciel tirent profit de la déduplication des données, car de nombreux fichiers binaires restent pratiquement inchangés d’une build à une autre.
Illustration of VDI servers. Déploiements de l’infrastructure de bureau virtuel (VDI) : les serveurs VDI, comme les Services Bureau à distance, offrent une option allégée aux organisations qui veulent approvisionner des postes de travail pour leurs utilisateurs. Il existe de nombreuses raisons pour qu’une organisation s’appuie sur cette technologie :
  • Déploiement d’applications : vous pouvez déployer rapidement des applications dans toute votre entreprise. Cette possibilité s’avère particulièrement utile quand vous avez des applications qui sont fréquemment mises à jour, peu utilisées ou difficiles à gérer.
  • Consolidation des applications : quand vous installez et exécutez des applications à partir d’un ensemble de machines virtuelles gérées de manière centralisée, vous n’avez plus besoin de les mettre à jour sur les ordinateurs clients. Cette option a aussi pour effet de réduire la quantité de bande passante réseau nécessaire pour accéder aux applications.
  • Accès à distance : les utilisateurs peuvent accéder à des applications d’entreprise à partir d’appareils tels que les ordinateurs personnels et les bornes, le matériel de faible puissance et les systèmes d’exploitation autres que Windows.
  • Accès aux filiales : les déploiements VDI permettent d’obtenir de meilleures performances d’application pour les employés de filiale qui ont besoin d’accéder à des magasins de données centralisés. Les applications gourmandes en données ne disposent parfois pas de protocoles client/serveur optimisés pour les connexions lentes.
Les déploiements VDI conviennent parfaitement à la déduplication des données, car les disques durs virtuels qui pilotent les postes de travail à distance pour les utilisateurs sont globalement identiques. De plus, la déduplication des données peut être utile face à aux tempêtes VDI de démarrage, à savoir la chute des performances de stockage au moment où un grand nombre d’utilisateurs se connectent simultanément à leur ordinateur en début de journée.
Illustration of backup applications. Les cibles de sauvegarde, telles que les applications de sauvegarde virtualisées : les applications de sauvegarde, telles que Microsoft Data Protection Manager (DPM), constituent d’excellents candidats à la déduplication des données en raison de la duplication significative entre les instantanés de sauvegarde.
Illustration of other workloads. Autres charges de travail : d’autres charges de travail peuvent également convenir parfaitement à la déduplication des données.