Pasang dan aktifkan Deduplikasi Data

Berlaku untuk: Windows Server 2022, Windows Server 2019, Windows Server 2016, Azure Stack HCI, versi 21H2 dan 20H2

Topik ini menjelaskan cara menginstal Deduplikasi Data, mengevaluasi beban kerja untuk deduplikasi, dan mengaktifkan Deduplikasi Data pada volume tertentu.

Catatan

Jika Anda berencana untuk menjalankan Deduplikasi Data di Kluster Failover, setiap simpul dalam kluster harus menginstal peran server Deduplikasi Data.

Menginstal Deduplikasi Data

Penting

KB4025334 berisi roll up perbaikan untuk Deduplikasi Data, termasuk perbaikan keandalan penting, dan kami sangat menyarankan untuk menginstalnya saat menggunakan Deduplikasi Data dengan Windows Server 2016.

Menginstal Deduplikasi Data dengan menggunakan Manajer Server

  1. Di wizard Tambahkan Peran dan Fitur, pilih Peran Server, lalu pilih Deduplikasi Data. Install Data Deduplication via Server Manager: select Data Deduplication from Server Roles
  2. Klik Berikutnya hingga tombol Instal aktif, lalu klik Instal. Install Data Deduplication via Server Manager: click install

Menginstal Deduplikasi Data dengan menggunakan PowerShell

Untuk menginstal Deduplikasi Data, jalankan perintah PowerShell berikut ini sebagai administrator: Install-WindowsFeature -Name FS-Data-Deduplication

Untuk menginstal Deduplikasi Data dalam penginstalan Nano Server:

  1. Buat penginstalan Nano Server dengan Storage terinstal seperti yang dijelaskan dalam Memulai Nano Server.

  2. Dari server yang menjalankan Windows Server 2016 dalam mode apa pun selain Nano Server, atau dari PC Windows dengan Remote Server Administration Tools (RSAT) terinstal, instal Deduplikasi Data dengan referensi eksplisit ke instans Nano Server (ganti 'MyNanoServer' dengan nama asli instans Nano Server):

     Install-WindowsFeature -ComputerName <MyNanoServer> -Name FS-Data-Deduplication
    

    -- ATAU --
    Koneksi dari jarak jauh ke instans Nano Server dengan PowerShell jarak jauh dan instal Deduplikasi Data dengan menggunakan DISM:
     Enter-PSSession -ComputerName MyNanoServer
     dism /online /enable-feature /featurename:dedup-core /all
    

Aktifkan Deduplikasi Data

Menentukan beban kerja mana yang merupakan kandidat untuk Deduplikasi Data

Deduplikasi Data dapat secara efektif meminimalkan biaya konsumsi data aplikasi server dengan mengurangi jumlah ruang disk yang dikonsumsi oleh data yang berlebihan. Sebelum mengaktifkan deduplikasi, penting bagi Anda untuk memahami karakteristik beban kerja Anda untuk memastikan bahwa Anda mendapatkan performa maksimum dari penyimpanan Anda. Ada dua kelas beban kerja yang perlu dipertimbangkan:

  • Beban kerja yang direkomendasikan yang telah terbukti memiliki kedua himpunan data yang mendapat manfaat tinggi dari deduplikasi dan memiliki pola konsumsi sumber daya yang kompatibel dengan model pasca-pemrosesan Data Deduplication. Kami menyarankan agar Anda selalu mengaktifkan Deduplikasi Data pada beban kerja ini:
    • Server file tujuan umum (GPFS) yang melayani berbagi seperti berbagi tim, folder beranda pengguna, folder kerja, dan berbagi pengembangan perangkat lunak.
    • Server infrastruktur desktop virtual (VDI).
    • Aplikasi cadangan virtual, seperti Microsoft Data Protection Manager (DPM).
  • Beban kerja yang mungkin mendapat manfaat dari deduplikasi, tetapi tidak selalu merupakan kandidat yang baik untuk deduplikasi. Misalnya, beban kerja berikut dapat bekerja dengan baik dengan deduplikasi, tetapi Anda harus mengevaluasi manfaat deduplikasi terlebih dahulu:
    • Host Hyper-V tujuan umum
    • Server SQL
    • Server lini bisnis (LOB)

Mengevaluasi beban kerja untuk Deduplikasi Data

Penting

Jika Anda menjalankan beban kerja yang direkomendasikan, Anda dapat melewati bagian ini dan masuk ke Aktifkan Deduplikasi Data untuk beban kerja Anda.

Untuk menentukan apakah beban kerja berfungsi dengan baik dengan deduplikasi, jawab pertanyaan berikut. Jika Anda tidak yakin tentang beban kerja, pertimbangkan untuk melakukan penyebaran pilot Deduplikasi Data pada himpunan data pengujian untuk beban kerja Anda untuk melihat performanya.

  1. Apakah himpunan data beban kerja saya memiliki duplikasi yang cukup untuk mendapatkan manfaat dari mengaktifkan deduplikasi? Sebelum mengaktifkan Deduplikasi Data untuk beban kerja, selidiki berapa banyak duplikasi yang dimiliki himpunan data beban kerja Anda dengan menggunakan alat Evaluasi Penghematan Deduplikasi Data, atau DDPEval. Setelah menginstal Deduplikasi Data, Anda dapat menemukan alat ini di C:\Windows\System32\DDPEval.exe. DDPEval dapat mengevaluasi potensi pengoptimalan terhadap volume yang terhubung langsung (termasuk drive lokal atau Volume Bersama Kluster) dan berbagi jaringan yang dipetakan atau tidak dipetakan.

    Menjalankan DDPEval.exe akan mengembalikan output yang mirip dengan yang berikut ini:

     Data Deduplication Savings Evaluation Tool
     Copyright 2011-2012 Microsoft Corporation.  All Rights Reserved.
    
     Evaluated folder: E:\Test
     Processed files: 34
     Processed files size: 12.03MB
     Optimized files size: 4.02MB
     Space savings: 8.01MB
     Space savings percent: 66
     Optimized files size (no compression): 11.47MB
     Space savings (no compression): 571.53KB
     Space savings percent (no compression): 4
     Files with duplication: 2
     Files excluded by policy: 20
     Files excluded by error: 0
    
  2. Seperti apa pola I/O beban kerja saya ke himpunan datanya? Performa apa yang saya miliki untuk beban kerja saya? Deduplikasi Data mengoptimalkan file sebagai pekerjaan berkala, bukan ketika file ditulis ke disk. Akibatnya, penting untuk memeriksa adalah pola baca beban kerja yang diharapkan ke volume yang dideduplikasi. Karena Deduplikasi Data memindahkan konten file ke Penyimpanan Gugus dan mencoba mengatur Chunk Store menurut file sebanyak mungkin, operasi baca berkinerja terbaik ketika diterapkan ke rentang berurutan file.

    Beban kerja seperti database biasanya memiliki pola baca yang lebih acak daripada pola baca berurutan karena database biasanya tidak menjamin bahwa tata letak database akan optimal untuk semua kueri yang mungkin dijalankan. Karena bagian Dari Chunk Store mungkin ada di seluruh volume, mengakses rentang data di Chunk Store untuk kueri database dapat menimbulkan latensi tambahan. Beban kerja performa tinggi sangat sensitif terhadap latensi ekstra ini, tetapi beban kerja seperti database lainnya mungkin tidak.

    Catatan

    Kekhawatiran ini terutama berlaku untuk beban kerja penyimpanan pada volume yang terdiri dari media penyimpanan rotasi tradisional (juga dikenal sebagai hard disk drive, atau HDD). Infrastruktur penyimpanan all-flash (juga dikenal sebagai drive Solid State Disk, atau SSD), kurang terpengaruh oleh pola I/O acak karena salah satu properti media flash adalah waktu akses yang sama ke semua lokasi di media. Oleh karena itu, deduplikasi tidak akan memperkenalkan jumlah latensi yang sama untuk bacaan ke himpunan data beban kerja yang disimpan di media all-flash seperti pada media penyimpanan rotasi tradisional.

  3. Apa saja persyaratan sumber daya beban kerja saya di server? Karena Deduplikasi Data menggunakan model pasca-pemrosesan, Deduplikasi Data secara berkala perlu memiliki sumber daya sistem yang memadai untuk menyelesaikan pengoptimalannya dan pekerjaan lainnya. Ini berarti bahwa beban kerja yang memiliki waktu diam, seperti di malam hari atau pada akhir pekan, adalah kandidat yang sangat baik untuk deduplikasi, dan beban kerja yang berjalan sepanjang hari, setiap hari mungkin tidak. Beban kerja yang tidak memiliki waktu menganggur mungkin masih menjadi kandidat yang baik untuk deduplikasi jika beban kerja tidak memiliki persyaratan sumber daya yang tinggi di server.

Aktifkan Deduplikasi Data

Sebelum mengaktifkan Deduplikasi Data, Anda harus memilih Jenis Penggunaan yang paling menyerupai beban kerja Anda. Ada tiga Jenis Penggunaan yang disertakan dengan Deduplikasi Data.

Mengaktifkan Deduplikasi Data dengan menggunakan Manajer Server

  1. Pilih File dan Layanan Storage di Manajer Server. Click File and Storage Services
  2. Pilih Volume dari File dan Layanan Storage. Click Volumes
  3. Klik kanan volume yang diinginkan dan pilih Konfigurasikan Deduplikasi Data. Click Configure Data Deduplication
  4. Pilih Jenis Penggunaan yang diinginkan dari kotak drop-down dan pilih OK. Select the desired Usage Type from the drop down
  5. Jika Anda menjalankan beban kerja yang direkomendasikan, Anda sudah selesai. Untuk beban kerja lainnya, lihat Pertimbangan lain.

Catatan

Anda dapat menemukan informasi selengkapnya tentang mengecualikan ekstensi atau folder file dan memilih jadwal deduplikasi, termasuk mengapa Anda ingin melakukan ini, dalam Mengonfigurasi Deduplikasi Data.

Mengaktifkan Deduplikasi Data dengan menggunakan PowerShell

  1. Dengan konteks administrator, jalankan perintah PowerShell berikut ini:

     Enable-DedupVolume -Volume <Volume-Path> -UsageType <Selected-Usage-Type>
    
  2. Jika Anda menjalankan beban kerja yang direkomendasikan, Anda sudah selesai. Untuk beban kerja lainnya, lihat Pertimbangan lain.

Catatan

Cmdlet PowerShell Deduplikasi Data, termasuk Enable-DedupVolume, dapat dijalankan dari jarak jauh dengan menambahkan -CimSession parameter dengan Sesi CIM. Ini sangat berguna untuk menjalankan cmdlet PowerShell Deduplikasi Data dari jarak jauh terhadap instans Nano Server. Untuk membuat Sesi CIM baru, jalankan New-CimSession.

Pertimbangan lain

Penting

Jika Anda menjalankan beban kerja yang direkomendasikan, Anda dapat melewati bagian ini.

Pertanyaan Umum (FAQ)

Saya ingin menjalankan Deduplikasi Data pada himpunan data untuk beban kerja X. Apakah ini didukung? Selain beban kerja yang diketahui tidak beroperasi dengan Deduplikasi Data, kami sepenuhnya mendukung integritas data Deduplikasi Data dengan beban kerja apa pun. Beban kerja yang direkomendasikan juga didukung oleh Microsoft untuk performa. Performa beban kerja lain sangat tergantung pada apa yang mereka lakukan di server Anda. Anda harus menentukan performa apa yang berdampak pada Deduplikasi Data pada beban kerja Anda, dan apakah ini dapat diterima untuk beban kerja ini.

Apa saja persyaratan ukuran volume untuk volume yang dideduplikasi? Dalam Windows Server 2012 dan Windows Server 2012 R2, volume harus berukuran hati-hati untuk memastikan bahwa Deduplikasi Data dapat mengikuti churn pada volume. Ini biasanya berarti bahwa ukuran maksimum rata-rata volume deduplikasi untuk beban kerja churn tinggi adalah 1-2 TB, dan ukuran maksimum absolut yang direkomendasikan adalah 10 TB. Di Windows Server 2016, batasan ini dihapus. Untuk informasi selengkapnya, lihat Apa yang baru dalam Deduplikasi Data.

Apakah saya perlu mengubah jadwal atau pengaturan Deduplikasi Data lainnya untuk beban kerja yang direkomendasikan? Tidak, Jenis Penggunaan yang disediakan dibuat untuk memberikan default yang wajar untuk beban kerja yang direkomendasikan.

Apa saja persyaratan memori untuk Deduplikasi Data? Minimal, Deduplikasi Data harus memiliki 300 MB + 50 MB untuk setiap TB data logis. Misalnya, jika Anda mengoptimalkan volume 10 TB, Anda memerlukan minimal memori 800 MB yang dialokasikan untuk deduplikasi (300 MB + 50 MB * 10 = 300 MB + 500 MB = 800 MB). Meskipun Deduplikasi Data dapat mengoptimalkan volume dengan jumlah memori yang rendah ini, memiliki sumber daya yang dibatasi tersebut akan memperlambat pekerjaan Deduplikasi Data.

Secara optimal, Deduplikasi Data harus memiliki memori 1 GB untuk setiap 1 TB data logis. Misalnya, jika Anda mengoptimalkan volume 10 TB, Anda akan secara optimal membutuhkan memori 10 GB yang dialokasikan untuk Deduplikasi Data (1 GB * 10). Rasio ini akan memastikan performa maksimum untuk pekerjaan Deduplikasi Data.

Apa saja persyaratan penyimpanan untuk Deduplikasi Data? Di Windows Server 2016, Deduplikasi Data dapat mendukung ukuran volume hingga 64 TB. Untuk informasi selengkapnya, lihat Apa yang baru dalam Deduplikasi Data.