Praktik terbaik klasifikasi di portal tata kelola Microsoft Purview

Klasifikasi data di portal tata kelola Microsoft Purview adalah cara mengategorikan aset data dengan menetapkan label logis atau kelas unik ke aset data. Klasifikasi didasarkan pada konteks bisnis data. Misalnya, Anda dapat mengklasifikasikan aset berdasarkan Nomor Paspor, Nomor SIM, Nomor Kartu Kredit, Kode SWIFT, Nama Orang, dan sebagainya. Untuk mempelajari selengkapnya tentang klasifikasi itu sendiri, lihat artikel klasifikasi kami.

Artikel ini menjelaskan praktik terbaik untuk diadopsi saat Anda mengklasifikasikan aset data, sehingga pemindaian Anda akan lebih efektif dan Anda memiliki informasi paling lengkap tentang seluruh data estate Anda.

Memindai seperangkat aturan

Dengan menggunakan seperangkat aturan pemindaian, Anda dapat mengonfigurasi klasifikasi relevan yang harus diterapkan ke pemindaian tertentu untuk sumber data. Pilih klasifikasi sistem yang relevan, atau pilih klasifikasi kustom jika Anda telah membuatnya untuk data yang Anda pindai.

Misalnya, dalam gambar berikut, hanya sistem tertentu yang dipilih dan klasifikasi kustom yang akan diterapkan untuk sumber data yang Anda pindai (misalnya, data keuangan).

Screenshot that shows a selected classification rule.

Manajemen anotasi

Saat Anda memutuskan klasifikasi mana yang akan diterapkan, kami sarankan Anda:

  • Buka panelKlasifikasi manajemen >AnotasiPeta> Data.

  • Tinjau klasifikasi sistem yang tersedia untuk diterapkan pada aset data yang Anda pindai. Nama formal klasifikasi sistem memiliki awalan MICROSOFT .

    Screenshot that shows a list of system classifications on the 'Classifications' pane.

  • Buat nama klasifikasi kustom, jika perlu. Mulai di panel ini, lalu bukaAturan Klasifikasi manajemen >AnotasiPeta> Data. Di sini, Anda dapat membuat aturan klasifikasi untuk nama klasifikasi kustom yang Anda buat di langkah sebelumnya.

    Screenshot that shows the 'Classification rules' pane.

Klasifikasi kustom

Buat klasifikasi kustom hanya jika klasifikasi sistem yang tersedia tidak memenuhi kebutuhan Anda.

Untuk nama klasifikasi kustom, ini adalah praktik yang baik untuk menggunakan konvensi namespace layanan (misalnya, <nama> perusahaan.< unit> bisnis.< nama> klasifikasi kustom).

Sebagai contoh, untuk klasifikasi EMPLOYEE_ID kustom untuk perusahaan fiktif Contoso, nama klasifikasi kustom Anda akan CONTOSO.HR. EMPLOYEE_ID, dan nama yang mudah diingat disimpan dalam sistem sebagai SDM. ID KARYAWAN.

Screenshot that shows an EMPLOYEE_ID custom classification.

Saat Anda membuat dan mengonfigurasi aturan klasifikasi untuk klasifikasi kustom, lakukan hal berikut:

  • Pilih nama klasifikasi yang sesuai yang aturan klasifikasinya akan dibuat.

  • Portal tata kelola Microsoft Purview mendukung dua metode berikut untuk membuat aturan klasifikasi kustom:

    • Gunakan metode Ekspresi reguler (regex) jika Anda dapat secara konsisten mengekspresikan elemen data dengan menggunakan pola ekspresi reguler atau Anda dapat menghasilkan pola dengan menggunakan file data. Pastikan bahwa data sampel mencerminkan populasi.

    • Gunakan metode Kamus hanya jika daftar nilai dalam file kamus mewakili semua nilai data yang mungkin untuk diklasifikasikan dan diharapkan sesuai dengan kumpulan data tertentu (mempertimbangkan nilai di masa depan juga).

      Screenshot that shows the 'Regular expression' and 'Dictionary' options for creating custom classification rules.

  • Menggunakan metode ekspresi Reguler :

    • Konfigurasikan pola regex agar data diklasifikasikan. Pastikan bahwa pola regex cukup umum untuk memenuhi data yang diklasifikasikan.

    • Microsoft Purview juga menyediakan fitur untuk menghasilkan pola regex yang disarankan. Setelah Anda mengunggah file data sampel, pilih salah satu pola yang disarankan, lalu pilih Tambahkan ke pola untuk menggunakan pola data dan kolom yang disarankan. Anda dapat mengubah pola yang disarankan, atau Anda dapat mengetik pola Anda sendiri tanpa harus mengunggah file.

    • Anda juga dapat mengonfigurasi pola nama kolom, agar kolom diklasifikasikan untuk meminimalkan positif palsu.

    • Konfigurasikan parameter Ambang kecocokan minimum yang dapat diterima untuk data Anda yang cocok dengan pola data untuk menerapkan klasifikasi. Nilai ambang bisa dari 1% hingga 100%. Kami menyarankan nilai setidaknya 60% sebagai ambang batas untuk menghindari positif palsu. Namun, Anda dapat mengonfigurasi seperlunya untuk skenario klasifikasi spesifik Anda. Misalnya, ambang batas Anda mungkin serendah 1% jika Anda ingin mendeteksi dan menerapkan klasifikasi untuk nilai apa pun dalam data jika cocok dengan pola.

      Screenshot that shows the regex method for creating a custom classification rule.

    • Opsi untuk mengatur aturan kecocokan minimum secara otomatis dinonaktifkan jika lebih dari satu pola data ditambahkan ke aturan klasifikasi.

    • Gunakan aturan klasifikasi Pengujian dan uji dengan data sampel untuk memverifikasi bahwa aturan klasifikasi berfungsi seperti yang diharapkan. Pastikan bahwa dalam data sampel (misalnya, dalam file .csv) setidaknya ada tiga kolom, termasuk kolom tempat klasifikasi akan diterapkan. Jika pengujian berhasil, Anda akan melihat label klasifikasi pada kolom, seperti yang ditunjukkan pada gambar berikut:

      Screenshot that shows classification when the test classification is successful.

  • Menggunakan metode Kamus :

    • Anda dapat menggunakan metode Kamus agar pas dengan data enumerasi atau jika daftar kamus nilai yang mungkin tersedia.

    • Metode ini mendukung file .csv dan .tsv, dengan batas ukuran file 30 megabyte (MB).

Arketipe klasifikasi kustom

Cara kerja parameter "ambang" dalam ekspresi reguler

  • Pertimbangkan data sumber sampel dalam gambar berikut. Ada lima kolom, dan aturan klasifikasi kustom harus diterapkan ke kolom Sample_col1, Sample_col2, dan Sample_col3 untuk pola data N{Digit}{Digit}{Digit}AN.

    Screenshot that shows example source data.

  • Klasifikasi kustom diberi nama NDDDAN.

  • Aturan klasifikasi (regex untuk pola data) adalah ^N[0-9]{3}AN$.

    Screenshot that shows a custom classification rule.

  • Ambang batas akan dihitung untuk pola "^N[0-9]{3}AN$", seperti yang ditunjukkan pada gambar berikut:

    Screenshot that shows thresholds of a custom classification rule.

    Jika Anda memiliki ambang batas 55%, hanya kolom yang Sample_col1 dan Sample_col2 yang akan diklasifikasikan. Sample_col3 tidak akan diklasifikasikan, karena tidak memenuhi kriteria ambang 55%.

    Screenshot that shows the result of a high-threshold criterion.

Cara menggunakan pola data dan kolom

  • Untuk data sampel yang diberikan, di mana kolom B dan kolom C memiliki pola data yang sama, Anda dapat mengklasifikasikan pada kolom B berdasarkan pola data "^P[0-9]{3}[A-Z]{2}$".

    Screenshot that shows sample data.

  • Gunakan pola kolom bersama dengan pola data untuk memastikan bahwa hanya kolom ID Produk yang diklasifikasikan.

    Screenshot that shows a classification rule.

    Catatan

    Pola kolom diverifikasi sebagai kondisi AND dengan pola data.

  • Gunakan aturan klasifikasi Pengujian dan uji dengan data sampel untuk memverifikasi bahwa aturan klasifikasi berfungsi seperti yang diharapkan.

    Screenshot that shows a column pattern.

Cara menggunakan beberapa pola kolom

Jika ada beberapa pola kolom yang akan diklasifikasikan untuk aturan klasifikasi yang sama, gunakan nama kolom yang dipisahkan karakter pipa (|). Misalnya, untuk kolom ID Produk, Product_ID, ProductID, dan sebagainya, tulis pola kolom seperti yang ditunjukkan pada gambar berikut:

Screenshot that shows multiple column patterns.

Untuk informasi selengkapnya, lihat konstruksi alternasi regex.

Pertimbangan klasifikasi

Berikut adalah beberapa pertimbangan yang perlu diingat saat Anda menentukan klasifikasi:

  • Untuk memutuskan klasifikasi apa yang diperlukan untuk diterapkan ke aset sebelum memindai, pertimbangkan bagaimana klasifikasi Anda akan digunakan. Label klasifikasi yang tidak perlu mungkin terlihat berisik dan bahkan menyesatkan bagi konsumen data. Anda dapat menggunakan klasifikasi untuk:

    • Jelaskan sifat data yang ada di aset data atau skema yang sedang dipindai. Dengan kata lain, klasifikasi harus memungkinkan pelanggan mengidentifikasi konten aset data atau skema dari label klasifikasi saat mereka mencari katalog.
    • Tetapkan prioritas dan kembangkan rencana untuk mencapai kebutuhan keamanan dan kepatuhan organisasi.
    • Jelaskan fase dalam proses persiapan data (zona mentah, zona pendaratan, dan sebagainya) dan tetapkan klasifikasi ke aset tertentu untuk menandai fase dalam proses.
  • Anda dapat menetapkan klasifikasi di tingkat aset atau kolom secara otomatis dengan menyertakan klasifikasi yang relevan dalam aturan pemindaian, atau Anda dapat menetapkannya secara manual setelah menyerap metadata ke dalam Peta Data Microsoft Purview.

  • Untuk penugasan otomatis, lihat penyimpanan data yang didukung di portal tata kelola Microsoft Purview.

  • Sebelum Anda memindai sumber data di Peta Data Microsoft Purview, penting untuk memahami data Anda dan mengonfigurasi seperangkat aturan pemindaian yang sesuai untuknya (misalnya, dengan memilih klasifikasi sistem yang relevan, klasifikasi kustom, atau kombinasi keduanya), karena dapat memengaruhi performa pemindaian Anda. Untuk informasi selengkapnya, lihat klasifikasi yang didukung di portal tata kelola Microsoft Purview.

  • Pemindai Microsoft Purview menerapkan aturan pengambilan sampel data untuk pemindaian mendalam (tunduk pada klasifikasi) untuk klasifikasi sistem dan kustom. Aturan pengambilan sampel didasarkan pada jenis sumber data. Untuk informasi selengkapnya, lihat bagian "Pengambilan sampel dalam file" di Sumber data dan jenis file yang didukung di Microsoft Purview.

    Catatan

    Ambang data yang berbeda: Ini adalah jumlah total nilai data berbeda yang perlu ditemukan dalam kolom sebelum pemindai menjalankan pola data di dalamnya. Ambang kecocokan berbeda tidak ada hubungannya dengan pencocokan pola tetapi merupakan prasyarat untuk pencocokan pola. Aturan klasifikasi sistem mengharuskan setidaknya ada 8 nilai berbeda di setiap kolom untuk tunduk pada klasifikasi. Sistem memerlukan nilai ini untuk memastikan bahwa kolom berisi data yang cukup bagi pemindai agar mengklasifikasikannya secara akurat. Misalnya, kolom yang berisi beberapa baris yang semuanya berisi nilai 1 tidak akan diklasifikasikan. Kolom yang berisi satu baris dengan nilai dan baris lainnya memiliki nilai null juga tidak akan diklasifikasikan. Jika Anda menentukan beberapa pola, nilai ini berlaku untuk setiap pola.

  • Aturan pengambilan sampel juga berlaku untuk set sumber daya. Untuk informasi selengkapnya, lihat bagian "Pengambilan sampel file set sumber daya" di sumber data dan jenis file yang didukung di portal tata kelola Microsoft Purview.

  • Klasifikasi kustom tidak dapat diterapkan pada aset jenis dokumen menggunakan aturan klasifikasi kustom. Klasifikasi untuk jenis tersebut hanya dapat diterapkan secara manual.

  • Klasifikasi kustom tidak disertakan dalam aturan pemindaian default apa pun. Oleh karena itu, jika penugasan otomatis klasifikasi kustom diharapkan, Anda harus menyebarkan dan menggunakan aturan pemindaian kustom yang menyertakan klasifikasi kustom untuk menjalankan pemindaian.

  • Jika Anda menerapkan klasifikasi secara manual dari portal tata kelola Microsoft Purview, klasifikasi tersebut dipertahankan dalam pemindaian berikutnya.

  • Pemindaian berikutnya tidak akan menghapus klasifikasi apa pun dari aset, jika terdeteksi sebelumnya, bahkan jika aturan klasifikasi tidak dapat diterapkan.

  • Untuk aset data sumber terenkripsi, Microsoft Purview hanya memilih nama file, nama yang sepenuhnya memenuhi syarat, detail skema untuk jenis file terstruktur, dan tabel database. Agar klasifikasi berfungsi, dekripsi data terenkripsi sebelum Anda menjalankan pemindaian.

Langkah berikutnya