Hapus duplikat di setiap tabel untuk penyatuan data

Langkah penyatuan aturan Deduplikasi menemukan dan menghapus rekaman duplikat untuk pelanggan dari tabel sumber sehingga setiap pelanggan diwakili oleh satu baris di setiap tabel. Setiap tabel diduplikasi secara terpisah menggunakan aturan untuk mengidentifikasi rekaman untuk pelanggan tertentu.

Aturan diproses secara berurutan. Setelah semua aturan dijalankan pada semua rekaman dalam tabel, grup pertandingan yang berbagi baris umum digabungkan menjadi satu grup kecocokan.

Tentukan aturan deduplikasi

Aturan yang baik mengidentifikasi pelanggan yang unik. Pertimbangkan data Anda. Mungkin cukup untuk mengidentifikasi pelanggan berdasarkan bidang seperti email. Namun, jika Anda ingin membedakan pelanggan yang berbagi email, Anda dapat memilih untuk memiliki aturan dengan dua kondisi, cocok di Email + FirstName. Untuk informasi selengkapnya, lihat Konsep dan skenario deduplikasi.

  1. Pada halaman Aturan deduplikasi, pilih tabel dan pilih Tambahkan aturan untuk menentukan aturan deduplikasi.

    Tip

    Jika Anda memperkaya tabel pada tingkat sumber data untuk membantu meningkatkan hasil penyatuan Anda, pilih Gunakan tabel yang diperkaya di bagian atas halaman. Untuk informasi selengkapnya, lihat Pengayaan untuk sumber data.

    Cuplikan layar halaman Aturan deduplikasi dengan tabel disorot dan Tambahkan aturan ditampilkan

    1. Di panel Tambahkan aturan , masukkan informasi berikut:

      • Pilih bidang: Pilih dari daftar bidang yang tersedia dari tabel yang ingin Anda periksa duplikatnya. Pilih bidang yang mungkin unik untuk setiap pelanggan. Contohnya, alamat email, atau kombinasi nama, kota, dan nomor telepon.
      • Normalisasi: Pilih opsi normalisasi untuk kolom. Normalisasi hanya memengaruhi langkah pencocokan, dan tidak mengubah data.
        • Angka: Mengonversi banyak simbol Unicode yang mewakili angka menjadi angka sederhana.
        • Simbol: Menghapus banyak simbol umum seperti !" #$%&'()*+,-./:;<=>?@[]^_'{|}~. Misalnya, Head & Shoulder menjadi HeadShoulder .
        • Teks menjadi huruf kecil: Mengonversi semua karakter menjadi huruf kecil. "ALL CAPS dan Title Case" menjadi "all caps and title case."
        • Jenis (Telepon, Nama, Alamat, Organisasi): Membakukan nama, gelar, nomor telepon, alamat, dll.
        • Unicode ke ASCII: Mengonversi karakter Unicode ke ASCII yang setara. Misalnya, ề beraksen dikonversi ke karakter e.
        • Spasi: Menghapus semua spasi. Hello World menjadi HelloWorld.
      • Presisi: Atur tingkat presisi. Presisi digunakan dengan pencocokan fuzzy, dan menentukan seberapa dekat dua senar harus agar dianggap cocok.
        • Dasar: Pilih dari Rendah (30%), Sedang (60%), Tinggi (80%), dan Tepat (100%). Pilih Tepat untuk hanya mencocokkan rekaman yang cocok dengan 100 persen.
        • Kustom: Tetapkan persentase yang harus dicocokkan dengan rekaman. Sistem hanya mencocokkan rekaman yang melewati ambang batas ini.
      • Nama: Nama untuk aturan.

      Cuplikan layar panel Tambahkan aturan untuk menghapus duplikat.

    2. Secara opsional, pilih Tambahkan>kondisi untuk menambahkan lebih banyak kondisi ke aturan. Kondisi terhubung dengan operator AND logis dan dengan demikian hanya dijalankan jika semua kondisi terpenuhi.

    3. Secara opsional,Tambahkan Tambahkan>pengecualian untuk menambahkan pengecualian ke aturan. Pengecualian digunakan untuk menangani kasus positif palsu dan negatif palsu yang jarang terjadi.

    4. Pilih Selesai untuk membuat aturan.

  2. Secara opsional, tambahkan lebih banyak aturan.

  3. Pilih tabel lalu Edit preferensi gabungan.

  4. Di panel preferensi Gabungkan:

    1. Pilih salah satu dari tiga opsi untuk menentukan rekaman mana yang akan disimpan jika duplikat ditemukan:

      • Paling terisi: Mengidentifikasi catatan dengan kolom terpadat sebagai catatan pemenang. Ini adalah pilihan penggabungan default.
      • Terbaru: Mengidentifikasi catatan pemenang berdasarkan kebaruan terbanyak. Memerlukan tanggal atau bidang numerik untuk menentukan keterkinian.
      • Terbaru: Mengidentifikasi catatan pemenang berdasarkan kebaruan paling sedikit. Memerlukan tanggal atau bidang numerik untuk menentukan keterkinian.

      Jika ada seri, catatan pemenang adalah catatan dengan MAX (PK) atau nilai kunci utama yang lebih besar.

    2. Secara opsional, untuk menentukan preferensi gabungan pada kolom individual tabel, pilih Tingkat Lanjut di bagian bawah panel. Misalnya, Anda bisa memilih untuk menyimpan email terbaru DAN alamat paling lengkap dari catatan yang berbeda. Perluas tabel untuk melihat semua kolomnya dan tentukan opsi mana yang akan digunakan untuk kolom individual. Jika Anda memilih opsi berbasis kebaruan, Anda juga perlu menentukan bidang tanggal/waktu yang menentukan kebaruan.

      Panel preferensi gabungan tingkat lanjut memperlihatkan email terbaru dan alamat lengkap

    3. Pilih Selesai untuk menerapkan preferensi gabungan Anda.

  5. Setelah menentukan aturan deduplikasi dan menggabungkan preferensi, pilih Berikutnya.