Bendrinti naudojant


Dublikatų šalinimas kiekvienoje lentelėje, kad būtų galima suvienodinti duomenis

Suvienijimo taisyklių dublikatų šalinimo veiksmas randa ir pašalina besidubliuojančius kliento įrašus iš šaltinio lentelės, kad kiekvienas klientas būtų pavaizduotas viena kiekvienos lentelės eilute. Kiekviena lentelė dubliuojama atskirai, naudojant taisykles, skirtas konkretaus kliento įrašams identifikuoti.

Taisyklės tvarkomos tvarkingai. Paleidus visas taisykles visiems lentelės įrašams, atitikmenų grupės, kurios turi bendrą eilutę, sujungiamos į vieną atitikties grupę.

Apibrėžkite dublikatų naikinimo taisykles

Gera taisyklė identifikuoja unikalų klientą. Apsvarstykite savo duomenis. Gali pakakti identifikuoti klientus pagal lauką, pvz., el. paštą. Tačiau, jei norite atskirti el. paštą bendrinančius klientus, galite pasirinkti taisyklę su dviem sąlygomis, atitinkančiomis el. paštas + vardas. Norėdami gauti daugiau informacijos, žiūrėkite Sąvokų ir scenarijų dublikatų šalinimas.

  1. Puslapyje Taisyklių dublikatų panaikinimas pasirinkite lentelę ir pasirinkite Įtraukti taisyklę , kad apibrėžtumėte dublikatų šalinimo taisykles.

    Arbatpinigiai

    Jei papildėte duomenų šaltinis lygio lenteles, kad pagerintumėte suvienijimo rezultatus, puslapio viršuje pasirinkite Naudoti papildytas lenteles . Daugiau informacijos ieškokite Duomenų šaltinių papildymas.

    Taisyklių dublikatų šalinimo puslapio su paryškinta lentele ir rodoma taisyklės įtraukimo ekrano nuotrauka

    1. Srityje Įtraukti taisyklę įveskite šią informaciją:

      • Pasirinkite lauką: pasirinkite iš galimų laukų sąrašo iš lentelės, kurioje norite tikrinti, ar nėra dublikatų. Pasirinkite laukus, kurie, tikėtina, yra unikalūs kiekvienam klientui. Pavyzdžiui, el. pašto adresas ar vardo, miesto ir telefono numerio derinys.
      • Normalizuoti: pasirinkite stulpelio normalizavimo parinktis. Normalizavimas turi įtakos tik atitikimo veiksmui ir nekeičia duomenų.
        • Skaitmenys: konvertuoja daugelį "Unicode" simbolių, reiškiančių skaičius, į paprastus skaičius.
        • Simboliai: pašalina daug įprastų simbolių, tokių kaip !" #$%&'()*+,-./:;<=>?@[]^_'{|}~. Pavyzdžiui,Head &Shoulder tampa HeadShoulder.
        • Tekstas į mažąsias raides: konvertuoja visus simbolius į mažąsias raides. "ALL CAPS and Title Case" tampa "all caps and title case".
        • Tipas (telefonas, vardas, adresas, organizacija): Standartizuoja vardus, pavadinimus, telefono numerius, adresus ir kt.
        • Unicode į ASCII: konvertuoja Unicode simbolius į jų ASCII atitikmenį. Pavyzdžiui, kirčiuotas ề konvertuojamas į e simbolį.
        • Tarpas: pašalinami visi tarpai. "Hello World" tampa "HelloWorld".
      • Tikslumas: nustatykite tikslumo lygį. Tikslumas naudojamas su neaiškiu atitikimu ir nustato, kiek arti turi būti dvi eilutės, kad jas būtų galima laikyti atitikmeniu.
        • Pagrindinis: rinkitės iš žemo (30%), vidutinio (60%), aukšto (80%) ir tikslaus (100%). Pasirinkite Tikslus, kad atitiktų tik 100 procentų atitinkančius įrašus.
        • Tinkinta: nustatykite procentą, kurį įrašai turi atitikti. Sistema atitinka tik šį slenkstį peržengiančius įrašus.
      • Pavadinimas: taisyklės pavadinimas.

      Dublikatų šalinimo srities Įtraukti taisyklę ekrano nuotrauka.

    2. Pasirinktinai pasirinkite Įtraukti>sąlygą , kad į taisyklę įtrauktumėte daugiau sąlygų. Sąlygos yra susijusios su loginiu IR operatoriumi ir todėl vykdomos tik tuo atveju, jeigu įvykdomos visos sąlygos.

    3. Pasirinktinai,Pridėti išimtį>, kad į taisyklę įtrauktumėteišimčių. Išimtys naudojamos retiems klaidingai teigiamų ir klaidingai neigiamų rezultatų atvejams spręsti.

    4. Pasirinkite Atlikta , kad sukurtumėte taisyklę.

  2. Pasirinktinai, pridėkite daugiau taisyklių.

  3. Pasirinkite lentelę, tada – Redaguoti suliejimo nuostatas.

  4. Srityje Suliejimo nuostatos :

    1. Pasirinkite vieną iš trijų parinkčių, kad nustatytumėte, kurį įrašą išsaugoti, jei randamas dublikatas:

      • Labiausiai užpildyta: identifikuoja įrašą su daugiausiai užpildytais stulpeliais kaip nugalėtojo įrašą. Tai yra numatytoji suliejimo parinktis.
      • Naujausias: identifikuoja nugalėtojo įrašą pagal naujiausią naujieną. Reikalauja datos ar skaičių laukelio, skirto nustatyti naujumą.
      • Mažiausiai naujausias: nustato nugalėtojo įrašą pagal mažiausią naujumą. Reikalauja datos ar skaičių laukelio, skirto nustatyti naujumą.

      Jei balsai pasiskirsto po lygiai, nugalėtojo įrašas yra tas, kuriame yra MAX(PK) arba didesnė pirminio rakto reikšmė.

    2. Pasirinktinai, norėdami apibrėžti suliejimo nuostatas atskiruose lentelės stulpeliuose, srities apačioje pasirinkite Išsamiau . Pavyzdžiui, galite pasirinkti išsaugoti naujausią el. laišką IR išsamiausią adresą iš skirtingų įrašų. Išplėskite lentelę, kad pamatytumėte visus jos stulpelius, ir nustatykite, kurią parinktį naudoti atskiriems stulpeliams. Jei pasirinksite naujumu pagrįstą parinktį, taip pat turėsite nurodyti datos / laiko lauką, kuris apibrėžia naujumą.

      Išplėstinių suliejimo nuostatų sritis, kurioje rodomas naujausias el. laiškas ir visas adresas

    3. Pasirinkite Atlikta , kad pritaikytumėte suliejimo nuostatas.

  5. Apibrėžę dublikatų šalinimo taisykles ir sulieję nuostatas, pasirinkite Pirmyn.