Share via


Премахване на дубликати във всяка таблица за унифициране на данни

Правилата за дедупликация стъпка на унифициране намира и премахва дублиращи се записи за клиент от таблица източник, така че всеки клиент да бъде представен от един ред във всяка таблица. Всяка таблица се дедублира отделно, като се използват правила за идентифициране на записите за даден клиент.

Правилата се обработват по ред. След като всички правила са изпълнени върху всички записи в таблица, групите от мачове, които споделят общ ред, се комбинират в една група от мачове.

Дефиниране на правила за дедубликация

Едно добро правило идентифицира уникален клиент. Помислете за данните си. Може да е достатъчно да идентифицирате клиентите въз основа на поле като имейл. Ако обаче искате да разграничите клиентите, които споделят имейл, можете да изберете да имате правило с две условия, съответстващи на имейл + собствено име. За повече информация вижте Концепции и сценарии за дедупликация.

  1. На страницата Правила за дедупликация изберете таблица и изберете Добавяне на правило , за да дефинирате правилата за дедупликация .

    Съвет

    Ако сте обогатили таблици на ниво източник на данни, за да подобрите резултатите от обединението, изберете Използване на обогатени таблици в горната част на страницата. За повече информация вижте Обогатяване за източници на данни.

    Екранна снимка на страницата с правила за дедупликация с осветена таблица и показване на правилото за добавяне

    1. В екрана Добавяне на правило въведете следната информация:

      • Изберете поле: Изберете от списъка с налични полета от таблицата, която искате да проверите за копия. Изберете полета, които вероятно са уникални за всеки отделен клиент. Например имейл адрес или комбинацията от име, град и телефонен номер.
      • Нормализиране: Изберете опции за нормализиране за колоната. Нормализирането влияе само на съвпадащата стъпка и не променя данните.
        • Цифри: Преобразува много Unicode символи, които представляват числа, в прости числа.
        • Символи: Премахва много често срещани символи като !" #$%&'()*+,-./:;<=>?@[]^_'{|}~. Например, Head&Shoulder става HeadShoulder .
        • Текст с малки букви: Преобразува всички знаци в малки букви. "ALL CAPS и Title Case" стават "all caps and title case".
        • Тип (телефон, име, адрес, организация): Стандартизира имена, титли, телефонни номера, адреси и др.
        • Unicode в ASCII: Преобразува Unicode символи в техния ASCII еквивалент. Например, удареното ề се преобразува в знака e.
        • Интервал: Премахва всички интервали. Hello World се превръща в HelloWorld.
      • Прецизност: Задайте нивото на точност. Прецизността се използва с размито съвпадение и определя колко близо трябва да бъдат два низа, за да се считат за съвпадение.
        • Основни: Изберете между Ниско (30%), Средно (60%), Високо (80%) и Точно (100%). Изберете Точно , за да съвпадне само със записи, които съответстват на 100 процента.
        • По избор: Задайте процент, който записите трябва да съвпадат. Системата съвпада само със записи, преминаващи този праг.
      • Име: Име на правилото.

      Екранна снимка на екрана Добавяне на правила за премахване на дубликати.

    2. По желание изберете Добавяне>на условие , за да добавите още условия към правилото. Условията са свързани с логически оператор И и по този начин се изпълняват само ако са изпълнени всички условия.

    3. По желание добавете изключение, за да>добавите изключения към правилото . ... Изключенията се използват за справяне с редки случаи на фалшиви положителни и фалшиви отрицателни резултати.

    4. Изберете Готово , за да създадете правилото.

  2. По желание добавете още правила.

  3. Изберете таблица и след това Редактиране на предпочитанията за обединяване.

  4. В екрана Обединяване на предпочитанията :

    1. Изберете една от трите опции, за да определите кой запис да запазите, ако бъде намерен дубликат:

      • Най-запълнени: Идентифицира записа с най-населените колони като запис на победителя. Това е опцията за сливане по подразбиране.
      • Най-скорошни: Идентифицира рекорда на победителя въз основа на най-скорошната актуалност. Изисква дата или числово поле за определяне на скоростта.
      • Най-малко скорошни: Идентифицира рекорда на победителя въз основа на най-малката актуалност. Изисква дата или числово поле за определяне на скоростта.

      Ако има равенство, записът на победителя е този с MAX(PK) или по-голямата стойност на първичния ключ.

    2. По желание, за да дефинирате предпочитания за обединяване в отделни колони на таблица, изберете Разширени в долната част на екрана. Например, можете да изберете да запазите най-скорошния имейл И най-пълния адрес от различни записи. Разгънете таблицата, за да видите всичките й колони и да определите коя опция да се използва за отделните колони. Ако изберете опция, базирана на актуалност, трябва също да посочите поле за дата / час, което определя актуалността.

      Разширен екран за предпочитания за обединяване, показващ скорошен имейл и пълен адрес

    3. Изберете Готово , за да приложите предпочитанията си за обединяване.

  5. След като дефинирате правилата за дедупликация и предпочитанията за обединяване, изберете Напред.