Создание политики сопоставления

Применимо к:SQL Server

В этом разделе описывается, как создать политику сопоставления в базе знаний в службах качества данных (DQS). Подготовка процесса сопоставления в DQS с помощью выполнения операции политики сопоставления на образце данных. В данной операции создается и проверяется одно или несколько правил сопоставления в политике, затем публикуется база знаний, что делает правила сопоставления доступными для общего пользования. В базе знаний может быть только одна политика сопоставления, но эта политика может содержать несколько правил сопоставления.

Создание политики сопоставления выполняется в три этапа: процесс сопоставления, в котором определяется источник данных и домены сопоставляются со столбцами, процесс политики сопоставления, в котором создается одно или несколько правил сопоставления и проверяется каждое правило сопоставления в отдельности, а также процесс сопоставления результатов, в котором выполняются все правила сопоставления вместе, и при успешном выполнении политика добавляется в базу знаний. Все эти процессы выполняются на отдельной странице мастера операции политики сопоставления, что позволяет переходить от одной странице к другой, повторно запускать процесс, завершать конкретный процесс политики сопоставления и возвращаться на тот же этап процесса. После проверки всех правил вместе при необходимости вы можете вернуться на страницу Политика сопоставления , настроить отдельное правило, снова проверить его отдельно и затем вернуться на страницу Результаты сопоставления для повторного запуска всех правил вместе. В службах DQS предусмотрены статистические данные об исходных данных, правилах сопоставления и результатах сопоставления, которые позволяют принимать осведомленные решения относительно политики сопоставления и вносить необходимые улучшения.

Перед началом

Предварительные условия

Microsoft Excel должен быть установлен на клиентском компьютере с качеством данных, если исходные данные находится в файле Excel. В противном случае на стадии сопоставления невозможно будет выбрать файл Excel. Файлы, созданные Microsoft Excel, могут иметь расширение XLSX, XLS или CSV. При использовании 64-разрядной версии Excel поддерживаются только файлы Excel 2003 (.xls), файлы Excel 2007 и 2010 (.xlsx) не поддерживаются. При использовании 64-разрядной версии Excel 2007 или 2010 сохраните файл как XLS- или CSV-файл либо вместо этого установите 32-разрядную версию Excel.

Безопасность

Разрешения

Для создания политики сопоставления необходимо иметь роль dqs_administrator или dqs_kb_editor в базе данных DQS_MAIN.

Как задать параметры правил сопоставления

Создание правила сопоставления является интерактивным процессом, в ходе которого вводятся коэффициенты, позволяющие определить соответствие между записями. Вы можете ввести условия для любого домена в таблице. Когда DQS выполняет сопоставление по двум записям, сравниваются значения в полях, сопоставленных с доменами, которые входят в правило сопоставления. DQS анализирует значения в каждом поле правила, затем по коэффициентам, введенным в правило для каждого домена, вычисляет окончательный показатель сопоставления. Если показатель сопоставления для двух сравниваемых записей больше, чем минимальный показатель сопоставления, то два поля считаются совпадающими.

К коэффициентам, введенным в правило сопоставления, относятся следующие.

  • Вес. Для каждого домена в правиле введите числовые данные веса, которые определяют, каким образом результаты анализа сопоставления для домена будут сравниваться со всеми другими доменами в правиле. Вес отражает вклад показателя поля в общий показатель сопоставления между двумя записями. Рассчитанные показатели, присвоенные каждому исходному полю, складываются в составной показатель сопоставления двух записей. Для каждого поля, которое не обязательным (с точным подобием или сходством), установите значение веса от 10 до 100. Сумма весов доменов, которые не являются обязательными, должна быть равна 100. Если значение является обязательным, то вес устанавливается равным 0 и не может быть изменен.

  • Подобие «Точное». Выберите параметр Точное , если значения в одном и том же поле двух разных записей должны быть идентичными, чтобы считаться совпадающими. При идентичности показатель сопоставления для этого домена получит значение 100, а службы DQS применят этот показатель и показатели других доменов в правиле для определения агрегатного показателя сопоставления. В случае неидентичности показатель сопоставления для этого домена получит значение 0, а обработка правила продолжится до следующего условия. При установке правила сопоставления для численного домена и выборе параметра Подобныйвы можете ввести погрешность в процентах или целым числом. При выборе параметра Подобныйдля домена данных «type» вы можете ввести погрешность в днях, месяцах или годах (целое число). Для домена данных погрешность в процентах отсутствует. При выборе параметра Точноеэтот параметр отсутствует.

  • Подобие «Похожее». Если два значения в одном поле двух разных записей могут считаться совпадающими, даже если значения не идентичны, выберите параметр Похожее . Когда в DQS выполняется правило, для соответствующего домена рассчитывается показатель сопоставления, а для определения агрегатного показателя сопоставления будет использоваться этот показатель и показатели других доменов в правиле. Минимальное подобие между значениями поля составляет 60%. Если рассчитанный показатель сопоставления для поля двух записей меньше, чем 60, показатель подобия автоматически устанавливается равным 0. При установке правила сопоставления для численного поля и выборе параметра Подобныйвы можете ввести погрешность в процентах или целым числом. При установке правила сопоставления для поля даты и выборе параметра Подобныйвы можете ввести погрешность в числовом виде.

  • Необходимое условие. Выберите параметр Необходимое условие , чтобы значения в одном поле двух разных записей возвращали 100-процентные совпадения, либо эти поля нельзя будет рассматривать как совпадающие, и другие предложения в правиле не будут учитываться. При выборе параметра Обязательное весовое поле для домена удаляется таким образом, что невозможно определить вес для домена. Необходимо сбросить веса одного или нескольких доменов таким образом, чтобы сумма весов составляла 100. Домены предварительных условий не влияют на запись показателя сопоставления. Показатель сопоставления записи определяется сравнением значений в полях, для которых параметру «Подобие» присвоено значение «Подобное» или «Точное». Если поле становится обязательным, параметр «Подобие» для этого домена автоматически получает значение «Точное».

Минимальный показатель сопоставления — это порог, на границе или выше которого рассматривается соответствие двух записей (состояние для записей установлено в значение "Совпадает"). Введите целое числовое значение с приращением 1 или щелкните стрелку вверх или вниз для увеличения или уменьшения значения с приращением 10. Минимальное значение — 80. Если показатель сопоставления ниже 80, две записи считаются несовпадающими. На этой странице нельзя изменить диапазон минимального показателя сопоставления. Наименьший минимальный показатель сопоставления — 80. Однако вы можете изменить наименьший минимальный показатель сопоставления на странице «Администрирование» (если вы являетесь администратором DQS).

Создание правила сопоставления является интерактивным процессом, поскольку может потребоваться изменение соответствующих весов доменов в правиле, подобия либо свойства предварительного требования для домена или минимального показателя сопоставления для правила, чтобы добиться необходимых результатов. Кроме того, возможно, потребуется создать несколько правил, каждое из которых запускается для создания показателя сопоставления. С помощью одного единственного правила может быть сложно достичь необходимого результата. Несколько правил предоставят различные представления требуемого совпадения. С помощью нескольких правил возможно включение небольшого числа доменов в каждое правило, использование больших весов для каждого домена и улучшение результатов. Если данные являются менее точными и менее полными, может потребоваться большее количество правил для поиска требуемых совпадений. Если данные являются более точными и полными, потребуется меньшее количество правил.

Профилирование дает представление о полноте и уникальности. Рассмотрим последовательно полноту и уникальность. Используйте данные о полноте и уникальности, чтобы определить, какой вес присваивается полю в процессе сопоставления. При наличии высокого уровня уникальности в поле использование поля в политике сопоставления может снизить результаты сопоставления так, что возникнет необходимость установки веса для этого поля в относительно небольшое значение. При низком уровне уникальности для столбца и низкой полноте может возникнуть необходимость во включении домена для этого столбца. При низком уровне уникальности и высоком уровне полноты данных может возникнуть необходимость во включении домена. Как и следовало ожидать, некоторые столбцы, например пол, могут иметь низкий уровень уникальности. Дополнительные сведения см. в статье Вкладки «Профилировщик» и «Результаты».

Первый шаг. Запуск политики сопоставления

Действие политики сопоставления выполняется в области управления базой знаний клиентского приложения "Качество данных".

  1. Запустите клиент DQS. Сведения об этом см. в разделе "Запуск клиентского приложения качества данных".

  2. На домашнем экране клиента качества данных щелкните "Создать базу знаний", чтобы создать политику сопоставления в новой базе знаний. Введите имя для базы знаний и описание, затем выберите требуемый вариант Создать базу знаний из . Нажмите кнопку Политика сопоставления для операции. Чтобы продолжить, нажмите кнопку Далее .

  3. Нажмите кнопку Открыть базу знаний , чтобы создать или изменить политику сопоставления в существующей базе знаний. Выберите базу знаний, щелкните Политика сопоставления, затем нажмите кнопку Далее. Кроме того, вы можете щелкнуть базу знаний в списке Последние базы знаний. При открытии базы знаний, которая была закрыта во время работы политики сопоставления, перейдите к этапу, на котором была включена деятельность политик сопоставления (как указано в столбце Состояние для базы знаний в таблице базы знаний или в имени базы знаний в поле Недавно открытая база знаний). При открытии базы знаний, которая содержит политику сопоставления и завершена, произойдет переход на страницу Политика сопоставления . При открытии базы знаний, которая не содержит политику сопоставления и завершена, произойдет переход на страницу Сопоставление .

Стадия сопоставления

На стадии сопоставления определяется источник данных, для которого создается политика сопоставления, а исходные столбцы сопоставляются с доменами, чтобы сделать домены доступными для операции политики сопоставления.

  1. На странице Сопоставление для создания политики базы данных оставьте Источник данных в значении SQL Server, в поле База данныхвыберите базу данных, для которой необходимо создать политику, затем щелкните таблицу или представление в области Таблица/Представление. Исходная база данных должна присутствовать в том же экземпляре SQL Server, что и сервер качества данных. В противном случае она не появится в раскрывающемся списке.

  2. Чтобы создать политику для данных в электронной таблице Excel, выберите Файл Excel в поле Источник данных, нажмите кнопку Обзор и выберите файл Excel. При необходимости оставьте выбранным поле Использовать первую строку в качестве заголовка . В поле Листвыберите лист в файле Excel, который будет источником данных. Для выбора файла Excel на компьютер с клиентом DQS должен быть установлен Microsoft Excel. В противном случае кнопка «Обзор» будет недоступна, и под текстовым полем появится уведомление о том, что не установлен Microsoft Excel.

  3. В пункте Сопоставлениявыберите поле для Исходного столбца, затем щелкните значок Создать домен .

  4. В пункте Сопоставлениявыберите поле в источнике данных для Исходного столбца, а затем выберите соответствующий домен. Повторите действия для всех доменов, используемых в процессе сопоставления. При необходимости создайте домены, нажав кнопку Создать домен или Создать составной домен.

    Заметка

    Сопоставление исходных данных с доменом служб DQS при создании политики сопоставления возможно, только если совпадающий тип исходных данных поддерживается службами DQS и совпадает с типом данных домена DQS. Сведения о поддерживаемых службами DQS типах данных см. в разделе Типы данных SQL Server и службы SSIS, поддерживаемые для доменов DQS.

  5. Для добавления строки в таблицу "Сопоставления" щелкните значок плюс (+), а для удаления строки — значок минус (–).

  6. Щелкните значок Предварительный просмотр источника данных для просмотра данных в таблице SQL Server, в выбранных представлениях или в выбранных листах Excel.

  7. Для просмотра списка составных доменов, доступных в базе знаний и выбранных для сопоставления, нажмите кнопку Просмотр/выбор составных доменов .

  8. Нажмите кнопку Далее , чтобы перейти к этапу политики сопоставления.

    Заметка

    Нажмите кнопку Закрыть , чтобы сохранить стадию сопоставления проекта и вернуться на домашнюю страницу DQS. При следующем открытии данного проекта он будет запущен в том же состоянии. Нажмите кнопку Отмена , чтобы завершить действие сопоставления, отменить результаты работы и вернуться на домашнюю страницу DQS.

Этап политики сопоставления

Создаются правила сопоставления и проверяются по отдельности на странице «Политика сопоставления». При проверке правила сопоставления на странице Политика сопоставления можно просматривать таблицу результатов сопоставления, в которой приведены кластеры, выявленные DQS для выбранного правила. В таблице отображаются все записи в кластере со значениями домена сопоставления и показателями сопоставления, а также исходная сводная запись для кластера. Также вы можете отобразить профилирование данных для процесса сопоставления в целом, условия в каждом правиле сопоставления и статистические данные по результатам каждого правила сопоставления отдельно. Вы можете фильтровать нужные основные данные правил.

Дополнительные сведения о работе правил сопоставления см. в разделе Как задать параметры правил сопоставления.

  1. На странице Политика сопоставления щелкните значок Создать правило сопоставления .

  2. Введите имя и описание правила.

  3. Увеличьте значение Мин. показатель сопоставления , если необходимы более жесткие требования сопоставления. Дополнительные сведения о минимальном показателе сопоставления см. в разделе Как задать параметры правил сопоставления.

  4. Щелкните значок Добавить новый элемент домена .

  5. Выберите домен или составной домен для ввода значения правила.

    Заметка

    Составной домен вы можете выбрать, только если один домен в составном домене сопоставлен с исходным столбцом.

  6. Для параметра Подобиевыберите Подобный , если два значения в одном поле двух разных записей могут считаться совпадающими, даже если значения неидентичны. Если два значения в одном поле двух разных записей должны быть идентичными, чтобы считаться совпадающими, выберите параметр Точное . (Дополнительные сведения см. в разделе Как задать параметры правил сопоставления.)

  7. В поле Вес введите значение, которое определяет вклад показателя сопоставления домена в общий показатель сопоставления для двух записей.

    Заметка

    При определении веса для составного домена вы можете ввести разные значения веса для каждого отдельного домена в составном домене, в этом случае составной домен не получает отдельного значения веса. Кроме того, вы можете ввести отдельный вес для составного домена, при этом отдельные домены в составном домене не получают отдельных значений веса.

  8. С помощью параметра Обязательное можно указать, что значения для этого поля в двух разных записях должны возвращать 100-процентное совпадение, иначе эти записи не рассматриваются как совпадающие и другие предложения в правиле не учитываются. Если параметр Подобие имеет значение Подобное, то это значение изменится на Точное, а вес будет удален, поскольку должно соблюдаться 100-процентное совпадение.

  9. Повторите шаги 4-8 для всех остальных доменов, которые будут входить в правило сопоставления. Убедитесь, что сумма весов для всех доменов в правиле равна 100.

  10. Из раскрывающегося списка выберите пункт Перекрывающиеся кластеры , чтобы отобразить эталонные записи и следующие записей для всех кластеров при выполнении сопоставления, даже если группы кластеров имеют общие записи. Для отображения кластеров, которые имеют общие записи, в качестве единого кластера при выполнении сопоставления выберите пункт Неперекрывающиеся кластеры .

  11. Для копирования данных из источника данных в промежуточную таблицу и их повторной индексации при выполнении политики сопоставления щелкните Перезагрузить данные из источника . Для запуска политики сопоставления без копирования данных в промежуточную таблицу и повторной индексации данных щелкните Выполнить на предыдущих данных . ПунктВыполнить на предыдущих данных отсутствует при первом запуске политики сопоставления или при изменении сопоставления на странице Сопоставление и нажатии кнопки Да во всплывающем окне. В обоих этих случаях необходимо произвести повторную индексацию. Нет необходимости в выполнении повторной индексации, если политика сопоставления не была изменена. Выполнение на предыдущих данных может повысить производительность.

  12. Нажмите кнопку Пуск , чтобы запустить процесс сопоставления для выбранного правила. По завершении процесса в таблице отобразятся идентификатор записи, количество кластеров и столбцы данных (в том числе те, которые не входят в правило сопоставления) для каждой записи в кластере. Сводная строка в кластере считается основным претендентом на «выживание» в процессе удаления дубликатов. Каждая дополнительная строка в кластере считается дубликатом. Ее показатель сопоставления (по сравнению со сводной записью) приводится в таблице результатов. Количество кластеров совпадает с идентификатором записи для сводной записи в кластере.

  13. С данными в таблице Результаты сопоставления вы можете работать следующим образом.

    • В пункте Фильтрациявыберите Соответствует для отображений всех совпадающих строк и их показателей. Строки, которые считаются несовпадающими (с показателем совпадения меньше, чем минимальный показатель совпадения), не отображаются в таблице результатов совпадения. Выберите пункт Не соответствует для отображения всех несовпадающих строк.

    • В раскрывающемся списке Процентное содержание выберите процент с шагом 5. Все строки с показателем совпадения большим или равным этому проценту будут отображены в таблице результатов сопоставления.

    • Если дважды щелкнуть запись в таблице результатов сопоставления, в DQS появится всплывающее окно Подробные сведения о показателе сопоставления , в котором отображаются сводная и исходная записи, а также значения во всех их полях, показатель между ними и углубленная детализация сопоставления записи. Детализация углублением выводит значения в каждом поле сводной и исходной записи так, что их вы можете сравнить, и отображает показатель сопоставления, который каждое поле вносит в общий показатель сопоставления для двух записей.

  14. Просмотрите статистику на вкладках Профилировщик и Результаты сопоставления , чтобы убедиться в правильности получаемых результатов. Дополнительные сведения см. в статье Вкладки «Профилировщик» и «Результаты».

  15. Если правило необходимо изменить, измените его в редакторе правил и нажмите кнопку Перезапустить.

    Заметка

    После выполнения первого анализа данных кнопка Пуск превратится в кнопку Перезапустить . Если результаты предыдущего анализа еще не были сохранены, то после нажатия кнопки Перезапустить происходит потеря ранее полученных данных. Во время выполнения анализа не уходите с этой страницы, поскольку процесс анализа будет прекращен.

  16. На вкладке Результаты сопоставления отображается статистика двух последних запусков правил. При запуске правила сопоставления несколько раз с различными параметрами сравните статистические данные текущего и предыдущего правила. Если предыдущее правило дает лучшие результаты, нажмите кнопку Восстановить предыдущее правило , чтобы восстановить условия предыдущего правила и вернуть правило в его предыдущее состояние до изменения. Условия текущего правила будут потеряны. Это позволит настраивать политику, исходя из последних двух выполнений сопоставления, уменьшая время на настройку политики сопоставления.

  17. Для добавления другого правила в политику сопоставления повторите шаг 1.

  18. Нажмите кнопку Далее , чтобы перейти к стадии результатов сопоставления.

Этап результатов сопоставления

Одновременная проверка всех правил сопоставления на странице Результаты сопоставления . Перед тем как это сделать, вы можете указать, что тестовый запуск правила определяет перекрывающиеся или неперекрывающиеся кластеры. При многократном запуске правил вы можете выполнить правило на данных, повторно загруженных из исходных или предыдущих данных.

При проверке правил сопоставления на странице Результаты сопоставления можно просматривать таблицу результатов сопоставления, в которой отображаются кластеры, идентифицируемые DQS для всех правил. В таблице отображаются все записи в кластере со значениями домена сопоставления и показателями сопоставления, а также исходная сводная запись для кластера. Также вы можете отобразить профилирование данных для правил сопоставления в целом, условия в каждом правиле сопоставления и статистические данные по результатам всех правил сопоставления.

  1. На странице Результаты сопоставления выберите из раскрывающегося списка пункт Перекрывающиеся кластеры для отображения эталонных записей и следующих записей для всех кластеров при выполнении сопоставления, даже если группы кластеров имеют общие записи. Для отображения кластеров, которые имеют общие записи, в качестве единого кластера при выполнении сопоставления выберите пункт Неперекрывающиеся кластеры .

  2. Для копирования данных из источника данных в промежуточную таблицу и их повторной индексации при выполнении политики сопоставления щелкните Перезагрузить данные из источника . Для запуска политики сопоставления без копирования данных в промежуточную таблицу и повторной индексации данных щелкните Выполнить на предыдущих данных . ПунктВыполнить на предыдущих данных отсутствует при первом запуске политики сопоставления или при изменении сопоставления на странице Сопоставление и нажатии кнопки Да во всплывающем окне. В обоих этих случаях необходимо произвести повторную индексацию. Нет необходимости в выполнении повторной индексации, если политика сопоставления не была изменена. Выполнение на предыдущих данных может повысить производительность.

  3. Нажмите кнопку Пуск , чтобы запустить процесс сопоставления для всех определенных правил. В таблице Результаты сопоставления отображаются идентификатор записи, количество кластеров и столбцы данных (в том числе те, которые не входят в правило сопоставления) для каждой записи в кластере. Старшая запись в кластере выбирается случайным образом. (Вы определяете выживающую запись, выбрав правило выживших в списке Страница экспорта при запуске соответствующего проекта.) Каждая дополнительная строка в кластере считается дубликатом; его соответствующая оценка (по сравнению с сводной записью) предоставляется в таблице результатов.

  4. С данными в таблице Результаты сопоставления вы можете работать следующим образом.

    • В пункте Фильтрациявыберите Соответствует для отображений всех совпадающих строк и их показателей. Строки, которые считаются несовпадающими (с показателем совпадения меньше, чем минимальный показатель совпадения), не отображаются в таблице результатов совпадения. Выберите пункт Не соответствует для отображения всех несовпадающих строк.

    • В раскрывающемся списке Процентное содержание выберите процент с шагом 5. Все строки с показателем совпадения большим или равным этому проценту будут отображены в таблице результатов сопоставления.

    • Если дважды щелкнуть запись в таблице результатов сопоставления, в DQS появится всплывающее окно Подробные сведения о показателе сопоставления , в котором отображаются сводная и исходная записи, а также значения во всех их полях, показатель между ними и углубленная детализация сопоставления записи. Детализация углублением выводит значения в каждом поле сводной и исходной записи так, что их вы можете сравнить, и отображает показатель сопоставления, который каждое поле вносит в общий показатель сопоставления для двух записей.

  5. Просмотрите статистику на вкладках Профилировщик и Результаты сопоставления , чтобы убедиться в правильности получаемых результатов. Перейдите на вкладку Правила сопоставления , чтобы посмотреть настройки домена для каждого правила. Дополнительные сведения см. в статье Вкладки «Профилировщик» и «Результаты».

  6. Если результаты всех правил окажутся неудовлетворительными, нажмите кнопку Назад для возврата на страницу Политики сопоставления , требуемым образом измените одно или несколько правил, вернитесь на страницу Результаты сопоставления и нажмите кнопку Перезапустить.

    Заметка

    После завершения анализа данных кнопка Пуск преобразуется в кнопку Перезапустить . Если результаты предыдущего анализа еще не были сохранены, то после нажатия кнопки Перезапустить происходит потеря ранее полученных данных.

  7. Если результат всех правил окажется удовлетворительным, нажмите кнопку Готово для завершения процесса политики сопоставления, затем нажмите одну из следующих кнопок.

    • Да — опубликовать базу знаний и выйти: база знаний будет опубликована и доступна для использования текущим пользователем или другими пользователями. База знаний не будет заблокирована, ее состояние (в таблице баз знаний) будет пустым. Будут доступны как операция управления доменами, так и операция обнаружения набора знаний. Пользователь возвращается на экран открытия базы знаний.

    • Нет — сохранить работу в базе знаний и выйти: работа сохраняется, база знаний остается заблокированной, а ее состояние отображается как В работе. Будут доступны как операция управления доменами, так и операция обнаружения знаний. Выполняется возврат на домашнюю страницу.

    • Отмена — остаться на текущем экране: всплывающее окно закрывается, выполняется возврат на экран управления доменами.

  8. Нажмите кнопку Закрыть , чтобы сохранить результаты работы и вернуться на домашнюю страницу DQS. Состояние базы знаний отобразит строку "Политика сопоставления — " и текущее состояние. После нажатия кнопки Закрыть в окне Результаты сопоставления отобразится состояние: «Политика сопоставления — результаты». После нажатия кнопки "Закрыть" в окне Политика сопоставления отобразится состояние: "Политика сопоставления — политика сопоставления". После нажатия кнопки Закрытьдля выполнения операции Обнаружение знаний придется вернуться к операции Политика сопоставления . Нажмите кнопку Готово, затем либо кнопку Да для публикации базы знаний, либо Нет , чтобы сохранить работу в базе знаний и выйти.

    Заметка

    При нажатии кнопки Закрыть во время работы процесса сопоставления этот процесс не будет прерван при нажатии кнопки Закрыть. Вы можете повторно открыть базу знаний и обнаружить, что процесс все еще выполняется, или, если процесс завершен, просмотреть отображаемые результаты. Если процесс не завершен, на экране будет отображен ход выполнения.

  9. Нажмите кнопку Отмена , чтобы прервать операцию политики сопоставления, отменить результаты работы и вернуться на домашнюю страницу DQS.

Дальнейшие действия. После создания политики сопоставления

После создания политики сопоставления можно запустить проект сопоставления на основе базы знаний, которая содержит политику сопоставления. Дополнительные сведения см. в статье Запуск проекта сопоставления.

Profiler and Results Tabs

Вкладки «Профилировщик» и «Результаты» содержат статистические данные страниц «Политика сопоставления» и «Результаты сопоставления».

Вкладка «Профилировщик»

Перейдите на вкладку Профилировщик , чтобы отобразить статистические данные для базы данных-источника и для каждого поля, входящего в правило политики. Статистические данные будут обновляться по мере выполнения правила политики.

Дополнительные сведения о том, как интерпретировать следующую статистику, см. в разделе Как задать параметры правил сопоставления.

К статистическим данным базы данных-источника относятся следующие данные.

  • Записи. Общее количество записей в базе данных-источнике.

  • Всего значений. Общее число значений в полях источника данных.

  • Новые значения. Общее число значений, которые являются новыми после предыдущего запуска, и их процент от целого.

  • Уникальные значения. Общее количество уникальных значений в полях и их процент от целого.

  • Новые уникальные значения. Общее количество уникальных значений, которые являются новыми в полях, и их процент от целого.

Статистические данные поля включают следующее:

  • Имя поля

  • Доменное имя

  • Создать. Количество новых значений и процент новых значений по сравнению с существующими значениями в домене.

  • Уникальный. Количество уникальных записей в поле и их процент от общего количества.

  • Полнота. Полнота каждого поля-источника, которое сопоставляется при применении сопоставления.

Уведомления политики сопоставления

Следующие условия для действия политики сопоставления приводят к уведомлениям.

  • Поле не заполнено во всех записях. Рекомендуется исключить его из сопоставления.

  • Показатель полноты поля очень низкий. Может потребоваться исключение этого поля из сопоставления.

  • Все значения в поле являются недопустимыми. Следует проверить сопоставление и релевантность правил домена относительно содержания поля.

  • В этом поле низкий уровень допустимых значений. Следует проверить сопоставление и релевантность правил домена относительно содержания поля.

  • В этом поле высокий уровень уникальности. С помощью этого поля в политике сопоставления можно уменьшить количество результатов сопоставления.

Вкладка «Результаты сопоставления»

Перейдите на вкладку Результаты сопоставления , чтобы отобразить статистические данные для запуска правила политики сопоставления и запуска предыдущего правила сопоставления. При неоднократном запуске одного правила с различными параметрами в таблице результатов сопоставления будут отображены статистические данные для обоих запусков, что позволит выполнить их сравнение. Кроме того, при желании вы можете восстановить предыдущее правило.

К статистическим данным относятся следующие данные.

  • Общее количество записей в базе данных

  • Общее количество записей сопоставления в базе данных

  • Количество записей в базе данных, которые не считаются повторяющимися

  • Количество обнаруженных кластеров

  • Средний размер кластера (количество повторяющихся записей, деленное на количество кластеров)

  • Наименьшее число дубликатов в кластере

  • Наибольшее число дубликатов в кластере