Data Cleansing

Применимо к: даSQL Server (все поддерживаемые версии)

Очистка данных — это процесс анализа качества данных в источнике данных с выполняемым вручную утверждением или отклонением рекомендаций, даваемых системой, и внесением изменений в данные. Очистка данных в службах Data Quality Services (DQS) состоит из автоматического процесса, анализирующего соответствие данных знаниям из базы знаний, и интерактивного процесса, позволяющего диспетчеру данных проверять и изменять результаты автоматического процесса, чтобы обеспечить надлежащий результат очистки данных.

Диспетчер данных также может выполнять очистку данных в процессе обработки пакетов служб Integration Services. В этом случае диспетчер данных должен использовать компонент Компонент DQS Cleansing служб Integration Services, который автоматически выполняет очистку данных на основе существующей базы знаний. Дополнительные сведения см. в разделе Преобразование "Очистка DQS".

Функция очистки данных в DQS имеет следующие преимущества.

  • Выявление неполных или неверных данных в источнике данных (файле Excel или базе данных SQL Server) с последующим исправлением данных или оповещением пользователя о недопустимых данных.

  • Двухэтапный процесс очистки данных: автоматизированный и интерактивный. В автоматическом процессе используются знания из базы знаний DQS для автоматической обработки данных и создания рекомендаций по замене и исправлению. На следующем интерактивном этапе диспетчер данных может утвердить, отклонить или изменить операции, рекомендованные DQS в рамках автоматической очистки.

  • Стандартизация и дополнение данных клиента с использованием значений домена, правил домена и эталонных данных. Например, стандартизируйте использование терминов, заменив "Ул." на "Улица", дополните данные, добавив пропущенные элементы, для чего замените "1 Microsoft way Redmond 98006" на "1 Microsoft Way, Redmond, WA 98006".

  • Простой, интуитивно понятный и предсказуемый пользовательский интерфейс на основе мастеров для просмотра данных и проверки ошибок в очень крупных наборах данных.

На следующем рисунке показана очистка данных в DQS.

Процесс очистки данных в DQS

Автоматическая очистка

Процесс очистки данных DQS применяет знания из базы знаний к данным, которые должны быть очищены, и предлагает изменения для данных. Диспетчер данных имеет доступ к каждому предложенному изменению, что позволяет ему оценить изменения и внести в них поправки. Для очистки данных диспетчер данных выполняет следующие действия.

  1. Создание проекта качества данных, выбор базы знаний, по которой проводится анализ и очистка исходных данных, и выбор операции Очистка . Одну и ту же базу знаний можно использовать для нескольких проектов качества данных.

  2. Указание таблицы/представления базы данных или файла Excel, содержащего исходные данные для очистки. Можно использовать базу данных или файл Excel, которые участвовали в обнаружении знаний, или другую базу данных либо файл Excel.

    Примечание

    Если выбрать для обнаружения знаний и операции очистки один источник данных, то в данных не будет изменений. Рекомендуется выполнять обнаружение знаний в образце данных, а затем проводить очистку исходных данных по знаниям, построенных в рамках обнаружения знаний.

  3. Сопоставление полей данных для очистки с подходящими доменами и составными доменами в базе знаний. Если сопоставить поле с составным доменом, то сопоставление выполняется между полем и составным доменом, а не с отдельными доменами, входящими в составной. Кроме того, очистка данных для сопоставленного поля выполняется на основе правил, заданных для составного домена, а не для отдельных доменов, входящих в составной. Дополнительные сведения о составных доменах см. в разделе DQS Knowledge Bases and Domains.

  4. Выполнение автоматического процесса очистки путем нажатия кнопки Запуск на странице Очистка .

Процесс очистки данных ищет наилучшее соответствие экземпляра данных известным значениям домена данных. Этот процесс применяет знания о качестве данных ко всем исходным данным, в отличие от процесса обнаружения знаний, который выполняется только в процентной выборке данных.

В автоматическом процессе сведения о качестве данных отображаются в клиенте Клиент Data Quality , который будет использоваться в интерактивном процессе очистки. Помимо поиска несоответствия синтаксическим правилам, службы DQS также используют эталонные данные и дополнительные алгоритмы для разделения данных по категориям в соответствии с уровнем достоверности. Уровень достоверности определяет экстент уверенности DQS в исправлении данных или создаваемых рекомендациях. Уровень достоверности зависит от следующих пороговых значений.

  • Пороговое значение автоматического исправления , при превышении которого DQS предлагает изменение и вносит его, если диспетчер данных не отклонит изменение. Пороговое значение автоматического исправления вы можете задать на вкладке Общие параметры экрана Конфигурация . Дополнительные сведения см. в статье Настройка пороговых значений для очистки и сопоставления.

  • Пороговое значение автоматической рекомендации , которое ниже порогового значения автоматического исправления. При его превышении DQS предлагает изменение и вносит его, если диспетчер утвердит изменение. Пороговое значение автоматической рекомендации вы можете задать на вкладке Общие параметры экрана Конфигурация . Дополнительные сведения см. в статье Настройка пороговых значений для очистки и сопоставления.

Любое значение с уровнем достоверности ниже порогового значения автоматической рекомендации оставляется DQS без изменений, если диспетчер данных не указывает изменение.

Интерактивная очистка

По результатам автоматического процесса очистки DQS предоставляет диспетчеру данных необходимую информацию для принятия решения об изменении данных. DQS классифицирует данные по пяти следующим вкладкам.

  • Предложено: значения, для которых DQS обнаруживает рекомендации, имеющие уровень достоверности выше порогового значения автоматической рекомендации , но ниже порогового значения автоматического исправления . Необходимо просмотреть эти значения и либо утвердить, либо отклонить их.

  • Новое: допустимые значения, для которых службы DQS не имеют достаточно сведений (предложение) и поэтому не могут быть сопоставлены с другими вкладками. Кроме того, эта вкладка содержит значения, уровень достоверности которых меньше порогового значения автоматического предложения , но достаточно высокий, чтобы быть отмеченным как допустимый.

  • Недопустимо: значения, которые были помечены как недопустимые в домене базы знаний, или значения, которые оказались несоответствующими правилам домена или эталонным данным. На этой вкладке также содержатся значения, отклоненные пользователем на остальных четырех вкладках в ходе интерактивного процесса очистки.

  • Исправлено: значения, которые были исправлены DQS в процессе автоматической очистки, так как для значения обнаружено исправление с уровнем достоверности выше порогового значения автоматического исправления . На этой вкладке также содержатся значения, для которых пользователь указал правильное значение в столбце Исправить на в ходе интерактивной очистки, а затем утвердил значение, выбрав переключатель в столбце Утвердить на любой из четырех других вкладок.

  • Правильно: обнаруженные правильные значения. Например, значение, которое соответствует значению домена. В случае необходимости вы можете переопределить очистку DQS, отклонив значения на этой вкладке или указав альтернативное слово в столбце Исправить на , а затем выбрав переключатель в столбце Принять . На этой вкладке также содержатся значения, утвержденные пользователем в ходе интерактивной очистки путем выбора переключателя в столбце Утвердить на вкладке Новые или Недопустимые .

Примечание

На вкладках Рекомендуемые, Исправленныеи Правильные DQS показывает начальное значение для домена (если применимо) в столбце Исправить на для соответствующего значения домена.

Диспетчер данных использует клиент Клиент Data Quality для просмотра изменений, предложенных DQS, и принятия решения о необходимости их применения. Диспетчер может проверить значения, обозначенные DQS как правильные. Диспетчер данных может проверить, внесены ли изменения с высоким уровнем достоверности, уже внесенные службами DQS. Диспетчер данных может принять или отклонить изменения, предложенные автоматически. Диспетчер данных может просмотреть значения, которые не были изменены, на случай, если в них необходимо внести изменения, даже если автоматический процесс этого не обнаружил.

DQS объединяет все изменения, внесенные диспетчером данных, с результатами автоматической очистки данных. Изменения останутся с проектом, но не будут добавлены в базу знаний. Во время очистки данных соответствующая база знаний доступна только для чтения.

После завершения процесса очистки данных вы можете экспортировать обработанные данные в новую таблицу в базе данных SQL Server, в CSV-файл или файл Excel. Исходные данные, для которых выполнялась очистка, остаются в исходном состоянии. Диспетчер данных может использовать отдельные очищенные данные для исправления фактических исходных данных.

На следующем рисунке показана очистка данных в приложении Клиент Data Quality .

Очистка данных в клиенте Data Quality

Исправление начального значения

Исправление начального значения относится к значениям домена, имеющим синонимы, когда пользователю нужно использовать один из синонимов в качестве начального значения для согласованного представления этого значения. Например, термины "Петербург", "Санкт-Петербург" и "Северная столица" являются синонимами, а пользователю нужно использовать начальное значение "Санкт-Петербург". DQS поддерживает исправление начального значения в процессе очистки для упрощения стандартизации данных. Исправление начального значения выполняется, только если при создании домена в нем была включена эта операция. По умолчанию исправление начального значения включается для всех доменов, если при создании домена не снят флажок Использовать начальные значения . Дополнительные сведения об этом флажке см. в разделе Set Domain Properties.

Стандартизация очищенных данных

Можно выбрать, будут ли очищенные данные экспортироваться в стандартном формате на основе формата вывода, определенного для доменов. При создании домена вы можете выбрать форматирование, которое будет применяться при выводе значений данных в домене. Дополнительные сведения об указании форматов вывода для домена см. в списке Формат вывода в разделе Set Domain Properties.

При экспорте очищенных данных на странице Экспорт в мастере проектов качества данных указывается, будут ли очищенные данные экспортироваться в стандартном формате. Для этого устанавливается флажок Стандартный вывод . По умолчанию очищенные данные экспортируются в стандартном формате, то есть этот флажок установлен. Дополнительные сведения об экспорте очищенных данных см. в разделе Очистка данных с использованием набора знаний служб DQS (внутренних).

Описание задачи Раздел
Описывает настройку пороговых значений для операции очистки. Настройка пороговых значений для очистки и сопоставления
Описывает очистку данных с использованием знаний, построенных в DQS. Очистка данных с использованием набора знаний служб DQS (внутренних)
Описывает очистку данных с использованием знаний, полученных от службы эталонных данных. Очистка данных с использованием набора знаний об эталонных данных (внешних)
Описывает очистку составного домена. Очистка данных в составном домене

См. также:

Проекты служб Data Quality (DQS)
Сопоставление данных