Проекты служб Data Quality Services (DQS)

Применимо к:SQL Server

Проект качества данных в службах качества данных (DQS) — это средство использования базы знаний для повышения качества исходных данных путем выполнения действий очистки и сопоставления данных, а затем экспорта результирующих данных в базу данных SQL Server или CSV-файл. Вы можете создать проект служб DQS как проект очистки или проект сопоставления для выполнения соответствующих операций. Проекты очистки и сопоставления вы можете выполнять с использованием одной базы знаний, так как знания для очистки и сопоставления данных могут быть встроены в ту же базу знаний.

Проект служб DQS имеет следующие преимущества.

  • Позволяет выполнять очистку данных в источнике данных, используя знания в базе знаний DQS.

  • Позволяет выполнять сопоставление данных в источнике данных, используя политику сопоставления в базе знаний.

  • Предоставляет мастер, помогающий выполнить операции очистки и сопоставления данных, и экспорт данных в базу данных SQL Server или файл CSV по выбору пользователя. Администратор данных использует проект служб DQS для запуска автоматических и интерактивных шагов очистки и сопоставления данных и для управления ими.

Проект качества данных: операция очистки

Проект очистки данных позволяет очистить исходные данные на основе базы знаний. Операция очистки данных в службах DQS представляет собой двухэтапный процесс.

  1. Автоматический процесс очистки данных, который анализирует исходные данные, сравнивая их со знаниями в базе знаний, и предлагает изменения. Обработанные данные разбиваются службами DQS на категории (предложенные, новые, недопустимые, исправленные и правильные) и выдаются пользователю для дальнейшей обработки.

  2. В интерактивном процессе очистки диспетчер данных может одобрить, отвергнуть или изменить данные, предложенные автоматическим процессом очистки данных.

Дополнительные сведения об очистке данных в проекте служб DQS см. в разделе Data Cleansing.

Проект качества данных: операция сопоставления

Проект сопоставления данных позволяет выполнить операцию сопоставления на основе политики сопоставления в базе знаний с целью предотвратить дублирование данных путем определения точных и приблизительных совпадений. Таким образом, пользователь может удалить повторяющиеся данные. Рекомендуется очистить данные перед их сопоставлением. Для этого:

  1. Создайте проект служб DQS, выберите операцию Очистка , выполните операцию очистки исходных данных, а затем экспортируйте их в таблицу в базе данных SQL Server.

  2. Создайте другой проект служб DQS с использованием базы знаний, содержащей политику сопоставления, выберите операцию Сопоставление , а затем на странице Сопоставить выберите базу данных и таблицу, в которую экспортированы данные, очищенные на шаге 1.

  3. Выполните операцию сопоставления над очищенными данными.

Подробные сведения об операции сопоставления в проекте служб DQS см. в разделе Data Matching.

Профилирование данных и уведомления

Во время операций очистки и сопоставления данных в проекте качества данных вы можете получать статистику и информацию о данных, обрабатываемых службами DQS, в реальном времени. Профилирование данных поможет оценить эффективность процессов очистки и сопоставления и определить, насколько очистка и сопоставление помогли улучшить качество данных. Профилирование служб DQS предоставляет два измерения качества данных: полнота (степень, в которой представлены данные) и точность (степень, в которой данные могут использоваться по намеченному назначению). Кроме того, на основе профилирования данных пользователю выдаются уведомления о действиях, которые можно предпринять для улучшения операций очистки и сопоставления данных. Дополнительные сведения о профилировании данных и уведомлениях см. в разделе Data Profiling and Notifications in DQS.

Описание задачи Раздел
Описывает создание проекта служб DQS. Создание проекта служб DQS
Описывает, как открывать, разблокировать, переименовывать и удалять проекты служб DQS. Открытие, разблокировка, переименование и удаление проекта служб DQS
Описывается, как открыть проект служб Integration Services в клиенте data Quality Client. Открытие проектов служб Integration Services в клиенте DQS

См. также

Базы знаний и домены DQS