Профилирование данных и уведомления в DQS

Профилирование данных в Службы Data Quality Services (DQS) — это процесс анализа данных в существующем источнике данных и отображения статистики по данным в действиях DQS. Оно дает возможности автоматического измерения качества данных. Профилирование DQS интегрировано в проекты управления наборами знаний и качества данных в службах DQS. Это динамический и настраиваемый процесс. Профилирование служит двум основным задачам: во-первых, оно предоставляет рекомендации по процессам обеспечения качества данных и поддержке решений, во-вторых, помогает оценивать эффективность процессов. Процесс профилирования DQS имеет следующие преимущества.

  • Профилирование позволяет оценить качество исходных данных и помогает выявить возможные проблемы, связанные с качеством данных.

  • Профилирование оценивает эффективность процессов обеспечения качества данных, предоставляет рекомендации при обнаружении знаний, очистке данных, для политики сопоставления и при работе по сопоставлению.

  • Профилирование предоставляет наиболее соответствующую информацию в наиболее соответствующее время.

  • Процесс профилирования формирует уведомления, в которых выделяются важные статистические показатели или события, вероятно, требующие принятия тех или иных мер. Во многих случаях уведомления DQS сообщают о состоянии и рекомендуют действие, которое вы можете предпринять для устранения этого состояния.

Профилирование позволяет использовать службы Data Quality Services не только для обнаружения знаний, очистки и сопоставления, но и как средство анализа. Можно создать базу знаний для анализа и проводить обнаружение знаний с помощью этой базы данных, определяя на основе статистики профилирования, соответствует ли база знаний вашим потребностям по обнаружению, очистке и сопоставлению.

В этом разделе

  • Как работает профилирование

  • Профилирование данных по видам действий

  • Профилирование данных в мониторинге активности

  • Уведомления

Как работает профилирование

Профилирование не измеряет качество базы знаний. Оно измеряет качество исходных данных. Профилирование предоставляет статистические показатели, указывающие влияние конкретной производимой в управлении наборами знаний или проекте качества данных операции на исходные данные. Профилирование всегда проводится в контексте конкретных выполняемых видов деятельности. Можно щелкнуть вкладку профилирования на экране, чтобы отобразить данные профилирования без выхода из выполняемой стадии действия. Таблица профилирования заполняется в режиме реального времени по ходу выполнения процесса, что позволяет получать доступ к задачам контроля качества в процессе их выполнения. Вы можете определить, улучшила ли источник данных очистка или дедупликация, и если да — то насколько.

Все численные показатели профилирования связаны с числом вхождений значения и во многих случаях представляют процент от общего количества, за исключением метрик уникальности. Метрики уникальности ссылаются на абсолютное число значений, вне зависимости от количества вхождений этих значений.

Профилирование является частью основанного на знаниях решения DQS. Оно предоставляет информацию по базе знаний, сопоставлению или процессу очистки данных, основанную на сопоставлении полей источника данных и доменов базы знаний. Профилирование выполняется только после завершения сопоставления; оно не осуществляется на этапе составления карт любой деятельности. Профилирование всегда присоединяется к действию. Процесс профилирования производится над сопоставляемыми с доменами данными, а не над данными в доменах. Профилирование интегрировано в следующие шаги действий:

  • Шаги Обнаружение и Управление значениями домена действия «Обнаружение набора знаний»

  • Шаги Очистка и Управление и просмотр результатов действия «Очистка»

  • Шаги Политика сопоставления и Результаты сопоставления действия «Политика сопоставления»

  • Шаги Сопоставление и Экспорт действия «Сопоставление»

Службы DQS не предоставляют статистических данных по профилированию для действия «Управление доменами».

Значок стрелки, используемый со ссылкой «В начало»[Top]

Профилирование данных по видам действий

Профилирование DQS использует измерения качества данных для представления качества данных: полнота (степень, в которой представлены данные), точность (степень, в которой данные могут использоваться по предполагаемому назначению) и уникальность (степень, в которой различные значения представляют различные сущности). По умолчанию значения NULL и пустые значения считаются отсутствующими или понижающими процент полноты; однако можно определить другие значения как эквиваленты значения NULL, в этом случае они будут также считаться отсутствующими.

Профилирование предоставляет статистику, необходимую для оценки процессов, но эту статистику нужно интерпретировать. Чтобы определить смысл информации, полученной при профилировании, просмотрите статистику по столбцам.

У действий DQS имеются различные наборы статистических показателей профилирования, описанные ниже.

  • Только у действия «Очистка» имеется статистика профилирования по точности (в процентах по доменам). На точность влияют действительность, согласованность, синтаксические ошибки и правила доменов.

  • Только у действия «Очистка» имеется статистика профилирования по правильным, исправленным и предлагаемым значениям в источнике, а также исправленным и предлагаемым значениям по доменам (все величины в процентах).

  • У действий «Очистка» и «Обнаружение набора знаний» имеется статистика профилирования по допустимости (для очистки — по записям, для обнаружения наборов знаний — по записям и доменам). У действий «Политика сопоставления» и «Сопоставление» нет статистики по допустимости.

  • У действия «Очистка» нет статистики профилирования по уникальности. У действий «Обнаружение набора знаний», «Политика сопоставления» и «Сопоставление» имеется статистика профилирования по уникальности в численности и в процентной доле для источника и по доменам.

Для получения дополнительных сведений по конкретной статистике профилирования, связанной с действием, см. подразделы «Профилирование» в следующих разделах:

Значок стрелки, используемый со ссылкой «В начало»[Top]

Профилирование данных в мониторинге активности

Информация профилирования для действий «Обнаружение набора знаний», «Политика сопоставления», «Сопоставление» и «Очистка» доступны не только на страницах действий в клиенте DQS, но и в мониторинге активности. Мониторинг активности представляет общие сведения о текущих и прошлых действиях. Кроме свойств действий и связанных с ними вычислительных процессов, можно просматривать в едином расположении информацию по профилированию, созданную для каждого из действий. Выберите действие в таблице действий, чтобы отобразить результаты профилирования в таблице ниже. Результаты профилирования также вы можете экспортировать. Дополнительные сведения см. в разделе Администрирование DQS.

Значок стрелки, используемый со ссылкой «В начало»[Top]

Уведомления

Кроме сбора и отображения важных статистических показателей и метрик посредством профилирования, службы DQS также будут создавать уведомления (если они включены), сообщая, что по отображаемым статистикам профилирования может потребоваться предпринять те или иные меры. DQS использует уведомления, чтобы подчеркнуть важные факты, связанные с источником данных, и показать эффективность текущего действия относительно цели, для которой оно выполнялось. Уведомления содержат советы и рекомендации, указывающие на состояние и подсказывающие, как можно улучшить действие обнаружения наборов знаний, очистки данных или сопоставления данных.

Уведомление DQS используется, чтобы привлечь внимание к вопросу, который может оказаться важным, или сообщить о потенциальной проблеме. Будете ли вы действовать после получения уведомления, зависит от его соответствия вашим задачам. Например, DQS может опубликовать уведомление, если очистка данных не произведет исправленных или предлагаемых значений, в то время как полнота и точность равны 100 %. Это уведомление будет означать, что запускать действие не требуется. Однако решение о запуске действия вы принимаете самостоятельно.

Уведомление обозначается всплывающей подсказкой с восклицательным знаком на вкладке Профилирование. Статистические данные, связанные с уведомлением, отображаются красным цветом, который обозначает статистическое обоснование уведомления.

Уведомления вы можете включить (режим по умолчанию) или отключить на вкладке Общие параметры раздела Администрирование домашней страницы клиента DQS. Когда уведомления отключены, подсказки не отображаются, а статистические данные не выделяются красным цветом. Отключение уведомлений не дает заметного прироста производительности. При отключенных уведомлениях профилирование продолжает работать.

Описание определенных условий, связанных с уведомлениями по действиям, см. в следующих разделах.

Значок стрелки, используемый со ссылкой «В начало»[Top]

Связанные задачи

Описание задачи

Раздел

Описывает включение и отключение уведомлений в DQS.

Включение/отключение уведомлений о профилировании в службах DQS