Профилирование данных и уведомления в DQS

Применимо к:SQL Server

Профилирование данных в службах качества данных (DQS) — это процесс анализа данных в существующем источнике данных и отображение статистики о данных в действиях DQS. Оно дает возможности автоматического измерения качества данных. Профилирование DQS интегрировано в проекты управления наборами знаний и качества данных в службах DQS. она динамическая и настраиваемая. Профилирование служит двум основным задачам: во-первых, оно предоставляет рекомендации по процессам обеспечения качества данных и поддержке решений, во-вторых, помогает оценивать эффективность процессов. Процесс профилирования DQS имеет следующие преимущества.

  • Профилирование позволяет оценить качество исходных данных и помогает выявить возможные проблемы, связанные с качеством данных.

  • Профилирование оценивает эффективность процессов обеспечения качества данных, предоставляет рекомендации при обнаружении знаний, очистке данных, для политики сопоставления и при работе по сопоставлению.

  • Профилирование предоставляет наиболее соответствующую информацию в наиболее соответствующее время.

  • Процесс профилирования создает уведомления, которые подчеркивают важную статистику или события, которые могут заслуживают действий. Во многих случаях уведомления DQS сообщают о состоянии и рекомендуют действие, которое вы можете предпринять для устранения этого состояния.

Профилирование позволяет использовать службы Data Quality Services не только для обнаружения знаний, очистки и сопоставления, но и как средство анализа. Можно создать базу знаний для анализа и проводить обнаружение знаний с помощью этой базы данных, определяя на основе статистики профилирования, соответствует ли база знаний вашим потребностям по обнаружению, очистке и сопоставлению.

Как работает профилирование

Профилирование не измеряет качество базы знаний. Оно измеряет качество исходных данных. Профилирование предоставляет статистику, которая указывает на влияние конкретной операции, выполняемой при управлении знаниями или проекте качества данных на исходных данных. Профилирование всегда находится в контексте конкретного действия, которое вы делаете. На экране можно щелкнуть вкладку профилирования, чтобы отобразить данные профилирования, не покидая этап действия, которое вы делаете. Таблица профилирования заполняется в режиме реального времени при выполнении процесса, что позволяет оценить задачи качества данных по мере их выполнения. Вы можете определить, улучшила ли источник данных очистка или дедупликация, и если да — то насколько.

Все числа профилирования относятся к количеству внешних значений, и во многих случаях относится к проценту общего числа, за исключением метрик уникальности. Метрики уникальности ссылаются на абсолютное число значений, вне зависимости от количества вхождений этих значений.

Профилирование является частью основанного на знаниях решения DQS. Оно предоставляет информацию по базе знаний, сопоставлению или процессу очистки данных, основанную на сопоставлении полей источника данных и доменов базы знаний. Профиль выполняется только после завершения сопоставления; во время этапа сопоставления любого действия не выполняется профилирование. Профилирование всегда присоединяется к действию. Процесс профилирования выполняется на данных, сопоставленных с доменами, а не на данных в доменах. Он интегрирован в следующие действия.

  • Шаги Обнаружение и Управление значениями домена действия «Обнаружение набора знаний»

  • Шаги Очистка и Просмотр результатов и управление ими действия «Очистка»

  • Шаги Политика сопоставления и Результаты сопоставления действия «Политика сопоставления»

  • Шаги Сопоставление и Экспорт действия «Сопоставление»

DQS не предоставляет статистику профилирования для действия управления доменами.

Профилирование данных по видам действий

Профилирование DQS использует измерения качества данных для представления качества данных: полнота (степень, в которой представлены данные), точность (степень, в которой данные могут использоваться по предполагаемому назначению) и уникальность (степень, в которой различные значения представляют различные сущности). По умолчанию значения NULL и пустые значения считаются отсутствующими или ниже процента завершения; однако можно также определить другие значения, равные NULL, в этом случае они также будут считаться отсутствующими.

Профилирование предоставляет статистику, необходимую для оценки процессов, но эту статистику нужно интерпретировать. Чтобы определить смысл информации, полученной при профилировании, просмотрите статистику по столбцам.

У действий DQS имеются различные наборы статистических показателей профилирования, описанные ниже.

  • Только у действия «Очистка» имеется статистика профилирования по точности (в процентах по доменам). На точность влияют действительность, согласованность, синтаксические ошибки и правила доменов.

  • Только у действия «Очистка» имеется статистика профилирования по правильным, исправленным и предлагаемым значениям в источнике, а также исправленным и предлагаемым значениям по доменам (все величины в процентах).

  • У действий «Очистка» и «Обнаружение набора знаний» имеется статистика профилирования по допустимости (для очистки — по записям, для обнаружения наборов знаний — по записям и доменам). Действия политики сопоставления и сопоставления не имеют статистики по действительности.

  • Действие очистки не содержит статистику профилирования для уникальности. У действий «Обнаружение набора знаний», «Политика сопоставления» и «Сопоставление» имеется статистика профилирования по уникальности в численности и в процентной доле для источника и по доменам.

Дополнительные сведения о конкретной статистике профилирования, связанной с действием, см. в разделах профилирования в следующих статьях:

Профилирование данных в мониторинге активности

Сведения о профилировании для действий обнаружения знаний, политики сопоставления, сопоставления и очистки доступны не только на страницах действий в клиенте качества данных, но и в мониторинге действий. Мониторинг активности представляет общие сведения о текущих и прошлых действиях. Кроме свойств действий и связанных с ними вычислительных процессов, можно просматривать в едином расположении информацию по профилированию, созданную для каждого из действий. Выберите действие в таблице действий, чтобы отобразить результаты профилирования в таблице ниже. Результаты профилирования также можно экспортировать. Дополнительные сведения см. в статье DQS Administration.

Уведомления

Кроме сбора и отображения важных статистических показателей и метрик посредством профилирования, службы DQS также будут создавать уведомления (если они включены), сообщая, что по отображаемым статистикам профилирования может потребоваться предпринять те или иные меры. DQS использует уведомления, чтобы подчеркнуть важные факты о источнике данных и показать эффективность текущей активности по сравнению с целью, для которой она была выполнена. Уведомления содержат советы и рекомендации, указывающие на состояние и подсказывающие, как можно улучшить действие обнаружения наборов знаний, очистки данных или сопоставления данных.

Уведомление DQS используется, чтобы привлечь внимание к вопросу, который может оказаться важным, или сообщить о потенциальной проблеме. Независимо от того, действуете ли вы на уведомление, зависит ли оно от того, относится ли оно к вашим целям. Например, DQS может опубликовать уведомление, если очистка данных не произведет исправленных или предлагаемых значений, в то время как полнота и точность равны 100 %. Это уведомление будет означать, что запускать действие не требуется. Однако решение о запуске действия вы принимаете самостоятельно.

Уведомление указывается подсказкой средства с восклицательным знаком на вкладке профилирования . Статистика, связанная с уведомлением, цветом красным цветом, чтобы указать статистическое обоснование уведомления.

Уведомления вы можете включить (режим по умолчанию) или отключить на вкладке Общие параметры раздела Администрирование домашней страницы клиента DQS. Если уведомление отключено, подсказки инструментов не отображаются, а статистика не окрашена красным цветом. Нет значительного улучшения производительности путем отключения уведомлений. При отключенных уведомлениях профилирование продолжает работать.

Сведения об определенных условиях, связанных с уведомлениями о действии, см. в следующих статьях:

Описание задачи Статья
Описывает включение и отключение уведомлений в DQS. Включение или отключение уведомлений по профилированию в DQS