DQS의 데이터 프로파일링 및 알림Data Profiling and Notifications in DQS

DQS( Data Quality ServicesData Quality Services )의 데이터 프로파일링은 기존 데이터 원본의 데이터를 분석하고 DQS 작업의 데이터에 대한 통계를 표시하는 프로세스입니다.Data profiling in Data Quality ServicesData Quality Services (DQS) is the process of analyzing the data in an existing data source, and displaying statistics about the data in DQS activities. 자동화된 데이터 품질 평가를 제공합니다.It provides you with automated measurements of data quality. DQS 프로파일링은 DQS 기술 자료 관리 및 데이터 품질 프로젝트에 통합되어 있습니다.DQS profiling is integrated into DQS knowledge management and data-quality projects. 동적이며 조정 가능합니다.It is dynamic and adjustable. 프로파일링에는 두 가지 주요 목표가 있습니다. 첫째는 데이터 품질 프로세스를 안내하고 의사 결정을 지원하는 것이고, 둘째는 프로세스의 효율성을 평가하는 것입니다.Profiling has two major goals: first, to guide you through data quality processes and support your decisions, and second, to assess the effectiveness of the processes. DQS 프로파일링 프로세스에는 다음과 같은 이점이 있습니다.The DQS profiling process has the following benefits:

  • 프로파일링은 원본 데이터의 품질에 대한 통찰력을 제공하고 데이터 품질 문제를 식별하도록 도와줍니다.Profiling provides insight into the quality of your source data, and helps you identify data quality issues.

  • 프로파일링은 데이터 품질 프로세스의 효율성을 평가하여 기술 자료 검색, 데이터 정리, 일치 정책 및 일치 작업의 과정을 설명합니다.Profiling assesses the effectiveness of data quality processes, guiding you in your knowledge discovery, data cleansing, matching policy, and matching work.

  • 프로파일링은 가장 적절한 시간에 가장 적절한 정보를 제공합니다.Profiling presents you with the most relevant information at the most relevant time.

  • 프로파일링 프로세스는 조치가 필요한 중요한 통계 또는 이벤트를 강조하는 알림을 생성합니다.The profiling process generates notifications that emphasize important statistics or events that may warrant action. 대부분의 경우 DQS 알림은 특정 상태를 나타내고 해당 상태를 해결하기 위해 수행할 수 있는 작업을 권장합니다.In many cases, DQS notifications will indicate a condition and recommend the action that you can take to remedy that condition.

    프로파일링을 통해 Data Quality Services를 기술 자료 검색, 정리 및 일치 용도뿐만 아니라 분석 도구로도 사용할 수 있습니다.Profiling enables you to use Data Quality Services not only for knowledge discovery, cleansing, and matching, but also as an analysis tool. 분석용 기술 자료를 하나 만들고 해당 기술 자료로 기술 자료 검색을 실행하여 프로파일 통계를 통해 기술 자료가 검색, 정리 및 일치 요구 사항을 만족하는지 파악할 수 있습니다.You may want to create one knowledge base for analysis, and run knowledge discovery using that knowledge base to determine from the profiling statistics whether the knowledge base satisfies your discovery, cleansing, and matching needs.

프로파일 작동 방식 How Profiling Works

프로파일링은 기술 자료의 품질을 평가하지 않습니다.Profiling does not measure the quality of the knowledge base. 원본 데이터의 품질을 평가합니다.It measures the quality of the source data. 프로파일링은 원본 데이터에 대한 기술 자료 관리 또는 데이터 품질 프로젝트에서 수행 중인 특정 작업의 결과를 나타내는 통계를 제공합니다.Profiling provides you with statistics that indicate the effect of the specific operation that you are doing in knowledge management or a data quality project on your source data. 프로파일링은 항상 현재 수행 중인 특정 작업의 컨텍스트에서 실행됩니다.Profiling is always in the context of the specific activity that you are performing. 특정 화면에서 프로파일링 탭을 클릭하면 현재 수행 중인 작업의 단계를 나가지 않고도 프로파일링 데이터를 표시할 수 있습니다.You can click the profiling tab in a screen to display profiling data without leaving the stage of the activity that you are performing. 프로파일링 테이블은 프로세스가 수행될 때 실시간으로 채워지므로 데이터 품질 태스크를 수행하면서 해당 태스크를 평가할 수 있습니다.The profiling table is populated in real time as the process is performed, enabling you to assess data quality tasks as you are performing them. 정리 또는 중복 제거 후 원본 데이터가 개선되었는지, 그렇다면 얼마나 개선되었는지 확인할 수 있습니다.You can determine whether source data is better after cleansing or de-duplication, and by how much.

모든 프로파일링 숫자는 값의 발생 횟수를 나타내며 고유성 메트릭을 제외하고 대부분 합계에 대한 백분율로 표시됩니다.All profiling numbers refer to the number of appearances of a value, and in many cases the percent of the total, with the exception of uniqueness metrics. 고유성 메트릭은 값의 발생 횟수에 관계없이 값의 절대 개수를 나타냅니다.Uniqueness metrics refer to the absolute number of values, regardless of the number of appearances of those values.

프로파일링은 DQS 기술 자료 기반 솔루션의 일부입니다.Profiling is part of the DQS knowledge-driven solution. 데이터 원본 필드와 기술 자료 도메인 간 매핑에 따라 기술 자료, 일치 또는 데이터 정리 프로세스에 대한 정보를 제공합니다.It provides information on a knowledge base, matching, or data cleansing process based upon the mapping between data source fields and knowledge base domains. 프로파일링은 매핑이 완료된 후에만 수행됩니다. 작업의 매핑 단계 도중에는 수행되지 않습니다.Profiling is performed only after mapping is complete; no profiling is performed during the mapping stage of any activity. 프로파일링은 항상 특정 작업에 연결됩니다.Profiling is always attached to an activity. 프로파일링 프로세스는 도메인의 데이터가 아니라 도메인에 매핑된 데이터에 대해 수행됩니다.The profiling process is performed on the data that is mapped to domains, not on the data in the domains. 프로파일링은 다음과 같은 작업 단계에 통합되어 있습니다.Profiling is integrated into the following steps of activities:

  • 기술 자료 검색 작업의 검색도메인 값 관리 단계The Discover and Manage domain values steps of the Knowledge discovery activity

  • 정리 작업의 정리결과 관리 및 보기 단계The Cleanse and Manage and view results steps of the Cleansing activity

  • 일치 정책 작업의 일치 정책일치 결과 단계The Matching policy and Matching results steps of the Matching policy activity

  • 일치 정책 작업의 일치내보내기 단계The Matching and Export steps of the Matching activity

    DQS에서는 도메인 관리 작업에 대한 프로파일링 통계를 제공하지 않습니다.DQS does not provide profiling statistics for the Domain Management activity.

작업별 데이터 프로파일링 Profiling Data by Activity

DQS 프로파일링에서는 완결성(데이터가 존재하는 정도), 정확도(데이터를 의도된 용도에 맞게 사용할 수 있는 정도) 및 고유성(여러 값이 여러 엔터티를 나타내는 정도)의 표준 데이터 품질 차원을 사용하여 데이터의 품질을 나타냅니다.DQS profiling uses standard data quality dimensions to represent the quality of the data: completeness (the extent to which data is present), accuracy (the extent to which data can be used for its intended use), and uniqueness (the extent to which different values represent different entities). 기본적으로 NULL과 빈 값은 누락되었거나 완결성 백분율이 낮은 것으로 간주됩니다. 그러나 다른 값을 NULL에 해당하는 값으로 정의할 수 있으며, 이 경우 이러한 값은 누락된 것으로 간주됩니다.By default, NULL and empty values are considered to be missing, or lower the completeness percentage; however, you can also define other values to be NULL-equivalent, in which case they will also be considered to be missing.

프로파일링에서 프로세스를 평가하는 데 필요한 통계를 제공하지만 통계 해석은 사용자가 수행해야 합니다.Profiling provides you with the statistics you need to assess your processes, but you must interpret the statistics. 통계를 열 단위로 보면서 프로파일링의 결과를 이해하세요.Make sense of what profiling is telling you by looking at the statistics column by column.

DQS 작업에는 다음과 같은 여러 프로파일링 통계 집합이 있습니다.The DQS activities have different sets of profiling statistics, as follows:

  • 정리 작업에만 정확도에 대한 프로파일링 통계가 있습니다(도메인별 백분율).Only the Cleansing activity has profiling statistics for accuracy (in percent by domain). 정확도는 유효성, 일관성, 구문 오류 및 도메인 규칙의 영향을 받습니다.Accuracy is affecting by validity, consistency, syntax errors, and domain rules.

  • 정리 작업에만 원본의 올바름, 수정됨 및 제안과 도메인별 수정됨 및 제안 값에 대한 프로파일링 통계가 있습니다(모두 백분율).Only the Cleansing activity has profiling statistics for correct, corrected, and suggested in the source, and corrected and suggested values by domain (both number of percent).

  • 정리 및 기술 자료 검색 작업에는 유효성에 대한 프로파일링 통계가 있습니다(레코드별 정리, 레코드 및 도메인별 기술 자료 검색).The Cleansing and Knowledge Discovery activities have profiling statistics for validity (Cleansing by record, Knowledge Discovery by record and domain). 일치 정책과 일치 작업에는 유효성에 대한 통계가 없습니다.The Matching Policy and Matching activities do not have statistics for validity.

  • 정리 작업에는 고유성에 대한 프로파일링 통계가 없습니다.The Cleansing activity does not have profiling statistics for uniqueness. 기술 자료 검색, 일치 정책 및 일치 작업에는 원본에 대한 고유성과 도메인별 고유성에 대한 숫자와 백분율 단위의 프로파일링 통계가 있습니다.The Knowledge Discovery, Matching Policy, and Matching activities have profiling statistics for uniqueness in number and percent for the source and by domain.

    특정 작업과 관련된 특정 프로파일링 통계에 대한 자세한 내용은 다음 항목의 프로파일링 섹션을 참조하세요.For more information about the specific profiling statistics related to an activity, see the Profiling sections in the following topics:

  • 기술 자료 검색 수행Perform Knowledge Discovery

  • DQS(내부) 기술 자료를 사용하여 데이터 정리Cleanse Data Using DQS (Internal) Knowledge

  • 일치 정책 만들기Create a Matching Policy

  • 일치 프로젝트 실행Run a Matching Project

작업 모니터링 데이터 프로파일링 Profiling Data in Activity Monitoring

기술 자료 검색, 일치 정책, 일치 및 정리 작업에 대한 프로파일링 정보는 Data Quality 클라이언트의 작업 페이지뿐만 아니라 작업 모니터링에서도 볼 수 있습니다.Profiling information for the Knowledge Discovery, Matching Policy, Matching, and Cleansing activities is available not only in the activity pages in the Data Quality client, but also in activity monitoring. 작업 모니터링은 현재 및 이전 작업에 대한 개요를 제공합니다.Activity monitoring provides you with an overview of current and past activities. 작업의 속성 및 관련 계산 프로세스 외에도 각 작업에 대해 생성된 프로파일링 정보를 한 곳에서 볼 수 있습니다.In addition to the properties and related computational processes of activities, you can view the profiling information generated for each activity in one location. 작업 테이블에서 특정 작업을 선택하여 아래 테이블에 프로파일링 결과를 표시할 수 있습니다.You select an activity in the activity table to display profiling results in a table below. 또한 프로파일링 결과를 내보낼 수도 있습니다.You can also export the profiling results. 자세한 내용은 DQS Administration을 참조하세요.For more information, see DQS Administration.

알림 Notifications

DQS에서는 프로파일링을 통해 중요한 통계와 메트릭을 수집하고 표시하는 것 외에도 표시된 프로파일링 통계에 따라 작업을 수행해야 할 시기를 알려 주는 알림을 생성합니다(설정된 경우).In addition to collecting and displaying important statistics and metrics through profiling, DQS will generate notifications (if enabled) to indicate when you may want to take an action based on the displayed profiling statistics. DQS에서는 알림을 사용하여 데이터 원본에 대한 중요한 사실을 강조하고 실행 목적을 기준으로 한 현재 작업의 효율성을 표시합니다.DQS uses notifications to emphasize important facts about the data source, and to show the effectiveness of the current activity relative to the purpose for which it was executed. 알림은 팁과 권장 사항을 제공하여 특정 상태를 나타내고 기술 자료 검색, 데이터 정리 또는 데이터 일치 작업을 개선할 수 있는 방법을 권장합니다.Notifications provide tips and recommendations that indicate a condition and recommend how you could improve a knowledge discovery, data cleansing, or data matching activity.

DQS 알림은 사용자가 관심을 가질만한 문제를 언급하거나 잠재적인 문제를 해결하는 데 사용됩니다.A DQS notification is used to raise an issue that may interest you, or to address a potential problem. 알림이 목적과 관련이 있는지에 따라 알림에 대해 작업을 수행할지 여부가 달라집니다.Whether you act upon the notification depends upon whether it is relevant to your purposes. 예를 들어 완결성과 정확도가 모두 100%인 상태에서 데이터 정리가 수정된 값이나 제안된 값을 생성하지 않은 경우 DQS에서 알림을 게시했다고 가정하겠습니다.For example, suppose DQS posts a notification when data cleansing produces no corrected values or suggested values while completeness and accuracy are both 100%. 이 알림에서는 작업을 실행할 필요가 없다는 메시지가 표시될 것입니다.This notification would indicate that the activity may not need to be run. 그러나 작업을 실행하도록 선택할지 여부는 사용자가 결정할 일입니다.Whether you choose to run the activity, however, is your decision.

알림은 프로파일링 탭에서 느낌표가 있는 도구 설명으로 표시됩니다. 알림과 관련된 통계가 빨간색으로 표시되어 알림에 대한 통계적 이유를 알려줍니다.A notification is indicated by a tool tip with an exclamation point in the Profiling tab. Statistics associated with the notification are colored red to indicate the statistical justification for the notification.

Data Quality 클라이언트 홈 페이지의 관리 섹션에 있는 일반 설정 탭에서 알림을 설정하거나(기본값) 해제할 수 있습니다.You can enable (the default) or disable notifications in the General Settings tab of the Administration section of the Data Quality Client home page. 알림이 해제되면 도구 설명이 표시되지 않고 통계가 빨간색으로 표시되지 않습니다.When notification is disabled, tool tips are not displayed and statistics are not colored red. 알림을 해제할 경우 성능에 큰 이점은 없습니다.There is no significant improvement in performance by disabling notifications. 알림을 해제해도 프로파일링은 계속 작동합니다.Profiling will still be operational if you disable notifications.

특정 작업에 대한 알림과 관련된 특정 상태는 다음을 참조하세요.For specific conditions associated with notifications for an activity, see the following:

태스크 설명Task Description 항목Topic
DQS에서 알림을 설정 또는 해제하는 방법에 대해 설명합니다.Describes how to enable or disable notifications in DQS. DQS에서 프로파일링 알림 설정 또는 해제Enable or Disable Profiling Notifications in DQS