복합 도메인의 데이터 정리Cleanse Data in a Composite Domain

이 항목에서는 DQS( Data Quality ServicesData Quality Services )의 복합 도메인 정리에 대한 정보를 제공합니다.This topic provides information about cleansing of composite domains in Data Quality ServicesData Quality Services (DQS). 복합 도메인은 둘 이상의 단일 도메인으로 구성되며 여러 관련 용어로 구성된 데이터 필드에 매핑됩니다.A composite domain consists of two or more single domains, and maps to a data field that consists of multiple related terms. 복합 도메인의 개별 도메인은 서로 공통된 정보 영역이 있어야 합니다.The individual domains in a composite domain must have a common area of knowledge. 복합 도메인에 대한 자세한 내용은 Managing a Composite Domain를 참조하세요.For detailed information about composite domains, see Managing a Composite Domain.

원본 데이터에 복합 도메인 매핑 Mapping a Composite Domain to the Source Data

원본 데이터와 복합 도메인을 매핑하는 방법에는 두 가지가 있습니다.There are two ways in which you can map your source data to a composite domain:

  • 원본 데이터는 복합 도메인에 매핑되는 단일 필드입니다(예:Full Name).The source data is a single field (let’s say Full Name), which is mapped to a composite domain.

    • 복합 도메인이 참조 데이터 서비스에 매핑된 경우 원본 데이터가 수정 및 구문 분석을 위해 있는 그대로 참조 데이터 서비스에 전송됩니다.If the composite domain is mapped to a reference data service, the source data will be sent as is to the reference data service for correction and parsing.

    • 복합 도메인이 참조 데이터 서비스에 매핑되지 않은 경우에는 복합 도메인에 대해 정의된 구문 분석 방법에 따라 구문 분석됩니다.If the composite domain is not mapped to a reference data service, will be parsed based on the parsing method defined for the composite domain. 복합 도메인의 구문 분석 방법을 지정하는 방법은 Create a Composite Domain를 참조하세요.For more information about specifying a parsing method for composite domains, see Create a Composite Domain

  • 원본 데이터는 복합 도메인 내 개별 도메인에 매핑되는 여러 필드(예: First Name, Middle Name 및 Last Name)로 구성됩니다.The source data consists of multiple fields (let’s say First Name, Middle Name, and Last Name), which are mapped to individual domains within a composite domain.

    원본 데이터에 복합 도메인을 매핑하는 방법의 예제는 참조 데이터에 도메인 또는 복합 도메인 연결을 참조하세요.For an example of how to map composite domains to source data, see Attach Domain or Composite Domain to Reference Data.

선언적 도메인 간 규칙을 사용하여 데이터 수정 Data Correction using Definitive Cross-Domain Rules

복합 도메인의 도메인 간 규칙을 사용하여 복합 도메인의 개별 도메인 간 관계를 나타내는 규칙을 만들 수 있습니다.Cross-domain rules in composite domain enable you to create rules that indicate relationship between individual domains in a composite domain. 도메인 간 규칙은 복합 도메인과 관련된 원본 데이터에 대해 정리 작업을 실행할 때 고려됩니다.Cross-domain rules are taken into account when you run the cleansing activity on your source data involving composite domains. 선언적 Then 도메인 간 규칙 값이 다음 값과 같음은 도메인 간 규칙의 유효성에 대해 알려줄 뿐만 아니라 데이터 정리 작업 시 데이터를 수정합니다.Apart from just letting you know about the validity of a cross-domain rule, the definitive Then cross-domain rule, Value is equal to, also corrects the data during the data-cleansing activity.

다음 예제를 살펴보세요. 3개의 개별 도메인 ProductName, CompanyName 및 ProductVersion이 있는 복합 도메인 Product가 있습니다.Consider the following example: there is a composite domain, Product, with three individual domains: ProductName, CompanyName, and ProductVersion. 다음과 같은 선언적 도메인 간 규칙을 만드세요.Create the following definitive cross-domain rule:

IF 도메인 'CompanyName' 값이 다음을 포함 Microsoft AND 도메인 'ProductName' 값이 다음 값과 같음 Office AND 'ProductVersion' 값이 다음 값과 같음 2010 THEN 도메인 'ProductName' 값이 다음 값과 같음 Microsoft Office 2010IF Domain ‘CompanyName’ Value contains Microsoft and Domain ‘ProductName’ Value is equal to Office and ‘ProductVersion’ Value is equal to 2010 THEN Domain ‘ProductName’ Value is equal to Microsoft Office 2010.

이 도메인 간 규칙을 실행하면 정리 작업 후 원본 데이터(ProductName)가 다음과 같이 수정됩니다.When this cross-domain rule runs, the source data (ProductName) gets corrected to the following after the cleansing activity:

원본 데이터Source Data

ProductNameProductName CompanyNameCompanyName ProductVersionProductVersion
OfficeOffice Microsoft Inc.Microsoft Inc. 20102010

출력 데이터Output Data

ProductNameProductName CompanyNameCompanyName ProductVersionProductVersion
Microsoft Office 2010Microsoft Office 2010 Microsoft Inc.Microsoft Inc. 20102010

선언적 Then 도메인 간 규칙 값이 다음 값과 같음을 테스트하면 복합 도메인 규칙 테스트 대화 상자에 올바른 데이터를 표시하는 새 열 다음으로 수정이 포함됩니다.When you test the definitive Then cross-domain rule, Value is equal to, the Test Composite Domain Rule dialog box contains a new column, Correct To, which displays the correct data. 정리 데이터 품질 프로젝트에서 이 선언적 도메인 간 규칙이 100% 신뢰도의 데이터를 변경하고, 이유 열에 규칙 '<’에 의해 수정됨 메시지가 표시됩니다.In a cleansing data quality project, this definitive cross-domain rule changes the data with 100% confidence, and the Reason column displays the following message: Corrected by Rule ‘<Cross-Domain Rule Name>’. 도메인 간 규칙에 대한 자세한 내용은 Create a Cross-Domain Rule를 참조하세요.For more information about cross domain rules, see Create a Cross-Domain Rule.

참고

선언적 도메인 간 규칙은 참조 데이터 서비스에 연결된 복합 도메인에 대해 작동하지 않습니다.The definitive cross-domain rule will not work for composite domains that are attached to reference data service.

복합 도메인의 데이터 프로파일링 Data Profiling for Composite Domains

DQS 프로파일링에서는 정리 작업 시 완결성 (데이터가 존재하는 정도)과 정확도 (데이터를 의도된 용도에 맞게 사용할 수 있는 정도)의 두 가지 데이터 품질 차원을 제공합니다.DQS profiling provides two data quality dimensions: completeness (the extent to which data is present) and accuracy (the extent to which data can be used for its intended use) during the cleansing activity. 프로파일링은 복합 도메인에 대한 신뢰할 수 있는 완결성 통계를 제공할 수 없습니다.Profiling may not provide reliable completeness statistics for composite domains. 완결성 통계가 필요한 경우 복합 도메인 대신 단일 도메인을 사용하세요.If you need completeness statistics, use single domains instead of composite domains. 복합 도메인을 사용하려는 경우 프로파일링을 위해 단일 도메인을 사용하는 하나의 기술 자료를 만들어 완결성을 확인하고 정리 작업을 위해 복합 도메인을 사용하는 다른 도메인을 만드는 것이 좋습니다.If you want to use composite domains, you may want to create one knowledge base with single domains for profiling, to determine completeness, and create another domain with a composite domain for the cleansing activity. 예를 들어 프로파일링은 복합 도메인을 사용하는 주소 레코드에 대해 95%의 완결성을 표시할 수 있지만 우편 번호 열과 같은 열의 경우 불완결성 수준이 매우 높을 수 있습니다.For example, profiling could show 95% completeness for address records using a composite domain, but there could be a much higher level of incompleteness for one of the columns, for example, a postal (zip) code column. 이 예에서는 단일 도메인을 사용하는 우편 번호 열의 완결성을 평가하는 것이 좋습니다.In this example, you might want to measure the completeness of the zip code column with a single domain.

프로파일링은 복합 도메인에 대해 신뢰할 수 있는 정확성 통계를 제공할 가능성이 높습니다. 여러 열의 정확성을 함께 평가할 수 있기 때문입니다.Profiling will likely provide reliable accuracy statistics for composite domains because you can measure accuracy for multiple columns together. 이 데이터의 값은 복합 집계 형식이므로 복합 도메인을 사용하여 정확성을 평가하는 것이 좋습니다.The value of this data is in the composite aggregation, so you may want to measure the accuracy with a composite domain.

정리 작업 중 데이터 프로파일링에 대한 자세한 정보는 DQS(내부) 기술 자료를 사용하여 데이터 정리에서 프로파일러 통계를 참조하세요.For detailed information about data profiling during the cleansing activity, see Profiler Statistics in Cleanse Data Using DQS (Internal) Knowledge.