데이터 일치Data Matching

DQS( Data Quality ServicesData Quality Services ) 데이터 일치 프로세스를 통해 데이터 원본에서 데이터 중복을 줄이고 데이터 정확도를 개선할 수 있습니다.The Data Quality ServicesData Quality Services (DQS) data matching process enables you to reduce data duplication and improve data accuracy in a data source. 일치는 단일 데이터 원본의 모든 레코드에서 중복 수준을 분석하고 각 비교 대상 레코드 집합 간 일치 항목에 대한 가중 확률을 반환합니다.Matching analyzes the degree of duplication in all records of a single data source, returning weighted probabilities of a match between each set of records compared. 그런 다음 어떤 레코드가 일치 항목인지 확인하고 원본 데이터에 대해 적절한 작업을 수행할 수 있습니다.You can then decide which records are matches and take the appropriate action on the source data.

DQS 일치 프로세스에는 다음과 같은 이점이 있습니다.The DQS matching process has the following benefits:

  • 일치를 통해 서로 같아야 하는 데이터 값 간에 차이를 없애고 올바른 값을 확인하고 데이터 차이로 인해 발생할 수 있는 오류를 줄일 수 있습니다.Matching enables you to eliminate differences between data values that should be equal, determining the correct value and reducing the errors that data differences can cause. 예를 들어 이름과 주소는 특히 고객 데이터와 같은 데이터 원본에서 식별 데이터로 자주 사용되지만 시간이 지나면서 데이터가 지저분해지고 질이 나빠질 수 있습니다.For example, names and addresses are often the identifying data for a data source, particularly customer data, but the data can become dirty and deteriorate over time. 일치를 수행하여 이러한 오류를 식별하고 수정하면 데이터 사용과 유지 관리가 훨씬 더 쉬워질 수 있습니다.Performing matching to identify and correct these errors can make data use and maintenance much easier.

  • 일치를 통해 동등한 값이 다른 형식이나 스타일로 입력되었는지 확인하여 동등하게 만들 수 있습니다.Matching enables you to ensure that values that are equivalent, but were entered in a different format or style, are rendered uniform.

  • 일치는 정확하게 일치하는 항목 및 근사하게 일치하는 항목을 식별하므로 정의한 대로 중복 데이터를 제거할 수 있습니다.Matching identifies exact and approximate matches, enabling you to remove duplicate data as you define it. 근사하게 일치하는 항목이 실제로 일치 항목이 되는 요소를 정의합니다.You define the point at which an approximate match is in fact a match. 일치에 대해 평가할 필드와 평가하지 않을 필드를 정의합니다.You define which fields are assessed for matching, and which are not.

  • DQS에서는 컴퓨터 기반 프로세스를 사용하여 일치 정책을 만들고, 일치 결과에 따라 정책을 대화식으로 수정하고, 재사용 가능한 정책을 기술 자료에 추가할 수 있습니다.DQS enables you to create a matching policy using a computer-assisted process, modify it interactively based upon matching results, and add it to a knowledge base that is reusable.

  • 일치 정책 및 원본 데이터의 상태에 따라 원본에서 준비 테이블로 복사된 데이터의 인덱스를 다시 만들거나 만들지 않을 수 있습니다.You can re-index data copied from the source to the staging table, or not re-index, depending on the state of the matching policy and the source data. 인덱스를 다시 만들지 않을 경우 성능이 개선될 수 있습니다.Not re-indexing can improve performance.

    일치 프로세스와 다른 데이터 정리 프로세스를 함께 수행하여 전반적인 데이터 품질을 개선할 수 있습니다.You can perform the matching process in conjunction with other data cleansing processes to improve overall data quality. 또한 Master Data Services에 기본 제공되는 DQS 기능을 사용하여 데이터 중복 제거를 수행할 수도 있습니다.You can also perform data de-duplication using DQS functionality built into Master Data Services. 자세한 내용은 Master Data Services 개요(MDS)를 참조하세요.For more information, see Master Data Services Overview (MDS).

    다음 그림은 DQS에서 데이터 일치를 수행하는 방법을 보여 줍니다.The following illustration displays how data matching is done in DQS:

    DQS의 일치 과정Matching Process in DQS

데이터 일치를 수행하는 방법 How to Perform Data Matching

DQS의 다른 데이터 품질 프로세스와 마찬가지로 다음 단계에 따라 기술 자료를 구축하고 데이터 품질 프로젝트의 일치 작업을 실행하여 일치를 수행하세요.As with other data quality processes in DQS, you perform matching by building a knowledge base and executing a matching activity in a data quality project in the following steps:

  1. 기술 자료에 일치 정책을 만듭니다.Create a matching policy in the knowledge base

  2. 데이터 품질 프로젝트의 일부인 일치 작업에서 중복 제거 프로세스를 수행합니다.Perform a de-duplication process in a matching activity that is part of a data quality project.

일치 정책 작성 Building a Matching Policy

기술 자료에 DQS가 일치 확률을 할당하는 방법을 정의한 일치 정책을 만들어 일치 수행을 위해 기술 자료를 준비해야 합니다.You prepare the knowledge base for performing matching by creating a matching policy in the knowledge base to define how DQS assigns matching probability. 일치 정책은 DQS에서 레코드가 서로 얼마나 일치하는지 평가할 때 사용될 도메인을 식별하고, 일치 평가에서 각 도메인 값이 가지는 가중치를 지정하는 하나 이상의 일치 규칙으로 구성됩니다.A matching policy consists of one or more matching rules that identify which domains will be used when DQS assesses how well one record matches to another, and specify the weight that each domain value carries in the matching assessment. 이 규칙에 도메인 값이 정확히 일치하는 항목이어야 하는지, 또는 유사하기만 해도 되는지 여부와 유사성 수준을 지정합니다.You specify in the rule whether domain values have to be an exact match or can just be similar, and to what degree of similarity. 또한 도메인 일치 항목이 필수 구성 요소인지 여부도 지정합니다.You also specify whether a domain match is a prerequisite.

기술 자료 관리 마법사의 일치 정책 작업은 각 일치 규칙을 적용하여 샘플 데이터를 분석함으로써 레코드 범위 전체에서 한 번에 두 레코드를 비교합니다.The matching policy activity in the Knowledge Base Management wizard analyzes sample data by applying each matching rule to compare two records at a time throughout the range of records. 지정된 최소값보다 일치 점수가 큰 레코드는 일치 결과에서 클러스터로 그룹화됩니다.Records whose matching scores are greater than a specified minimum are grouped in clusters in the matching results. 이러한 일치 결과는 기술 자료에 추가되지 않습니다. 이 결과를 사용하여 일치 규칙을 조정하세요.These matching results are not added to the knowledge base; you use them to tune the matching rules. 일치 정책 만들기는 일치 결과 또는 프로파일링 통계에 따라 일치 규칙을 수정하는 반복 프로세스가 될 수 있습니다.Creating a matching policy can be an iterative process in which you modify matching rules based on the matching results or profiling statistics.

데이터 원본에서 도메인으로 데이터를 로드할 때 특정 도메인에 대해 데이터 문자열이 정규화되도록 지정할 수 있습니다.You can specify for a domain that data strings will be normalized when you load data from the data source into the domain. 이 프로세스에는 특수 문자를 null 또는 공백으로 바꾸는 과정이 포함되며, 이렇게 하면 두 문자열 간의 차이가 사라집니다.This process consists of replacing special characters with a null or a space, which often removes the difference between two strings. 따라서 일치 정확도가 높아지고, 일치 결과가 정규화하기 전에는 최소 일치 임계값을 통과하지 못한 경우에도 최소 일치 임계값을 초과하게 되는 경우가 많습니다.This can increase matching accuracy, and can often enable a matching result to surpass the minimum matching threshold, when without normalization it would not pass.

참고

두 레코드에서 해당 필드의 null 값은 일치 항목으로 간주됩니다.Null values in the corresponding fields of two records will be considered a match.

일치 정책은 샘플 데이터에 매핑된 도메인에 대해 실행됩니다.The matching policy is run on domains mapped to the sample data. 일치 정책을 실행할 때 데이터가 데이터 원본에서 준비 테이블로 복사된 후 데이터의 인덱스를 다시 만들지 여부를 지정할 수 있습니다.You can specify whether data is copied from the data source into the staging table and re-indexed when you run the matching policy, or not. 기술 자료를 구축할 때와 일치 프로젝트를 실행할 때도 이렇게 할 수 있습니다.You can do so both when building the knowledge base and when running the matching project. 인덱스를 다시 만들지 않으면 성능이 개선될 수 있습니다.Not re-indexing could result in improved performance. 일치 정책이 변경되지 않았고 데이터 원본을 업데이트하거나 정책을 다시 매핑하거나 새 데이터 원본을 선택하거나 하나 이상의 새 도메인을 매핑하지 않은 경우 인덱스를 다시 만들 필요가 없습니다.Re-indexing is not necessary if the following is true: the matching policy has not changed, and you have not updated the data source, remapped the policy, selected a new data source, or mapped one or more new domains.

각 일치 규칙은 생성될 때 기술 자료에 저장됩니다.Each matching rule is saved in the knowledge base when it is created. 그러나 기술 자료는 게시된 경우에만 데이터 품질 프로젝트에서 사용할 수 있습니다.However, a knowledge base is available for use in a data quality project only when it is published. 또한 기술 자료가 게시될 때까지 해당 기술 자료의 일치 규칙은 해당 규칙을 만든 사용자가 아닌 다른 사용자가 변경할 수 없습니다.In addition, until the knowledge base is published, the matching rules in it cannot be changed by a user other than the person who created it.

일치 프로젝트 실행 Running a Matching Project

DQS에서는 원본 데이터의 각 행을 서로 비교하고 기술 자료에 정의된 일치 정책을 사용하여 행이 일치 항목일 확률을 생성하는 방식으로 데이터 중복 제거를 수행합니다.DQS performs data de-duplication by comparing each row in the source data to every other row, using the matching policy defined in the knowledge base, and producing a probability that the rows are a match. 이러한 작업은 일치 유형의 데이터 품질 프로젝트에서 수행됩니다.This is done in a data quality project with a type of Matching. 일치는 데이터 품질 프로젝트의 주요 단계 중 하나입니다.Matching is one of the major steps in a data quality project. 데이터 정리 후에는 일치시킬 데이터에 오류가 없으므로 이때 일치를 수행하는 것이 가장 좋습니다.It is best performed after data cleansing, so that the data to be matched is free from error. 일치 프로세스를 실행하기 전에 정리 프로젝트의 결과를 데이터 테이블 또는 .csv 파일로 내보낸 다음 일치 프로젝트를 만들어 일치 프로젝트의 도메인에 정리 결과를 매핑할 수 있습니다.Before running a matching process, you can export the results of the cleansing project into a data table or .csv file, and then create a matching project in which you map the cleansing results to domains in the matching project.

데이터 일치 프로젝트는 컴퓨터 기반 프로세스와 반복 프로세스로 구성됩니다.A data matching project consists of a computer-assisted process and an interactive process. 일치 프로젝트는 평가할 데이터 원본에 일치 정책의 일치 규칙을 적용합니다.The matching project applies the matching rules in the matching policy to the data source to be assessed. 이 프로세스는 두 행이 일치 항목일 가능성을 일치 점수에 평가합니다.This process assesses the likelihood that any two rows are matches in a matching score. 데이터 관리자가 일치 정책에 설정한 값보다 일치 확률이 높은 레코드만 일치 항목으로 간주됩니다.Only those records with a probability of a match greater than a value set by the data steward in the matching policy will be considered a match.

DQS는 일치 분석을 수행할 때 DQS에서 일치 항목으로 간주한 레코드의 클러스터를 만듭니다.When DQS performs the matching analysis, it creates clusters of records that DQS considers matches. DQS는 각 클러스터의 레코드 중 하나를 임의로 피벗(또는 선행) 레코드로 식별합니다.DQS randomly identifies one of the records in each cluster as the pivot, or leading, record. 데이터 관리자는 일치 결과를 확인하고 특정 클러스터의 적절한 일치 항목이 아닌 레코드를 거부합니다.The data steward verifies the matching results, and rejects any record that is not an appropriate match for a cluster. 그런 다음 DQS가 일치 프로세스에서 유지할 레코드를 결정하고 일치 레코드를 바꾸는 데 사용될 Survivorship 규칙을 선택합니다.The data steward then selects a survivorship rule that DQS will use to determine the record that will survive the matching process and replace the matching records. Survivorship 규칙은 "피벗 레코드"(기본값), "가장 완전하고 가장 긴 레코드", "가장 완전한 레코드" 또는 "가장 긴 레코드"가 될 수 있습니다.The survivorship rule can be “Pivot record” (the default), “most complete and longest record”, “most complete record”, or “longest record”. DQS는 Survivorship 규칙의 조건과 가장 비슷한 레코드를 기준으로 각 클러스터에서 Survivor(선행) 레코드를 결정합니다.DQS determines the survivor (leading) record in each cluster based upon which record most closely matches the criteria or criterion in the survivorship rule. 특정 클러스터의 여러 레코드가 Survivorship 규칙을 따르는 경우 DQS는 이러한 레코드 중 하나를 임의로 선택합니다.If multiple records in a given cluster comply with the survivorship rule, DQS selects one of those records randomly. DQS는 "겹치지 않는 클러스터 표시"를 선택하여 공통된 레코드를 가진 클러스터를 단일 클러스터로 표시할 수 있는 옵션을 제공합니다.DQS gives you the choice of displaying clusters that have records in common as a single cluster by selecting “show non-overlapping clusters”. 이 설정에 따라 결과를 표시하려면 일치 프로세스를 실행해야 합니다.You must execute the matching process in order to display the results according to this setting.

일치 프로세스의 결과는 SQL Server 테이블 또는 .csv 파일로 내보낼 수 있습니다.You can export the results of the matching process either to a SQL Server table or a .csv file. 일치 결과는 두 가지 형식으로 내보낼 수 있습니다. 하나는 일치하는 레코드와 일치하지 않는 레코드이고, 다른 하나는 특정 클러스터의 Survivor 레코드만 포함된 Survivorship 레코드와 일치하지 않는 결과입니다.You can export matching results in two forms: first, the matched records and the unmatched records, or second, survivorship records that include only the survivor record for a cluster and the unmatched results. Survivorship 레코드에서 동일한 레코드가 여러 클러스터에 대한 Survivor로 식별된 경우 해당 레코드는 한 번만 내보내집니다.In the survivorship records, if the same record is identified as the survivor for multiple clusters, that record will only be exported once.

섹션 내용In This Section

DQS에서 일치와 관련된 다음 태스크를 수행할 수 있습니다.You can perform the following tasks related to matching in DQS:

일치 정책의 일치 규칙 만들기 및 테스트Create and test matching rules in a matching policy 일치 정책 만들기Create a Matching Policy
데이터 품질 프로젝트에서 일치 실행Run matching in a data quality project 일치 프로젝트 실행Run a Matching Project