데이터 정리Data Cleansing

데이터 정리는 데이터 원본의 데이터 품질을 분석하고, 시스템의 제안을 수동으로 승인/거부하고, 데이터를 변경하는 프로세스입니다.Data cleansing is the process of analyzing the quality of data in a data source, manually approving/rejecting the suggestions by the system, and thereby making changes to the data. DQS( Data Quality ServicesData Quality Services )의 데이터 정리에는 데이터가 기술 자료의 지식을 준수하는 정도를 분석하는 컴퓨터 기반 프로세스이며, 데이터 정리가 정확히 원하는 대로 수행되는지 보장하기 위해 데이터 관리자가 컴퓨터 기반 프로세스 결과를 검토하고 수정할 수 있게 해주는 대화형 프로세스입니다.Data cleansing in Data Quality ServicesData Quality Services (DQS) includes a computer-assisted process that analyzes how data conforms to the knowledge in a knowledge base, and an interactive process that enables the data steward to review and modify computer-assisted process results to ensure that the data cleansing is exactly as they want to be done.

데이터 관리자는 Integration Services 패키징 프로세스에서 데이터 정리를 수행할 수도 있습니다.The data steward can also perform data cleansing in the Integration Services packaging process. 이 경우 데이터 관리자는 기존 기술 자료를 사용하여 데이터 정리를 자동으로 수행하는 Integration Services의 DQS 정리 구성 요소DQS Cleansing component in Integration Services 를 사용합니다.In this case, the data steward would use the Integration Services의 DQS 정리 구성 요소DQS Cleansing component in Integration Services that automatically performs data cleansing using an existing knowledge base. 자세한 내용은 DQS 정리 변환을 참조하세요.For more information, see DQS Cleansing Transformation.

DQS의 데이터 정리 기능에는 다음과 같은 이점이 있습니다.The data cleansing feature in DQS has the following benefits:

  • 데이터 원본(Excel 파일 또는 SQL Server 데이터베이스)에서 완전하지 않거나 잘못된 데이터를 식별하여 데이터를 수정하거나 유효하지 않은 데이터에 대한 경고를 사용자에게 제공합니다.Identifies incomplete or incorrect data in your data source (Excel file or SQL Server database), and then corrects or alerts you about the invalid data.

  • 데이터 정리를 위한 2단계 프로세스 computer-assistedinteractive를 제공합니다.Provides two-step process to cleanse the data: computer-assisted and interactive. 컴퓨터 기반 프로세스에서는 DQS 기술 자료의 지식을 사용하여 데이터를 자동으로 처리하고 교체/수정을 제안합니다.The computer-assisted process uses the knowledge in a DQS knowledge base to automatically process the data, and suggest replacements/corrections. 그 다음 단계인 대화형 프로세스에서는 데이터 관리자가 컴퓨터 기반 정리 중 DQS에서 제안된 변경 사항을 승인, 거부 또는 수정할 수 있습니다.The next step, interactive, allows the data steward to approve, reject, or modify the changes proposed by the DQS during the computer-assisted cleansing.

  • 도메인 값, 도메인 규칙 및 참조 데이터를 사용하여 고객 데이터를 표준화하고 강화합니다.Standardizes and enriches customer data by using domain values, domain rules, and reference data. 예를 들어 “St.”를 “Street”로 변경하여 용어 사용을 표준화하고,For example, standardize term usage by changing “St.” “1 Microsoft way Redmond 98006”을 “1 Microsoft Way, Redmond, WA 98006”으로 변경하여 누락된 요소를 채워서 데이터를 강화합니다.to “Street”, enrich data by filling in missing elements by changing “1 Microsoft way Redmond 98006” to “1 Microsoft Way, Redmond, WA 98006”.

  • 사용자가 데이터를 탐색하고 매우 큰 데이터 집합에서 오류를 조사할 수 있도록 간단하고, 직관적이며, 일관적인 마법사와 비슷한 인터페이스를 제공합니다.Provides a simple, intuitive, and consistent wizard-like interface to the user to navigate data and inspect errors amongst a very large set of data.

    다음 그림은 DQS에서 데이터 정리를 수행하는 방법을 보여 줍니다.The following illustration displays how data cleansing is done in DQS:

    DQS의 데이터 정리 프로세스Data Cleansing Process in DQS

컴퓨터 기반 정리 Computer-assisted Cleansing

DQS 데이터 정리 프로세스에서는 정리할 데이터에 기술 자료를 적용하고 데이터에 대한 변경 내용을 제시합니다.The DQS data cleansing process applies the knowledge base to the data to be cleansed, and proposes changes to the data. 데이터 관리자는 제시된 각 변경 내용에 액세스할 수 있으므로 변경 내용을 확인하고 수정할 수 있습니다.The data steward has access to each proposed change, enabling him or her to assess and correct the changes. 데이터 관리자가 데이터 정리를 수행하기 위해 진행하는 단계는 다음과 같습니다.To perform data cleansing, the data steward proceeds as follows:

  1. 데이터 품질 프로젝트를 만들고, 원본 데이터를 분석 및 정리하는 데 사용할 기술 자료를 선택하고, 정리 활동을 선택합니다.Create a data quality project, select a knowledge base against which you want to analyze and cleanse your source data, and select the Cleansing activity. 여러 데이터 품질 프로젝트에서 동일한 기술 자료를 사용할 수 있습니다.Multiple data quality projects can use the same knowledge base.

  2. 정리할 원본 데이터가 포함된 데이터베이스 테이블/뷰 또는 Excel 파일을 지정합니다.Specify the database table/view or an Excel file that contains the source data to be cleansed. 데이터베이스 또는 Excel 파일은 기술 자료 검색에 사용된 것과 동일하거나 다른 데이터베이스 또는 Excel 파일일 수 있습니다.The database or the Excel file can be the same one that was used for knowledge discovery, or it can be a different database or Excel file.

    참고

    기술 자료 검색 및 정리 활동을 위해 동일한 데이터 원본을 선택한 경우 데이터가 변경되지 않습니다.If you select the same data source for knowledge discovery and cleansing activities, there will be no change to the data. 예제 데이터에 대해 기술 자료 검색을 실행하고 나중에 기술 자료 검색 활동 중 작성된 지식에 따라 원본 데이터를 정리하는 것이 좋습니다.It is recommended that you run knowledge discovery on a sample data, and later cleanse your source data against the knowledge built during the knowledge discovery activity.

  3. 정리할 데이터 필드를 기술 자료의 적합한 도메인/복합 도메인에 매핑합니다.Map the data fields to be cleansed to appropriate domains/composite domains in the knowledge base. 필드를 복합 도메인에 매핑할 경우 필드 및 복합 도메인 간에 매핑이 수행되며 복합 도메인의 개별 도메인에서는 매핑이 수행되지 않습니다.If you map a field to a composite domain, the mapping happens between the field and the composite domain, and not with the individual domains in the composite domain. 또한 매핑된 필드의 데이터 정리는 복합 도메인의 개별 도메인이 아니라 복합 도메인에 대해 지정된 규칙에 따라 수행됩니다.Also, the data cleansing for the mapped field is done based on the rules specified for the composite domain, and not for the individual domains in the composite domain. 복합 도메인에 대한 자세한 내용은 DQS Knowledge Bases and Domains을 참조하십시오.For more information about composite domains, see DQS Knowledge Bases and Domains.

  4. 정리 페이지에서 시작 을 클릭하여 컴퓨터 기반 정리 프로세스를 실행합니다.Run the computer-assisted cleansing process by clicking Start on the Cleanse page.

    데이터 정리 프로세스에서는 알려진 데이터 도메인 값에 가장 일치하는 데이터 인스턴스를 찾습니다.The data cleansing process finds the best match of an instance of data to known data domain values. 예제 데이터의 일부에서 실행되는 기술 자료 검색 프로세스와 달리 이 프로세스에서는 모든 원본 데이터에 데이터 품질 지식을 적용합니다.The process applies data quality knowledge to all source data, unlike the knowledge discovery process, which runs on a percentage of the sample data.

    컴퓨터 기반 프로세스에서는 대화형 정리 프로세스에 사용되는 Data Quality 클라이언트Data Quality Client 에 데이터 품질 정보를 표시합니다.The computer-assisted process displays data quality information in Data Quality 클라이언트Data Quality Client that will be used for the interactive cleansing process. 구문 오류 규칙의 준수와는 별도로 DQS에서는 신뢰 수준을 사용하여 데이터를 분류하기 위한 고급 알고리즘 및 참조 데이터도 사용됩니다.Apart from the adherence to the syntax error rules, DQS also uses reference data and advanced algorithms to categorize data using confidence level. 신뢰 수준은 수정 내용 또는 제안 내용에 대한 DQS의 확신도를 나타냅니다.The confidence level indicates the extent of certainty of DQS for the correction or suggestion. 신뢰 수준은 다음 임계값에 따라 결정됩니다.The confidence level is based on the following threshold values:

  • 자동 수정 임계값 보다 높으면 DQS에서 변경 내용을 제안하고 데이터 관리자가 거부하지 않는 한 이를 적용합니다.An auto-correction threshold value above which DQS will suggest a change and make it unless the data steward rejects it. 구성 화면의 일반 설정 탭에서 자동 수정 임계값을 지정할 수 있습니다.You can specify the auto correction threshold value in the General Settings tab in the Configuration screen. 자세한 내용은 Configure Threshold Values for Cleansing and Matching을 참조하세요.For more information, see Configure Threshold Values for Cleansing and Matching.

  • 자동 제안 임계값 보다 높고 자동 수정 임계값보다 낮으면 DQS에서 변경 내용을 제안하고 데이터 관리자가 승인할 경우 이를 적용합니다.An auto-suggestion threshold value, below the auto-correction threshold, above which DQS will suggest a change, and make it if the data steward approves it. 구성 화면의 일반 설정 탭에서 자동 제안 임계값을 지정할 수 있습니다.You can specify the auto suggestion threshold value in the General Settings tab in the Configuration screen. 자세한 내용은 Configure Threshold Values for Cleansing and Matching을 참조하세요.For more information, see Configure Threshold Values for Cleansing and Matching.

    신뢰 수준 값이 자동 제안 임계값보다 낮으면 데이터 관리자가 변경 내용을 지정하지 않은 한 DQS에서 데이터를 현재대로 둡니다.Any value having a confidence level below the auto-suggestion threshold value is left as is by DQS unless the data steward specifies a change.

대화형 정리 Interactive Cleansing

컴퓨터 기반 정리 프로세스에 따라 DQS는 데이터 관리자에게 데이터 변경과 관련된 의사 결정에 필요한 정보를 제공합니다.Based on the computer-assisted cleansing process, DQS provides the data steward with information that they need to make a decision about changing the data. DQS는 다음 5개 탭으로 데이터를 분류합니다.DQS categorizes the data under the following five tabs:

  • 제안: 신뢰도 수준이 자동 제안 임계값 보다 높고 자동 수정 임계값 보다 낮은 것으로 DQS에서 검색된 제안 값입니다.Suggested: Values for which DQS found suggestions that have a confidence level higher than the auto-suggestion threshold value but lower than the auto-correction threshold value. 이러한 값은 검토 후 적절하게 승인 또는 거부해야 합니다.You should review these values, and approve or reject as appropriate.

  • 신규: DQS가 충분한 정보(제안)를 갖고 있지 않아 다른 탭에 매핑할 수 없는 유효한 값입니다. 또한 이 탭에는 신뢰도 수준이 자동 제안 임계값 보다 낮지만 유효한 것으로 표시될 수 있는 값도 포함됩니다.New: Valid values for which DQS does not have enough information (suggestion), and therefore cannot be mapped to any other tab. Further, this tab also contains values that have confidence level less than the auto-suggestion threshold value, but high enough to be marked as valid.

  • 잘못됨: 기술 자료의 도메인에 유효하지 않은 것으로 표시된 값 또는 도메인 규칙이나 참조 데이터를 준수하지 않은 값입니다.Invalid: Values that were marked as invalid in the domain in the knowledge base or values that failed a domain rule or reference data. 이 탭에는 또한 대화형 정리 프로세스 중에 다른 네 개 탭 중에서 사용자가 거부한 값이 포함됩니다.This tab will also contain values that are rejected by the user in any of the other four tabs during the interactive cleansing process.

  • 수정됨: 자동화된 정리 프로세스 중에 DQS에서 신뢰도 수준이 자동 수정 임계값 보다 높은 값에 대한 수정 값을 검색하여 수정한 값입니다.Corrected: Values that are corrected by DQS during the automated cleansing process as DQS found a correction for the value with confidence level above the auto-correction threshold value. 이 탭에는 또한 대화형 정리 중 다음으로 수정 열에서 사용자가 올바른 값을 지정했고 다른 네 개 탭 중에서 승인 열의 라디오 단추를 클릭하여 승인한 값이 포함됩니다.This tab will also contain values for which the user specified a correct value in the Correct To column during interactive cleansing, and then approved by clicking the radio button in the Approve column in any of the other four tabs.

  • 올바름: 올바른 것으로 발견된 값입니다.Correct: Values that were found correct. 예를 들어 도메인 값과 일치하는 값이 여기에 해당합니다.For example, the value matched a domain value. 필요한 경우 이 탭에서 값을 거부하거나 다음으로 수정 열에서 대체 단어를 지정하고 수락 열에서 라디오 단추를 클릭하여 DQS 정리를 재정의할 수 있습니다.If required, you can override DQS cleansing by rejecting values under this tab, or by specifying an alternate word in the Correct To column, and then clicking the radio button in the Accept column. 또한 이 탭에는 새로 만들기 또는 잘못됨 탭에서 승인 열의 라디오 단추를 클릭하여 대화형 정리 중에 사용자가 승인한 값도 포함됩니다.This tab will also contain values that were approved by the user during interactive cleansing by clicking the radio button in the Approve column in the New or Invalid tab.

참고

제안됨, 수정됨수정 탭에서 DQS는 각 도메인 값에 대해 다음으로 수정 열에 도메인에 대한 선행 값(적용되는 경우)을 표시합니다.In the Suggested, Corrected, and Correct tabs, DQS displays the leading value for a domain, if applicable, in the Correct To column against the respective domain value.

데이터 관리자는 Data Quality 클라이언트Data Quality Client 를 사용하여 DQS에서 제시한 변경 내용을 확인하고, 변경 내용을 구현할지 여부를 결정합니다.The data steward uses Data Quality 클라이언트Data Quality Client to see the changes that DQS has proposed and to decide whether to implement them or not. 또한 DQS에서 올바른 것으로 지정한 값이 실제로 올바른지 확인할 수 있습니다.He or she can verify that values DQS has designated as correct are in fact correct. 높은 신뢰 수준으로 DQS에서 이미 적용한 변경 내용이 타당한지 확인할 수 있습니다.He or she can verify that changes already made by DQS, with a high confidence level, should be made. 자동으로 제안된 변경 내용을 승인할지 여부를 결정할 수 있습니다.He or she can decide whether to approve auto-suggested changes. 컴퓨터 기반 프로세스에서 찾지 못한 변경 작업을 수행하려는 경우 변경되지 않은 값을 검토할 수도 있습니다.And he or she can review values that have not been changed, just in case they want to make a change not found by the computer-assisted process.

DQS에서는 데이터 관리자가 적용한 변경 내용과 컴퓨터 기반 데이터 정리 결과를 병합합니다.DQS will merge any changes that the data steward has made with the results of the computer-assisted data cleansing. 그러나 이러한 변경 내용은 프로젝트와 함께 보관되며 기술 자료에는 추가되지 않습니다.These changes will stay with the project; however, they will not be added to the knowledge base. 데이터 정리 중에 관련 기술 자료는 읽기 전용 상태입니다.During data cleansing, the associated knowledge base is read-only.

데이터 정리 프로세스가 완료되면 처리된 데이터를 SQL Server 데이터베이스의 새 테이블, .csv 파일 또는 Excel 파일로 내보내도록 선택할 수 있습니다.When the data cleansing process has completed, you can choose to export the processed data to a new table in a SQL Server database, .csv file, or Excel file. 정리를 수행한 원본 데이터는 원래 상태로 유지됩니다.The source data on which cleansing is performed is maintained in its original state. 데이터 관리자는 별도의 정리된 데이터를 사용하여 실제 원본 데이터를 수정할 수 있습니다.The data steward can use the separate cleansed data to correct the actual source data.

다음 그림은 Data Quality 클라이언트Data Quality Client 응용 프로그램을 사용하여 데이터 정리를 수행하는 방법을 보여 줍니다.The following illustration displays how data cleansing is done using the Data Quality 클라이언트Data Quality Client application:

Data Quality Client에서 데이터 정리Data Cleansing in Data Quality Client

선행 값 수정 Leading Value Correction

선행 값 수정은 동의어가 있는 도메인 값에 적용되며, 사용자는 일관적인 값 표현을 위해 다른 값 대신 동의어 값 중 하나를 선행 값으로 사용할 수 있습니다.Leading value correction applies to domain values that have synonyms, and the user wants to use one of the synonym values as the leading value instead of others for the consistent representation of the value. 예를 들어 “New York”, “NYC” 및 “big apple”은 동의어이며, 사용자가 “NYC” 및 “Big Apple” 대신 “New York”을 선행 값으로 사용하도록 할 수 있습니다.For example, “New York”, “NYC”, and “big apple” are synonyms, and the user wants to use “New York” as the leading value instead of “NYC” and “Big Apple”. DQS는 데이터 표준화를 위해 정리 프로세스 중에 선행 값 수정을 지원합니다.DQS supports leading value correction during the cleansing process to help you standardize your data. 선행 값 수정은 도메인을 만들 때 동시에 선행 값 수정을 사용하도록 도메인을 설정한 경우에만 수행됩니다.The leading value correction is done only if the domain was enabled for the same when it was created. 기본적으로 도메인을 만들 때 선행 값 사용 확인란의 선택을 취소하지 않은 한 모든 도메인이 선행 값 수정을 사용하도록 설정됩니다.By default, all domains are enabled for leading value correction unless you cleared the Use Leading Values check box while creating a domain. 이 확인란에 대한 자세한 내용은 Set Domain Properties을 참조하십시오.For more information about this check box, see Set Domain Properties.

정리 데이터 표준화 Standardize Cleansed Data

도메인에 대해 정의된 출력 형식을 기반으로 표준화된 형식으로 정리된 데이터를 내보낼지 여부를 선택할 수 있습니다.You can choose whether to export the cleansed data in the standardized format based on the output format defined for domains. 도메인을 만드는 동안 도메인의 데이터 값이 출력될 때 적용할 서식을 선택할 수 있습니다.While creating a domain, you can select the formatting that will be applied when the data values in the domain are output. 도메인의 출력 형식을 지정하는 방법은 **** 에서 출력 형식 Set Domain Properties목록을 참조하십시오.For more information about specifying output formats for a domain, see the Format Output to list in Set Domain Properties.

정리 데이터 품질 프로젝트 마법사의 내보내기 페이지에서 정리된 데이터를 내보내는 동안 출력 표준화 확인란을 선택하여 정리된 데이터를 표준화된 형식으로 내보낼지 여부를 지정할 수 있습니다.While exporting the cleansed data on the Export page in the cleansing data quality project wizard, you specify whether you want the cleansed data to be exported in the standardized format by selecting the Standardize Output check box. 기본적으로 정리된 데이터는 표준화된 형식으로 내보냅니다. 즉, 확인란이 기본적으로 선택됩니다.By default, the cleansed data is exported in the standardized format, that is, the check box is selected. 정리된 데이터 내보내기에 대한 자세한 내용은 DQS(내부) 기술 자료를 사용하여 데이터 정리를 참조하세요.For more information about exporting the cleansed data, see Cleanse Data Using DQS (Internal) Knowledge.

태스크 설명Task Description 항목Topic
정리 활동을 위한 임계값 구성 방법을 설명합니다.Describes how to configure threshold values for the cleansing activity. Configure Threshold Values for Cleansing and MatchingConfigure Threshold Values for Cleansing and Matching
DQS에 기본 제공되는 지식을 사용하여 데이터를 정리하는 방법을 설명합니다.Describes how to cleanse data using knowledge built in DQS. DQS(내부) 기술 자료를 사용하여 데이터 정리Cleanse Data Using DQS (Internal) Knowledge
참조 데이터 서비스의 지식을 사용하여 데이터를 정리하는 방법을 설명합니다.Describes how to cleanse data using knowledge from reference data service. 참조 데이터(외부) 기술 자료를 사용하여 데이터 정리Cleanse Data Using Reference Data (External) Knowledge
복합 도메인을 정리하는 방법을 설명합니다.Describes how to cleanse a composite domain. 복합 도메인의 데이터 정리Cleanse Data in a Composite Domain

관련 항목:See Also

데이터 품질 프로젝트(DQS) Data Quality Projects (DQS)
데이터 일치Data Matching