DQS(내부) 기술 자료를 사용하여 데이터 정리Cleanse Data Using DQS (Internal) Knowledge

이 항목에서는 DQS( Data Quality ServicesData Quality Services )에서 데이터 품질 프로젝트를 사용하여 데이터를 정리하는 방법에 대해 설명합니다.This topic describes how to cleanse your data by using a data quality project in Data Quality ServicesData Quality Services (DQS). 데이터 정리는 고품질 데이터 집합에 대해 DQS에 기본 제공된 기술 자료를 사용하여 원본 데이터에서 수행됩니다.Data cleansing is performed on your source data using a knowledge base that has been built in DQS against a high-quality data set. 자세한 내용은 기술 자료 구축을 참조하세요.For more information, see Building a Knowledge Base.

데이터 정리는 4단계로 수행됩니다. 매핑 단계에서는 정리할 데이터 원본을 확인하여 기술 자료의 필수 도메인에 매핑하고, 컴퓨터 기반 정리 단계에서는 DQS에서 정리할 데이터에 기술 자료를 적용하고 원본 데이터에 대한 변경 내용을 제안/적용하며, 대화형 정리 단계에서는 데이터 관리자가 데이터 변경 내용을 분석한 후 데이터 변경을 허용/거부할 수 있고, 마지막 내보내기 단계에서는 정리된 데이터를 내보낼 수 있습니다.Data cleansing is performed in four stages: a mapping stage in which you identify the data source to be cleansed, and map it to required domains in a knowledge base, a computer-assisted cleansing stage where DQS applies the knowledge base to the data to be cleansed, and proposes/makes changes to the source data, an interactive cleansing stage where data stewards can analyze the data changes, and accept/reject the data changes, and finally the export stage that lets you export the cleansed data. 이러한 각 프로세스는 정리 작업 마법사의 개별 페이지에서 수행되므로 여러 페이지를 앞뒤로 이동하고, 프로세스를 다시 실행하고, 특정 정리 프로세스를 닫은 후 프로세스의 같은 단계로 돌아갈 수 있습니다.Each of these processes is performed on a separate page of the cleansing activity wizard, enabling you to move back and forth to different pages, to re-run the process, and to close out of a specific cleansing process and then return to the same stage of the process. DQS에서는 원본 데이터 및 정리 결과에 대한 통계를 제공하므로 정보를 바탕으로 데이터 정리에 대한 의사를 결정할 수 있습니다.DQS provides you with statistics about the source data and the cleansing results that enable you to make informed decisions about data cleansing.

시작하기 전에Before You Begin

필수 구성 요소Prerequisites

  • 정리 작업에 대한 적절한 임계값을 지정해야 합니다.You must have specified appropriate threshold values for the cleansing activity. 이렇게 하는 방법은 정리 및 일치에 대한 임계값 구성을 참조하세요.For information about doing so, see Configure Threshold Values for Cleansing and Matching.

  • 비교하고 원본 데이터를 정리할 Data Quality 서버Data Quality Server 에서 DQS 기술 자료를 사용할 수 있어야 합니다.A DQS knowledge base must be available on Data Quality 서버Data Quality Server against which you want to compare, and cleanse your source data. 또한 정리할 데이터 유형에 대한 정보가 기술 자료에 포함되어 있어야 합니다.Additionally, the knowledge base must contain knowledge about the type of data that you want to cleanse. 예를 들어 미국 주소가 포함된 원본 데이터를 정리하려면 미국 주소의 "고품질" 예제 데이터에 대해 만든 기술 자료가 있어야 합니다.For example, if you want to cleanse your source data that contains US addresses, you must have a knowledge base that was created against a “high-quality” sample data for US addresses.

  • 정리할 원본 데이터가 Excel 파일 형식인 경우 Data Quality 클라이언트Data Quality Client 컴퓨터에 Microsoft Excel이 설치되어 있어야 합니다.Microsoft Excel must be installed on the Data Quality 클라이언트Data Quality Client computer if the source data to be cleansed is in an Excel file. 그렇지 않으면 매핑 단계에서 Excel 파일을 선택할 수 없습니다.Otherwise, you will not be able to select the Excel file in the mapping stage. Microsoft Excel에서 만든 파일은 .xlsx, .xls 또는.csv 확장명을 가질 수 있습니다.The files created by Microsoft Excel can have an extension of .xlsx, .xls, or .csv. 64비트 버전의 Excel이 사용된 경우 Excel 2003 파일 (.xls)만 지원됩니다. Excel 2007 또는 2010 파일(.xlsx)은 지원되지 않습니다.If the 64-bit version of Excel is used, only Excel 2003 files (.xls) are supported; Excel 2007 or 2010 files (.xlsx) are not supported. 64비트 버전의 Excel 2007 또는 2010을 사용 중인 경우 파일을 .xls 파일 또는 .csv 파일로 저장하거나 32비트 버전의 Excel을 대신 설치하세요.If you are using 64-bit version of Excel 2007 or 2010, save the file as an .xls file or a .csv file, or install a 32-bit version of Excel instead.

보안Security

사용 권한Permissions

데이터 정리를 수행하려면 DQS_MAIN 데이터베이스에 대한 dqs_kb_editor 또는 dqs_kb_operator 역할이 있어야 합니다.You must have the dqs_kb_editor or dqs_kb_operator role on the DQS_MAIN database to perform data cleansing.

정리 데이터 품질 프로젝트 만들기Create a Cleansing Data Quality Project

데이터 정리 작업을 수행하려면 데이터 품질 프로젝트를 사용해야 합니다.You must use a data quality project to perform data cleansing operation. 정리 데이터 품질 프로젝트를 만들려면To create a cleansing data quality project:

  1. 데이터 품질 프로젝트 만들기항목의 1~3단계를 수행합니다.Follow steps 1-3 in the topic Create a Data Quality Project.

  2. 3.d 단계에서 정리 작업을 선택합니다.In step 3.d, select the Cleansing activity.

  3. 만들기 를 클릭하여 정리 데이터 품질 프로젝트를 만듭니다.Click Create to create a cleansing data quality project.

    정리 데이터 품질 프로젝트가 만들어지고 정리 데이터 품질 마법사의 페이지가 열립니다.This creates a cleansing data quality project, and opens up the Map page of the cleansing data quality wizard.

매핑 단계Mapping Stage

매핑 단계에서는 정리할 원본 데이터에 대한 연결을 지정하고 원본 데이터의 열을 선택한 기술 자료의 적절한 도메인에 매핑합니다.In the mapping stage, you specify the connection to the source data to be cleansed, and map the columns in the source data with the appropriate domains in the selected knowledge base.

  1. 정리 데이터 품질 마법사의 페이지에서 정리할 원본 데이터, 즉 SQL Server 또는 Excel 파일을 선택합니다.On the Map page of the cleansing data quality wizard, select your source data to be cleansed: SQL Server or Excel File:

    1. SQL Server: 원본 데이터를 이 데이터베이스에 복사한 경우 DQS_STAGING_DATA 를 원본 데이터베이스로 선택한 다음 원본 데이터가 포함된 적절한 테이블/뷰를 선택합니다.SQL Server: Select DQS_STAGING_DATA as the source database if you have copied your source data to this database, and then select appropriate table/view that contains your source data. 그렇지 않은 경우 원본 데이터베이스와 해당 테이블/뷰를 선택합니다.Otherwise, select your source database and appropriate table/view. 원본 데이터베이스는 Data Quality 서버Data Quality Server 데이터베이스 드롭다운 목록에서 제공할 와 동일한 SQL Server 인스턴스에 있어야 합니다.Your source database must be present in the same SQL Server instance as Data Quality 서버Data Quality Server to be available in the Database drop-down list.

    2. Excel 파일: 찾아보기를 클릭하고 정리할 데이터가 포함된 Excel 파일을 선택합니다.Excel File: Click Browse, and select the Excel file that contains the data to be cleansed. Excel 파일을 선택하려면 Data Quality 클라이언트Data Quality Client 컴퓨터에 Microsoft Excel이 설치되어 있어야 합니다.Microsoft Excel must be installed on the Data Quality 클라이언트Data Quality Client computer to select an Excel file. 그렇지 않으면 찾아보기 단추를 사용할 수 없으며 이 텍스트 상자 아래에 Microsoft Excel이 설치되어 있지 않다는 알림이 표시됩니다.Otherwise, the Browse button will not be available, and you will be notified beneath this text box that Microsoft Excel is not installed. 또한 Excel 파일의 첫 행에 머리글 데이터가 들어 있는 경우 첫 번째 행을 헤더로 사용하세요 확인란을 선택된 그대로 둡니다.Also, leave the Use first row as header check box selected if the first row of the Excel file contains header data.

  2. 매핑아래에서 원본 열 열에 대한 드롭다운 목록에서 원본 열을 선택한 다음 동일한 행의 도메인 열에 대한 드롭다운 목록에서 도메인을 선택하여 원본 데이터의 데이터 열을 기술 자료의 적절한 도메인에 매핑합니다.Under Mappings, map the data columns in your source data with appropriate domains in the knowledge base by selecting a source column from the drop-down list in the Source Column column, and then selecting a domain from the drop-down list in the Domain column in the same row. 이 단계를 반복하여 원본 데이터의 모든 열을 기술 자료의 적절한 도메인에 매핑합니다.Repeat this step to map all the columns in your source data with appropriate domains in the knowledge base. 필요한 경우 열 매핑 추가 아이콘을 클릭하여 매핑 테이블에 행을 추가할 수 있습니다.If required, you can click the Add a column mapping icon to add rows to the mapping table.

    참고

    원본 데이터 형식이 DQS에서 지원되고 DQS 도메인 데이터 형식과 일치하는 경우에만 데이터 정리를 수행하기 위해 DQS 도메인에 원본 데이터를 매핑할 수 있습니다.You can map your source data to a DQS domain for performing data cleansing only if the source data type is supported in DQS, and matches with the DQS domain data type. 지원되는 원본 데이터 형식에 대한 자세한 내용은 DQS 도메인에 대해 지원되는 SQL Server 및 SSIS 데이터 형식을 참조하세요.For information about supported source data types, see Supported SQL Server and SSIS Data Types for DQS Domains.

  3. 데이터 원본 미리 보기 아이콘을 클릭하여 선택한 SQL Server 테이블이나 뷰 또는 선택한 Excel 워크시트에서 데이터를 확인합니다.Click the Preview data source icon to see the data in the SQL Server table or view that you selected, or the Excel worksheet that you selected.

  4. 복합 도메인 보기/선택 을 클릭하여 원본 열에 매핑된 복합 도메인 목록을 확인합니다.Click View/Select Composite Domains to view a list of the composite domains that are mapped to a source column. 이 단추는 하나 이상의 복합 도메인이 원본 열에 매핑된 경우에만 사용할 수 있습니다.This button is available only if you have at least one composite domain mapped to a source column.

  5. 다음 을 클릭하여 컴퓨터 기반 정리 단계(정리 페이지)로 이동합니다.Click Next to proceed to the computer-assisted cleansing stage (Cleanse page).

컴퓨터 기반 정리 단계Computer-Assisted Cleansing Stage

컴퓨터 기반 정리 단계에서는 기술 자료의 매핑된 도메인에 대해 원본 데이터를 분석하고 데이터 변경 내용을 적용/제안하는 자동화된 데이터 정리 프로세스를 실행합니다.In the computer-assisted cleansing stage, you run an automated data cleansing process that analyzes source data against the mapped domains in the knowledge base, and makes/proposes data changes.

  1. 데이터 품질 마법사의 정리 페이지에서 시작 을 클릭하여 컴퓨터 기반 정리 프로세스를 실행합니다.On the Cleanse page of the data quality wizard, click Start to run the computer-assisted cleansing process. DQS에서는 지정된 임계값 수준을 기반으로 고급 알고리즘 및 신뢰도 수준을 사용하여 선택한 기술 자료에 대해 데이터를 분석한 다음 데이터를 정리합니다.DQS uses advanced algorithms and confidence levels based on the threshold levels specified to analyze your data against the selected knowledge base, and then cleanse it. DQS에서 컴퓨터 기반 정리가 실행되는 방법은 데이터 정리에서 컴퓨터 기반 정리를 참조하세요.For detailed information about how computer-assisted cleansing happens in DQS, see Computer-assisted Cleansing in Data Cleansing.

    중요

    • 데이터 분석이 완료되면 시작 단추가 다시 시작 단추로 바뀝니다.After the data analysis has completed, the Start button turns into a Restart button. 그러나 이전 분석 결과가 아직 저장되지 않은 경우 다시 시작 을 클릭하면 이전 데이터가 손실됩니다.If the results from the previous analysis have not been saved as yet, clicking Restart will cause that previous data to be lost. 분석이 실행 중일 때는 페이지에서 나가지 마세요. 그러면 분석 프로세스가 종료됩니다.As the analysis is running, do not leave the page or the analysis process will be terminated.

      • 정리 프로젝트가 만들어진 후 정리 프로젝트에 사용된 기술 자료가 업데이트되어 게시된 경우 시작 을 클릭하면 정리 작업에 최신 기술 자료를 사용할지 여부를 묻는 메시지가 나타납니다.If the knowledge base used for the cleansing project was updated and published after the time that the cleansing project was created, clicking Start prompts you whether to use the latest knowledge base for cleansing. 이는 일반적으로 기술 자료를 사용하여 데이터 품질 프로젝트를 만들고 닫기를 클릭하여 진행 중인 정리 프로젝트를 닫은 후 나중에 정리를 수행하기 위해 데이터 품질 프로젝트를 다시 연 경우에 발생할 수 있습니다.This can typically happen if you created a data quality project using a knowledge base, closed the cleansing project mid-way by clicking Close, and then reopened the data quality project at a later point to perform cleansing. 그 동안 정리 프로젝트에 사용된 기술 자료가 업데이트되어 게시되었기 때문입니다.In the meantime, the knowledge base used in the cleansing project was updated and published.

      마찬가지로, 정리 프로젝트에 사용된 기술 자료가 컴퓨터 기반 정리를 마지막으로 실행한 후에 업데이트되어 게시된 경우 다시 시작 을 클릭하면 정리 작업에 최신 기술 자료를 사용할지 여부를 묻는 메시지가 나타납니다.Similarly, if the knowledge base used for the cleansing project was updated and published after the last time you ran the computer-assisted cleansing, clicking Restart prompts you whether to use the latest knowledge base for cleansing.

      두 경우 모두 를 클릭하여 컴퓨터 기반 정리에 업데이트된 기술 자료를 사용합니다.In both the cases, click Yes to use the updated knowledge base for the computer-assisted cleansing. 또한 현재 매핑과 업데이트된 기술 자료가 충돌하는 경우(예: 도메인이 삭제되었거나 도메인 데이터 형식이 변경된 경우)에도 업데이트된 기술 자료를 사용하여 현재 매핑을 수정할지 여부를 묻는 메시지가 나타납니다.Additionally, if there are any conflicts between current mappings and the updated knowledge base (such as domains were deleted or domain data type was changed), the message also prompts you to fix the current mappings to use the updated knowledge base. 를 클릭하면 컴퓨터 기반 정리를 계속하기 전에 매핑을 수정할 수 있는 페이지로 이동합니다.Clicking Yes takes you to the Map page where you can fix the mappings before continuing with the computer-assisted cleansing.

  2. 컴퓨터 기반 정리 단계 중에 프로파일러 탭을 클릭하면 프로파일러로 전환하여 실시간 데이터 프로파일링 및 알림을 확인할 수 있습니다.During the computer-assisted cleansing stage, you can switch on the profiler by clicking the Profiler tab to view real-time data profiling and notifications. 자세한 내용은 프로파일러 통계을 참조하세요.For more information, see Profiler Statistics.

  3. 결과에 만족하지 않는 경우 뒤로 를 클릭하여 페이지로 이동한 후 필요에 따라 하나 이상의 매핑을 수정하고 정리 페이지로 돌아가서 다시 시작을 클릭합니다.If you are not satisfied with the results, then click Back to return to the Map page, modify one or more mappings as necessary, return to the Cleanse page, and then click Restart.

  4. 컴퓨터 기반 정리 프로세스가 완료된 후 다음 을 클릭하여 대화형 정리 단계(결과 관리 및 보기 페이지)로 이동합니다.After the computer-assisted cleansing process is complete, click Next to proceed to the interactive cleansing stage (Manage and View Results page).

대화형 정리 단계Interactive Cleansing Stage

대화형 정리 단계에서는 DQS에서 제안한 변경 내용을 확인하고, 이를 승인하거나 거부하여 변경 내용을 구현할지 여부를 결정할 수 있습니다.In the interactive cleansing stage, you can see the changes that DQS has proposed and decide whether to implement them or not by approving or rejecting the changes. 결과 관리 및 보기 페이지의 왼쪽 창에는 컴퓨터 기반 정리 단계 중에 각 도메인에 대해 분석한 원본 데이터의 값 수와 함께 이전에 매핑 단계에서 매핑된 모든 도메인 목록이 표시됩니다.On the left pane of the Manage and view results page, DQS displays a list of all the domains that you mapped earlier in the mapping stage along with the number of values in the source data analyzed against each domain during the computer-assisted cleansing stage. 결과 관리 및 보기 페이지의 오른쪽 창에는 도메인 규칙, 구문 오류 규칙 및 고급 알고리즘의 준수 여부에 따라 신뢰도 수준을 사용하여 5개 탭으로 데이터가 분류됩니다.On the right pane of the Manage and view results page, based on adherence to the domain rules, syntax error rules, and advanced algorithms, DQS categorizes the data under five tabs using the confidence level. 신뢰도 수준은 수정 또는 제안에 대한 DQS의 확신도를 나타내며, 다음 임계값을 기반으로 합니다.The confidence level indicates the extent of certainty of DQS for the correction or suggestion, and is based on the following threshold values:

  • 자동 수정 임계값: 신뢰도 수준이 이 임계값보다 높은 모든 값이 DQS에 의해 자동으로 수정됩니다.Auto Correction threshold: Any value that has a confidence level above this threshold is automatically corrected by DQS. 그러나 데이터 관리자가 대화식 정리 중에 변경 내용을 재정의할 수 있습니다.However, the data steward can override the change during interactive cleansing. 구성 화면의 일반 설정 탭에서 자동 수정 임계값을 지정할 수 있습니다.You can specify the auto correction threshold value in the General Settings tab in the Configuration screen. 자세한 내용은 정리 및 일치에 대한 임계값 구성을 참조하세요.For more information, see Configure Threshold Values for Cleansing and Matching.

  • 자동 제안 임계값: 신뢰도 수준이 이 임계값보다 높지만 자동 수정 임계값보다는 낮은 모든 값이 대체 값으로 제안됩니다.Auto Suggestion threshold: Any value that has a confidence level above this threshold, but below the auto correction threshold, is suggested as a replacement value. 변경 작업은 데이터 관리자가 승인하는 경우에만 수행됩니다.DQS will make the change only if the data steward approves it. 구성 화면의 일반 설정 탭에서 자동 제안 임계값을 지정할 수 있습니다.You can specify the auto suggestion threshold value in the General Settings tab in the Configuration screen. 자세한 내용은 정리 및 일치에 대한 임계값 구성을 참조하세요.For more information, see Configure Threshold Values for Cleansing and Matching.

  • 기타: 자동 제안 임계값보다 낮은 모든 값이 DQS에 의해 변경되지 않고 유지됩니다.Other: Any value below the auto suggestion threshold value is left unchanged by DQS.

    값은 신뢰도 수준에 따라 다음 5개의 탭에 표시됩니다.Based on the confidence level, the values are displayed under the following five tabs:

Tab 설명Description
제안Suggested DQS에서 신뢰도 수준이 자동 제안 임계값 보다 높고 자동 수정 임계값 보다 낮은 제안 값을 검색한 도메인 값을 표시합니다.Displays the domain values for which DQS found the suggested values that have a confidence level higher than the auto-suggestion threshold value but lower than the auto-correction threshold value.

제안 값은 원래 값에 대해 다음으로 수정 열에 표시됩니다.The suggested values are displayed in the Correct To column against the original value. 상단 표의 값에 대해 승인 또는 거부 열에 있는 라디오 단추를 클릭하여 해당 값의 모든 인스턴스에 대해 제안을 허용하거나 거부할 수 있습니다.You can click the radio button in the Approve or Reject column against a value in the upper grid to accept or reject the suggestion for all the instances of the value. 이 경우 허용된 값은 수정됨 탭으로 이동하고, 거부된 값은 잘못됨 탭으로 이동합니다.In this case, the accepted value moves to the Corrected tab and the rejected value moves to the Invalid tab.
새로 만들기New DQS에 정보가 부족하여 다른 탭에 매핑할 수 없는 유효한 도메인을 표시합니다. 또한 이 탭에는 신뢰도 수준이 자동 제안 임계값 보다 낮지만 유효한 것으로 표시될 수 있는 값도 포함됩니다.Displays the valid domain for which DQS does not have enough information, and therefore cannot be mapped to any other tab. Further, this tab also contains values that have confidence level less than the auto-suggestion threshold value, but high enough to be marked as valid.

값이 올바르다고 생각되면 승인 열의 라디오 단추를 클릭하고,If you think the value is correct, click the radio button in the Approve column. 그렇지 않으면 거부 열의 라디오 단추를 클릭합니다.Else, click the radio button in the Reject column. 허용된 값은 올바름 탭으로 이동하고, 거부된 값은 잘못됨 탭으로 이동합니다. 올바른 값을 다음으로 수정 열의 원래 값에 대한 대체 값으로 직접 입력한 다음 승인 열의 라디오 단추를 클릭하여 변경 내용을 적용할 수도 있습니다.The accepted value moves to the Correct tab and the rejected value moves to the Invalid tab. You can also manually type the correct value as a replacement for the original value in the Correct To column against the value, and then click the radio button in the Approve column to accept the change. 이 경우 값이 수정됨 탭으로 이동합니다.In this case, the value moves to the Corrected tab.
잘못됨Invalid 기술 자료의 도메인에 유효하지 않은 것으로 표시된 도메인 값 또는 도메인 규칙을 준수하지 않은 값을 표시합니다.Displays the domain values that were marked as invalid in the domain in the knowledge base or values that failed a domain rule. 또한 이 탭에는 다른 4개의 탭에서 사용자가 거부한 값도 포함됩니다.This tab also contains values that were rejected by the user in any of the other four tabs.

그러나 값이 올바르다고 생각되면 승인 열의 라디오 단추를 클릭할 수 있습니다.However, if you think the value is correct, click the radio button in the Approve column. 허용된 값은 올바름 탭으로 이동합니다. 올바른 값을 다음으로 수정 열의 원래 값에 대한 대체 값으로 직접 입력한 다음 승인 열의 라디오 단추를 클릭하여 변경 내용을 적용할 수도 있습니다.The accepted value moves to the Correct tab. You can also manually type the correct value as a replacement for the original value in the Correct To column against the value, and then click the radio button in the Approve column to accept the change. 이 경우 값이 수정됨 탭으로 이동합니다.In this case, the value moves to the Corrected tab.
수정됨Corrected 자동화된 정리 프로세스 중에 DQS에서 신뢰도 수준이 자동 수정 임계값보다 높은 값에 대한 수정 값을 검색하여 수정한 도메인 값을 표시합니다.Displays the domain values that are corrected by DQS during the automated cleansing process as DQS found a correction for the value with confidence level above the auto-correction threshold value.

수정된 값은 원래 값에 대해 다음으로 수정 열에 표시됩니다.The corrected values are displayed in the Correct To column against the original value. 기본적으로 이 값에 대해 승인 열의 라디오 단추가 선택됩니다.By default, the radio button in the Approve column against the value is selected. 필요한 경우 거부 열의 라디오 단추를 클릭해 제안된 수정을 거부하여 해당 값을 잘못됨 탭으로 이동하거나, 다음으로 수정 열에 올바른 값을 직접 입력한 다음 승인 열의 라디오 단추를 클릭하여 변경 내용을 적용하고 해당 값을 수정됨 탭으로 이동할 수 있습니다.If required, you can reject the proposed correction by clicking the radio button in the Reject column to move it to the Invalid tab, or manually type correct value in the Correct To column, and then click the radio button in the Approve column to accept the change, and move it to the Corrected tab.
올바름Correct 올바른 것으로 확인된 도메인 값을 표시합니다.Displays the domain values that were found correct. 예를 들어 도메인 값과 일치하는 값이 여기에 해당합니다.For example, the value matched a domain value. 또한 이 탭에는 새로 만들기잘못됨 탭에서 승인 열의 라디오 단추를 클릭하여 사용자가 승인한 값도 포함됩니다.This tab also contains values that were approved by the user by clicking the radio button in the Approve column in the New and Invalid tabs.

기본적으로 각 값에 대해 승인 열의 라디오 단추가 선택됩니다.By default, the radio button in the Approve column is selected against each value. 그러나 이 탭의 값이 잘못되었다고 생각되는 경우 해당 값에 대해 거부 열의 라디오 단추를 클릭하여 해당 값을 잘못됨 탭으로 이동하거나, 다음으로 수정 열에 해당 값의 대체 값으로 올바른 값을 직접 입력한 다음 승인 열의 라디오 단추를 클릭하여 변경 내용을 적용하고 해당 값을 수정됨 탭으로 이동할 수 있습니다.However, if you think that a value in this tab is incorrect, you can either click the radio button in the Reject column against the value to move it to the Invalid tab, or manually type the correct value as a replacement for the value in the Correct To column against the value, and then click the radio button in the Approve column to accept the change, and move it to the Corrected tab.

대화형으로 데이터를 정리하려면To interactively cleanse the data:

  1. 정리 데이터 품질 마법사의 결과 관리 및 보기 페이지에서 왼쪽 창에 있는 도메인 이름을 클릭합니다.On the Manage and view results page of the cleansing data quality wizard, click on a domain name in the left pane.

  2. 5개 탭 아래의 도메인 값을 검토하고 이전에 설명된 대로 적절한 조치를 취합니다.Review the domain values under the five tabs, and take appropriate action as explained earlier.

    • 오른쪽 위의 창에는 선택한 도메인의 각 값에 대해 원래 값, 인스턴스(레코드) 수, 다른(올바른) 값을 지정할 수 있는 상자, 신뢰도 수준( 올바름 탭 아래의 값에는 사용할 수 없음), 값에 대해 DQS 작업이 수행된 이유, 값에 대한 수정 및 제안을 승인하거나 거부할 수 있는 옵션 등의 정보가 표시됩니다.The right-upper pane displays the following information for each value in the selected domain: original value, number of instances (records), a box to specify another (correct) value, the confidence level (not available for the values under the Correct tab), the reason for the DQS action on the value, and the option to approve and reject the corrections and suggestions for the value.

      각각 모든 용어를 승인합니다 또는 모든 용어를 거부합니다 아이콘을 클릭하여 오른쪽 위의 창에 있는 선택된 도메인의 모든 값을 승인하거나 거부할 수 있습니다.You can approve or reject all the values in the selected domain in the upper-right pane by clicking Approve all terms or Reject all terms icon respectively. 또는 선택한 도메인의 값을 마우스 오른쪽 단추로 클릭한 다음 바로 가기 메뉴에서 모두 허용 또는 모두 거부 를 클릭합니다.Alternately, you can right-click a value in the selected domain, and click Accept all or Reject all in the shortcut menu.

    • 아래쪽 창에 오른쪽 위의 창에서 선택한 도메인 값의 개별 발생 수가 표시됩니다.The lower pane displays individual occurrences of the domain value selected in the right-upper pane. 표시되는 정보에는 다른(올바른) 값을 지정할 수 있는 상자, 신뢰도 수준( 올바름 탭 아래의 값에는 사용할 수 없음), 값에 대해 DQS 작업이 수행된 이유, 값에 대한 수정 및 제안을 승인하거나 거부할 수 있는 옵션, 원래 값 등이 있습니다.The following information is displayed: a box to specify another (correct) value, the confidence level (not available for the values under the Correct tab), the reason for the DQS action on the value, option to approve and reject the corrections and suggestions for the value, and the original value.

  3. 도메인을 만드는 동안 해당 도메인에 대해 맞춤법 검사기 기능을 설정한 경우 잠재적 오류로 확인된 도메인 값에 대해 빨간색 물결선 밑줄이 표시됩니다.If you enabled the Speller feature for a domain while creating it, wavy red underscores are displayed against such domain values that are identified as potential error. 밑줄은 전체 값에 대해 표시됩니다.The underscore is displayed for the entire value. 예를 들어, "New York"이 "Neu York"으로 철자가 잘못된 경우 맞춤법 검사기에서 "Neu"뿐 아니라 "Neu York" 전체에 빨간색 밑줄을 표시합니다.For example, if “New York” is incorrectly spelled as “Neu York”, the speller will display red underscore under “Neu York”, and not just “Neu”. 값을 마우스 오른쪽 단추로 클릭하면 제안된 수정 사항이 표시됩니다.If you right-click the value, you will see suggested corrections. 제안 항목이 5개가 넘는 경우 상황에 맞는 메뉴에서 추가 제안 을 클릭하여 나머지 제안 항목을 볼 수 있습니다.If there are more than 5 suggestions, you can click More suggestions in the context menu to view the rest of them. 오류 표시와 마찬가지로 전체 값에 대한 대체 값이 제안됩니다.As with the error display, the suggestions are replacements for the whole value. 예를 들어, 이전 예의 경우 "New"가 아니라 "New York"이 제안 값으로 표시됩니다.For example, “New York” will be displayed as a suggestion in the previous example, and not just “New”. 제안 중 하나를 선택하거나 해당 값에 대해 표시할 사전에 값을 추가할 수 있습니다.You can pick one of the suggestions or add a value to the dictionary to be displayed for that value. 값은 사용자 계정 수준에서 사전에 저장됩니다.Values are stored in dictionary at a user account level. 맞춤법 검사기 상황에 맞는 메뉴에서 제안을 선택하면 선택한 제안이 다음으로 수정 열에 추가됩니다.When you select a suggestion from the speller context menu, the selected suggestion will be added to the Correct To column. 그러나 다음으로 수정 열에서 제안을 선택한 경우에는 해당 열의 값이 선택한 제안으로 대체됩니다.However, if you select a suggestion in the Correct To column, the value in the column is replaced by the selected suggestion.

    맞춤법 검사기 기능은 대화형 정리 단계에서 기본적으로 사용하도록 설정됩니다.The speller feature is enabled by default in the interactive cleansing stage. 맞춤법 검사기를 설정/해제합니다 아이콘을 클릭하거나, 도메인 값 영역을 마우스 오른쪽 단추로 클릭한 다음 바로 가기 메뉴에서 맞춤법 검사기 를 클릭하여 대화형 정리 단계에서 맞춤법 검사기를 사용하지 않도록 설정할 수 있습니다.You can disable speller in the interactive cleansing stage by clicking the Enable/Disable Speller icon, or right-clicking in the domain values area, and then clicking Speller in the shortcut menu. 맞춤법 검사기를 다시 사용하도록 설정하려면 이 작업을 반복하면 됩니다.To enable it back again, do the same.

    참고

    맞춤법 검사기 기능은 위쪽 창(도메인 값)에서만 사용할 수 있습니다.The speller feature is only available in the upper pane (domain values). 또한 복합 도메인에 대해서는 맞춤법 검사기를 사용하거나 사용하지 않도록 설정할 수 없습니다.Moreover, you cannot enable or disable speller for composite domains. 복합 도메인에서 맞춤법 검사기 기능이 설정된 문자열 형식의 하위 도메인에는 기본적으로 대화형 정리 단계에서 맞춤법 검사기 기능이 설정됩니다.The child domains in a composite domain that are of string type, and are enabled for the speller feature, will have the speller functionality enabled in the interactive cleansing stage, by default.

  4. 대화형 정리 단계 중에 프로파일러 탭을 클릭하면 프로파일러로 전환하여 실시간 데이터 프로파일링 및 알림을 확인할 수 있습니다.During the interactive cleansing stage, you can switch on the profiler by clicking the Profiler tab to view real-time data profiling and notifications. 자세한 내용은 프로파일러 통계을 참조하세요.For more information, see Profiler Statistics.

  5. 모든 도메인 값을 검토한 후 다음 을 클릭하여 내보내기 단계로 이동합니다.After you have reviewed all the domain values, click Next to proceed to the export stage.

내보내기 단계Export Stage

내보내기 단계에서는 정리한 데이터를 내보낼 매개 변수를 지정합니다. 즉, 내보낼 항목과 내보낼 위치를 지정할 수 있습니다.In the export stage, you specify the parameters for exporting your cleansed data: what and where to export.

  1. 정리 데이터 품질 마법사의 내보내기 페이지에서 정리한 데이터를 내보낼 대상 유형( SQL Server, CSV 파일또는 Excel 파일)을 선택합니다.On the Export page of the cleansing data quality wizard, select the destination type for exporting your cleansed data: SQL Server, CSV File, or Excel File.

    중요

    64비트 버전의 Excel을 사용 중인 경우 정리한 데이터를 Excel 파일로 내보낼 수 없습니다. SQL Server 데이터베이스 또는 .csv 파일로만 내보낼 수 있습니다.If you are using 64-bit version of Excel, you cannot export your cleansed data to an Excel file; you can export only to a SQL Server database or to a .csv file.

    1. SQL Server: 여기에서 데이터를 내보내려면 DQS_STAGING_DATA 를 대상 데이터베이스로 선택한 다음 내보낸 데이터를 저장하기 위해 만들 테이블 이름을 지정합니다.SQL Server: Select DQS_STAGING_DATA as the destination database if you want to export your data here, and then specify a table name that will be created to store your exported data. 그렇지 않고 데이터를 다른 데이터베이스로 내보내려면 해당 데이터베이스로 선택한 다음 내보낸 데이터를 저장하기 위해 만들 테이블 이름을 지정합니다.Otherwise, select another database if you want to export data to a different database, and then specify a table name that will be created to store your exported data. 대상 데이터베이스는 Data Quality 서버Data Quality Server 데이터베이스 드롭다운 목록에서 제공할 와 동일한 SQL Server 인스턴스에 있어야 합니다.Your destination database must be present in the same SQL Server instance as Data Quality 서버Data Quality Server to be available in the Database drop-down list.

    2. CSV 파일: 찾아보기를 클릭한 다음 정리한 데이터를 내보낼 .csv 파일의 이름과 위치를 지정합니다.CSV File: Click Browse, and specify the name and location of the .csv file where you want to export the cleansed data. 정리한 데이터를 내보낼 전체 경로와 함께 .csv 파일의 파일 이름을 입력할 수도 있습니다.You can also type the file name for the .csv file along with the full path where you want to export the cleansed data. 예를 들어, "c:\ExportedData.csv"를 입력합니다.For example, “c:\ExportedData.csv”. 이 파일은 Data Quality 서버Data Quality Server 가 설치된 컴퓨터에 저장됩니다.The file is saved on the computer where Data Quality 서버Data Quality Server is installed.

    3. Excel 파일: 찾아보기를 클릭한 다음 정리한 데이터를 내보낼 Excel 파일의 이름과 위치를 지정합니다.Excel File: Click Browse, and specify the name and location of the Excel file where you want to export the cleansed data. 정리한 데이터를 내보낼 전체 경로와 함께 Excel 파일의 파일 이름을 입력할 수도 있습니다.You can also type the file name for the Excel file along with the full path where you want to export the cleansed data. 예를 들어, "c:\ExportedData.xlsx"를 입력합니다.For example, “c:\ExportedData.xlsx”. 이 파일은 Data Quality 서버Data Quality Server 가 설치된 컴퓨터에 저장됩니다.The file is saved on the computer where Data Quality 서버Data Quality Server is installed.

  2. 출력 표준화 확인란을 선택하여 도메인에 대해 선택한 출력 형식에 따라 출력을 표준화합니다.Select the Standardize Output check box to standardize the output based on the output format selected for the domain. 예를 들어, 문자열 값을 대문자로 변경하거나 단어의 첫 글자를 대문자로 지정합니다.For example, change the string value to upper case or capitalize the first letter of the word. 도메인의 출력 형식을 지정하는 방법은 도메인 속성 설정 에서 출력 형식목록을 참조하세요.For information about specifying the output format of a domain, see the Format Output to list in Set Domain Properties.

  3. 그런 다음 데이터 출력을 선택합니다. 정리한 데이터만 내보내거나 정리한 데이터를 정리 정보와 함께 내보낼 수 있습니다.Next, select the data output: export just the cleansed data or export cleansed data along with the cleansing information.

    • 데이터만: 정리한 데이터만 내보내려면 이 라디오 단추를 클릭합니다.Data Only: Click the radio button to export just the cleansed data.

    • 데이터 및 정리 정보: 각 도메인에 대해 다음 데이터를 내보내려면 이 라디오 단추를 클릭합니다.Data and Cleansing Info: Click the radio button to export the following data for each domain:

      • <Domain>_Source: 도메인의 원래 값입니다.<Domain>_Source: The original value in the domain.

      • <Domain>_Output: 도메인에서 정리한 값입니다.<Domain>_Output: The cleansed values in the domain.

      • <Domain>_Reason: 값을 수정하도록 지정한 이유입니다.<Domain>_Reason: The reason specified for the correction of the value.

      • <Domain>_Confidence: 수정된 모든 용어에 대한 신뢰도 수준입니다.<Domain>_Confidence: The confidence level for all the terms that were corrected. 신뢰도는 해당 백분율 값과 동일한 10진수 값으로 표시됩니다.It is displayed as the decimal value equivalent to the corresponding percentage value. 예를 들어, 95%의 신뢰 수준은 .9500000으로 표시됩니다.For example, a confidence level of 95% will be displayed as .9500000.

      • <Domain>_Status: 데이터 정리 후 도메인 값의 상태입니다.<Domain>_Status: The status of the domain value after data cleansing. 예를 들어 제안, 새로 만들기, 잘못됨, 수정됨또는 올바름이 여기에 해당합니다.For example, Suggested, New, Invalid, Corrected, or Correct.

      • 레코드 상태: 매핑된 도메인별 상태 필드(<DomainName>_Status)와 별도로 레코드 상태 필드에는 레코드에 대한 상태가 표시됩니다.Record Status: Apart from having a status field for each mapped domain (<DomainName>_Status), the Record Status field displays the status for a record. 레코드의 도메인 상태가 새로 만들기 또는 올바름인 경우 레코드 상태올바름으로 설정됩니다.If any of the domain’s status in the record is New or Correct, the Record Status is set to Correct. 레코드의 도메인 상태가 제안, 잘못됨또는 수정됨인 경우 레코드 상태 는 해당 값으로 설정됩니다.If any of the domain’s status in the record is Suggested, Invalid, or Corrected, the Record Status is set to the respective value. 예를 들어 레코드의 도메인 상태가 제안인 경우 레코드 상태제안으로 설정됩니다.For example, if any of the domain’s status in the record is Suggested, the Record Status is set to Suggested.

        참고

        정리 작업에 참조 데이터 서비스를 사용하는 경우 도메인 값에 대한 몇 가지 추가 데이터도 내보낼 수 있습니다.If you use reference data service for the cleansing operation, some additional data about the domain value is also available for exporting. 자세한 내용은 참조 데이터(외부) 기술 자료를 사용하여 데이터 정리를 참조하세요.For more information, see Cleanse Data Using Reference Data (External) Knowledge.

  4. 내보내기 를 클릭하여 선택한 데이터 대상으로 데이터를 내보냅니다.Click Export to export data to the selected data destination. 선택한 데이터 대상에 따른 결과는 다음과 같습니다.If you selected:

    • SQL Server 를 데이터 대상으로 선택한 경우 지정한 이름의 새 테이블이 선택한 데이터베이스에서 만들어집니다.SQL Server as the data destination, a new table with the specified name will be created in the selected database.

    • CSV 파일 을 데이터 대상으로 선택한 경우 Data Quality 서버Data Quality Server CSV 파일 이름 상자에서 이전에 지정한 파일 이름으로 컴퓨터의 위치에 .csv 파일이 만들어집니다.CSV File as the data destination, a .csv file will be created at the location on the Data Quality 서버Data Quality Server computer with the file name that you specified earlier in the CSV File name box.

    • Excel 파일 을 데이터 대상으로 선택한 경우 Data Quality 서버Data Quality Server Excel 파일 이름 상자에서 이전에 지정한 파일 이름으로 컴퓨터의 위치에 Excel 파일이 만들어집니다.Excel File as the data destination, an Excel file will be created at the location on the Data Quality 서버Data Quality Server computer with the file name that you specified earlier in the Excel file name box.

  5. 마침 을 클릭하여 데이터 품질 프로젝트를 닫습니다.Click Finish to close the data quality project.

Profiler StatisticsProfiler Statistics

프로파일러 탭에서는 원본 데이터의 품질을 나타내는 통계를 제공합니다.The Profiler tab provides statistics that indicate the quality of the source data. 프로파일링을 통해 데이터 정리 작업의 효과를 평가하여 잠재적으로 데이터 정리로 데이터의 품질을 개선할 수 있는 정도를 확인할 수 있습니다.Profiling helps you assess the effectiveness of the data cleansing activity, and you can potentially determine the extent to which data cleansing was able to improve the quality of the data.

프로파일러 탭에서는 원본 데이터에 대해 필드 및 도메인별로 다음과 같은 통계를 제공합니다.The Profiler tab provides the following statistics for the source data, by field and domain:

  • 레코드: 데이터 정리 작업에 대해 분석된 데이터 예제의 레코드 수Records: How many records in the data sample were analyzed for the data cleansing activity

  • 올바른 레코드: 올바른 것으로 확인된 레코드 수Correct Records: How many records were found to be correct

  • 수정된 레코드: 수정된 레코드 수Corrected Records: How many records were corrected

  • 제안된 레코드: 제안된 레코드 수Suggested Records: How many records were suggested

  • 잘못된 레코드: 잘못된 레코드 수Invalid Records: How many records were invalid

    필드 통계에는 다음이 포함됩니다.The field statistics include the following:

  • 필드: 원본 데이터의 필드 이름Field: Name of the field in the source data

  • 도메인: 필드에 매핑된 도메인의 이름Domain: Name of the domain that maps to the field

  • 수정된 값: 수정된 도메인 값 수Corrected Values: The number of domain values that were corrected

  • 제안된 값: 제안된 도메인 값 수Suggested Values: The number of domain values that were suggested

  • 완결성: 정리 작업을 위해 매핑된 각 원본 필드의 완결성Completeness: The completeness of each source field that is mapped for the cleansing activity

  • 정확도: 정리 작업을 위해 매핑된 각 원본 필드의 정확도Accuracy: The accuracy of each source field that is mapped for the cleansing activity

    DQS 프로파일링에서는 완결성 (데이터가 존재하는 정도)과 정확도 (데이터를 의도된 용도에 맞게 사용할 수 있는 정도)의 두 가지 데이터 품질 차원을 제공합니다.DQS profiling provides two data quality dimensions: completeness (the extent to which data is present) and accuracy (the extent to which data can be used for its intended use). 프로파일링 결과 필드가 상대적으로 불완전한 것으로 나오면 데이터 품질 프로젝트의 기술 자료에서 제거하는 것이 좋습니다.If profiling is telling you that a field is relatively incomplete, you might want to remove it from the knowledge base of a data quality project. 프로파일링은 복합 도메인에 대한 신뢰할 수 있는 완결성 통계를 제공할 수 없습니다.Profiling may not provide reliable completeness statistics for composite domains. 완결성 통계가 필요한 경우 복합 도메인 대신 단일 도메인을 사용하세요.If you need completeness statistics, use single domains instead of composite domains. 복합 도메인을 사용하려는 경우 프로파일링을 위해 단일 도메인을 사용하는 하나의 기술 자료를 만들어 완결성을 확인하고 정리 프로세스를 위해 복합 도메인을 사용하는 다른 도메인을 만드는 것이 좋습니다.If you want to use composite domains, you may want to create one knowledge base with single domains for profiling, to determine completeness, and create another domain with a composite domain for the cleansing process. 예를 들어 프로파일링은 복합 도메인을 사용하는 주소 레코드에 대해 95%의 완결성을 표시할 수 있지만 우편 번호 열과 같은 열의 경우 불완결성 수준이 매우 높을 수 있습니다.For example, profiling could show 95% completeness for address records using a composite domain, but there could be a much higher level of incompleteness for one of the columns, for example, a postal (zip) code column. 이 예에서는 단일 도메인을 사용하는 우편 번호 열의 완결성을 평가하는 것이 좋습니다.In this example, you might want to measure the completeness of the zip code column with a single domain. 프로파일링은 복합 도메인에 대해 신뢰할 수 있는 정확성 통계를 제공할 가능성이 높습니다. 여러 열의 정확성을 함께 평가할 수 있기 때문입니다.Profiling will likely provide reliable accuracy statistics for composite domains because you can measure accuracy for multiple columns together. 이 데이터의 값은 복합 집계 형식이므로 복합 도메인을 사용하여 정확성을 평가하는 것이 좋습니다.The value of this data is in the composite aggregation, so you may want to measure the accuracy with a composite domain.

    참조 데이터 서비스를 사용하지 않는 경우에는 정확도 통계를 보다 면밀히 해석해야 할 수 있습니다.Accuracy statistics will likely require more interpretation if you are not using a reference data service. 데이터 정리에 참조 데이터 서비스를 사용하는 경우에는 정확도 통계를 어느 정도 신뢰할 수 있습니다.If you are using a reference data service for data cleansing, you will have a level of trust in accuracy statistics. 참조 데이터 서비스를 사용하여 데이터 정리에 대한 자세한 내용은 참조 데이터(외부) 기술 자료를 사용하여 데이터 정리를 참조하세요.For more information about data cleansing using reference data service, see Cleanse Data Using Reference Data (External) Knowledge.

정리 알림Cleansing Notifications

다음과 같은 경우에 알림이 발생합니다.The following conditions result in notifications:

  • 필드에 대한 수정 또는 제안이 없는 경우 -There are no corrections or suggestions for a field. 매핑에서 제거하거나 먼저 기술 자료 검색을 실행하거나 다른 기술 자료를 사용할 수 있습니다.You might want to remove it from mapping, run knowledge discovery first, or use another knowledge base.

  • 필드에 대한 수정 또는 제안이 비교적 적은 경우 -There are relatively few corrections or suggestions for a field. 매핑에서 제거하거나 먼저 기술 자료 검색을 실행하거나 다른 기술 자료를 사용할 수 있습니다.You might want to remove it from mapping, run knowledge discovery first, or use another knowledge base.

  • 필드의 정확도 수준이 매우 낮은 경우 -The accuracy level of the field is very low. 매핑을 확인하거나 먼저 기술 자료 검색을 실행할 수 있습니다.You might want to verify the mapping, or consider running knowledge discovery first.

    프로파일링에 대한 자세한 내용은 DQS의 데이터 프로파일링 및 알림을 참조하세요.For more information about profiling, see Data Profiling and Notifications in DQS.