일치 프로젝트 실행Run a Matching Project

이 항목에서는 DQS( Data Quality ServicesData Quality Services )에서 데이터 일치를 수행하는 방법에 대해 설명합니다.This topic describes how to perform data matching in Data Quality ServicesData Quality Services (DQS). 일치 프로세스에서는 일치 정책의 일치 규칙에 따라 일치 레코드 클러스터를 확인하고 Survivorship 규칙에 따라 각 클러스터에서 하나의 레코드를 존속 레코드로 지정한 후 결과를 내보냅니다.The matching process identifies clusters of matching records based upon matching rules in the matching policy, designates one record from each cluster as the survivor based upon a survivorship rule, and exports the results. 일치 프로세스(중복 제거라고도 함)는 DQS의 컴퓨터 기반 프로세스에서 수행되지만, 대화형으로 일치 규칙을 만들고 여러 선택 항목에서 Survivorship 규칙을 선택하여 일치 프로세스를 제어할 수 있습니다.DQS performs the matching process, also called de-duplication, in a computer-assisted process, but you create matching rules interactively, and you select the survivorship rule from several choices, so you control the matching process.

일치는 데이터 원본을 확인하고 도메인을 데이터 원본에 매핑하는 매핑 프로세스, 일치 분석 및 Survivorship을 실행하는 일치 프로세스, 그리고 Survivorship 규칙을 지정하고 일치 결과를 내보내는 내보내기 프로세스의 3단계로 수행됩니다.Matching is performed in three stages: a mapping process in which you identify the data source and map domains to the data source, a matching process in which you run the matching analysis, and a survivorship and export process in which you designate the survivorship rule and export the matching results. 이러한 각 프로세스는 일치 작업 마법사의 개별 페이지에서 수행되므로 여러 페이지를 앞뒤로 이동하고, 프로세스를 다시 실행하고, 특정 일치 프로세스를 닫은 후 프로세스의 같은 단계로 돌아갈 수 있습니다.Each of these processes is performed on a separate page of the Matching activity wizard, enabling you to move back and forth to different pages, to re-run the process, and to close out of a specific matching process and then return to the same stage of the process. DQS에서는 원본 데이터, 일치 규칙 및 일치 결과에 대한 통계를 제공하므로 정보를 바탕으로 일치에 대한 의사를 결정하고 일치 프로세스를 구체화할 수 있습니다.DQS provides you with statistics about the source data, the matching rules, and the matching results that enable you to make informed decisions about matching, and refine the matching process.

하나 이상의 일치 규칙을 사용하여 일치 정책을 만들고 예제 데이터에서 해당 정책을 실행하여 일치 프로세스를 준비해야 합니다.You must prepare for matching by creating a matching policy with one or more matching rules, and running the policy on sample data. 일치 프로젝트 프로세스는 일치 정책 프로세스와 별개이며, 기술 자료는 일치 프로젝트에서 얻은 일치 정보로 채워지지 않습니다.The matching project process is separate from the matching policy process, and a knowledge base is not populated with matching knowledge gained from the matching project. 일치 정책을 만드는 방법은 Create a Matching Policy를 참조하세요.For more information about creating a matching policy, see Create a Matching Policy.

시작하기 전에Before You Begin

필수 구성 요소Prerequisites

  • 하나 이상의 일치 규칙으로 구성된 일치 정책을 사용하여 만든 기술 자료가 있어야 합니다.You must have created a knowledge base with a matching policy consisting of one or more matching rules.

  • 일치시킬 원본 데이터가 Excel 파일 형식인 경우 Data Quality 클라이언트Data Quality Client 컴퓨터에 Microsoft Excel이 설치되어 있어야 합니다.Microsoft Excel must be installed on the Data Quality 클라이언트Data Quality Client computer if the source data to be matched is in an Excel file. 그렇지 않으면 매핑 단계에서 Excel 파일을 선택할 수 없습니다.Otherwise, you will not be able to select the Excel file in the mapping stage. Microsoft Excel에서 만든 파일은 .xlsx, .xls 또는.csv 확장명을 가질 수 있습니다.The files created by Microsoft Excel can have an extension of .xlsx, .xls, or .csv. 64비트 버전의 Excel이 사용된 경우 Excel 2003 파일 (.xls)만 지원됩니다. Excel 2007 또는 2010 파일(.xlsx)은 지원되지 않습니다.If the 64-bit version of Excel is used, only Excel 2003 files (.xls) are supported; Excel 2007 or 2010 files (.xlsx) are not supported. 64비트 버전의 Excel 2007 또는 2010을 사용 중인 경우 파일을 .xls 파일 또는 .csv 파일로 저장하거나 32비트 버전의 Excel을 대신 설치하세요.If you are using 64-bit version of Excel 2007 or 2010, save the file as an .xls file or a .csv file, or install a 32-bit version of Excel instead.

보안Security

사용 권한Permissions

일치 프로젝트를 실행하려면 DQS_MAIN 데이터베이스에 대한 dqs_kb_editor 또는 dqs_administrator 역할이 있어야 합니다.You must have the dqs_kb_editor or the dqs_administrator role on the DQS_MAIN database to run a matching project.

1단계: 일치 프로젝트 시작First Step: Starting a Matching Project

DQS 클라이언트 응용 프로그램에서 만든 데이터 품질 프로젝트에서 일치 작업을 수행합니다.You perform the matching activity in a data quality project that you create in the DQS client application.

  1. Data Quality 클라이언트를 시작합니다.Start Data Quality Client. 방법은 다음을 참조하세요.For information about doing so, see Data Quality Client 응용 프로그램을 실행합니다. Run the Data Quality Client Application.

  2. Data Quality 클라이언트Data Quality Client 홈 화면에서 새 데이터 품질 프로젝트 를 클릭하여 새 데이터 품질 프로젝트에서 일치를 수행합니다.In the Data Quality 클라이언트Data Quality Client home screen, click New Data Quality Project to perform matching in a new data quality project. 데이터 품질 프로젝트에 대한 이름과 설명을 입력하고 기술 자료 사용에서 일치에 사용할 기술 자료를 선택합니다.Enter a name for the data quality project, enter a description, and select the knowledge base that you want to use for matching in Use knowledge base. 작업에 대해 일치 를 클릭합니다.Click Matching for the activity. 다음 을 클릭하여 매핑 단계로 이동합니다.Click Next to proceed to the mapping stage.

  3. 데이터 품질 프로젝트 열기 를 클릭하여 기존 데이터 품질 프로젝트에서 일치를 수행합니다.Click Open data quality project to perform matching in an existing data quality project. 프로젝트를 선택하고 다음을 클릭합니다.Select the project and then click Next. (또는 최근 데이터 품질 프로젝트에서 프로젝트를 클릭할 수 있습니다.) 닫힌 일치 프로젝트를 연 경우 해당 일치 프로젝트 작업이 닫힌 단계(최신 데이터 품질 프로젝트 아래의 프로젝트 이름 또는 프로젝트 테이블의 상태 열에 표시된 단계)로 이동합니다.(Or you can click a project under Recent Data Quality Project.) If you open a matching project that was closed, you will proceed to the stage that the matching project activity was closed in (as indicated by the State column in the project table or in the project name under Recent Data Quality Project). 완료된 일치 프로젝트를 연 경우 내보내기 페이지로 이동합니다. 이 경우에는 이전 화면으로 돌아갈 수 없습니다.If you open a matching project that was finished, you will go to the Export page (and you cannot go back to previous screens).

매핑 단계Mapping Stage

매핑 단계에서는 일치 분석을 실행할 데이터의 원본을 확인하고 도메인을 일치 작업에 사용할 수 있도록 원본 열을 도메인에 매핑합니다.In the mapping stage you identify the source of the data that you will run the matching analysis on, and you map source columns to domains to make the domains available for the matching activity.

  1. 페이지에서 데이터베이스에 대해 일치를 실행하려면 데이터 원본SQL Server로 그대로 두고 일치를 실행할 데이터베이스를 선택한 다음 테이블을 선택합니다.On the Map page, to run matching on a database, leave Data Source as SQL Server, select the database that you want to run matching on, and then select the table. 원본 데이터베이스는 DQS 서버와 동일한 SQL Server 인스턴스에 있어야 합니다.The source database must be present in the same SQL Server instance as the DQS server. 그렇지 않으면 드롭다운 목록에 나타나지 않습니다.Otherwise, it will not appear in the drop-down list.

  2. Excel 스프레드시트의 데이터에 대해 일치를 실행하려면 Excel 파일데이터 원본으로 선택하고 찾아보기 를 클릭한 다음 Excel 파일을 선택합니다. 이때 해당되는 경우 첫 번째 행을 헤더로 사용하세요 를 선택된 상태로 그대로 둡니다.To run matching on the data in an Excel spreadsheet, select Excel File for Data Source, click Browse and select the Excel file, and leave Use first row as header selected if appropriate. 워크시트에서 데이터의 원본으로 사용할 Excel 파일의 워크시트를 선택합니다.In Worksheet, select the worksheet in the Excel file that will be the source of the data. Excel 파일을 선택하려면 Data Quality 클라이언트Data Quality Client 컴퓨터에 Excel이 설치되어 있어야 합니다.Excel must be installed on the Data Quality 클라이언트Data Quality Client computer to select an Excel file. Data Quality 클라이언트Data Quality Client 컴퓨터에 Excel이 설치되지 않은 경우 찾아보기 단추를 사용할 수 없으며 이 텍스트 상자 아래에 Excel이 설치되어 있지 않다는 알림이 표시됩니다.If Excel is not installed on the Data Quality 클라이언트Data Quality Client computer, the Browse button will not be available, and you will be notified beneath this text box that Excel is not installed.

  3. 매핑에서 원본 열에 대한 데이터 원본의 필드를 선택한 다음 해당 도메인을 선택합니다.Under Mappings, select a field in the data source for Source Column, and then select the corresponding domain. 일치 프로세스에서 사용할 모든 도메인에 대해 작업을 반복합니다.Repeat for all domains that you use in the matching process. 일치 정책에 정의된 각 도메인이 해당 원본 열에 매핑되어 있어야 합니다.Each domain that is defined in the matching policy must be mapped to the appropriate source column. 맵 페이지에는 일치 정책에 정의된 도메인이 표시되며, 오른쪽 창에 일치 정책의 규칙이 표시됩니다.The Map page displays the domains that have been defined in the matching policy and the rules in the matching policy in the right-hand pane.

    참고

    원본 데이터 형식이 DQS에서 지원되고 DQS 도메인 데이터 형식과 일치하는 경우에만 DQS 도메인에 원본 데이터를 매핑할 수 있습니다.You can map your source data to a DQS domain only if the source data type is supported in DQS, and matches with the DQS domain data type. DQS에서 지원되는 데이터 형식에 대한 자세한 내용은 DQS 도메인에 대해 지원되는 SQL Server 및 SSIS 데이터 형식을 참조하세요.For information about supported data types in DQS, see Supported SQL Server and SSIS Data Types for DQS Domains.

  4. 더하기(+) 컨트롤을 클릭하여 매핑 테이블에 행을 추가하거나 빼기(–) 컨트롤을 클릭하여 행을 제거합니다.Click the plus (+) control to add a row to the Mappings table or the minus (–) control to remove a row.

  5. 데이터 원본 미리 보기 를 클릭하여 선택한 SQL Server 테이블이나 뷰 또는 선택한 Excel 워크시트에서 데이터를 확인합니다.Click Preview data source to see the data in the SQL Server table or view that you selected, or the Excel worksheet that you selected.

  6. 복합 도메인 보기/선택 을 클릭하여 기술 자료에서 사용할 수 있는 복합 도메인 목록을 확인하고 매핑에 적절한 복합 도메인을 선택합니다.Click View/Select Composite Domains to view a list of the composite domains available in the knowledge base and select as appropriate for mapping.

  7. 다음 을 클릭하여 일치 단계로 이동합니다.Click Next to proceed to the matching stage.

    참고

    일치 프로젝트의 단계를 저장하고 DQS 홈 페이지로 돌아가려면 닫기 를 클릭합니다.Click Close to save the stage of the matching project, and return to the DQS home page. 다음에 이 프로젝트를 열면 동일한 단계에서 시작됩니다.The next time you open this project, it will start from the same stage. 취소 를 클릭하면 일치 작업이 저장되지 않고 종료되며 DQS 홈 페이지로 돌아갑니다.Click Cancel to end the matching activity, losing your work, and return to the DQS home page.

일치 단계Matching Stage

이 단계에서는 일치 규칙에 따라 원본 데이터에 존재하는 일치 항목 수를 보여 주는 컴퓨터 기반 일치 프로세스를 수행합니다.In this stage, you perform a computer-assisted matching process that shows you how many matches there are in the source data based upon the matching rules. 이 프로세스를 수행하면 DQS에서 확인한 클러스터, 클러스터의 각 레코드(해당 레코드 ID 및 일치 점수 포함) 및 클러스터의 초기 선행 레코드가 표시된 일치 결과 테이블이 생성됩니다.This process will generate a matching results table that shows the clusters that DQS has identified, each record in the cluster with its record ID and its matching score, and the initial leading record for the cluster. 클러스터의 선행 레코드는 임의로 선택됩니다.The leading record in the cluster is selected randomly. 일치 프로젝트를 실행할 때 내보내기 페이지에서 Survivorship 규칙을 선택하여 존속 레코드를 결정합니다.You determine the surviving record by selecting the survivorship rule on the Export page when you run the matching project. 클러스터의 각 추가 행은 일치하는 것으로 간주되며, 선행 레코드와 비교된 해당 일치 점수가 결과 테이블에 제공됩니다.Each additional row in a cluster is considered a match; its matching score (compared to the leading record) is provided in the results table. 클러스터 번호는 클러스터의 선행 레코드에 대한 레코드 ID와 같습니다.The cluster number is that same as the record ID for the leading record in the cluster.

일치 결과에서 원하는 데이터를 필터링하고 원하지 않는 일치 항목을 거부할 수 있습니다.In the matching results, you can filter on the data that you want, and reject matches that you do not want. 전체 일치 프로세스에 대한 프로파일링 데이터, 적용되는 일치 규칙에 대한 구체적인 정보 및 전체 일치 결과에 대한 통계를 표시할 수 있습니다.You can display profiling data for the matching process as a whole, specifics about the matching rules that are applied, and statistics about the matching results as a whole. 일치 프로세스에서는 겹치는 클러스터와 겹치지 않는 클러스터를 확인할 수 있으며, 여러 번 실행할 경우 원본에서 새로 복사하여 인덱스를 다시 작성한 데이터 또는 이전 데이터에 대해 일치 프로세스를 실행할 수 있습니다.The matching process can identify overlapping or non-overlapping clusters, and if being run multiple times, can be executed on data newly copied from the source and re-indexed, or on previous data.

  1. 일치가 실행될 때 클러스터 그룹에 공통적인 레코드가 있는 경우에도 모든 클러스터에 대한 피벗 레코드와 다음 레코드를 표시하려면 일치페이지의 드롭다운 목록에서 겹치는 클러스터 를 선택합니다.On the Matching page, select Overlapping clusters from the drop-down list to display the pivot records and following records for all clusters when matching is executed, even if groups of clusters have records in common. 일치가 실행될 때 공통적인 레코드가 있는 클러스터를 단일 클러스터로 표시하려면 겹치지 않는 클러스터 를 선택합니다.Select Non overlapping clusters to display clusters that have records in common as a single cluster when matching is executed.

  2. 데이터 원본에서 준비 테이블로 데이터를 복사하여 일치 프로젝트를 실행할 때 인덱스를 다시 작성하려면 원본에서 데이터 다시 로드 (기본값)를 클릭합니다.Click Reload data from source (the default) to copy data from the data source into the staging table and re-index it when you run the matching project. 준비 테이블로 데이터를 복사하여 인덱스를 다시 작성하지 않고 일치 프로젝트를 실행하려면 이전 데이터에 대해 실행 을 클릭합니다.Click Execute on previous data to run a matching project without copying the data into the staging table and re-indexing the data. 일치 프로젝트를 처음 실행하거나 페이지에서 매핑을 변경한 후 팝업에서 를 클릭한 경우에는 이전 데이터에 대해 실행 이 비활성화됩니다.Execute on previous data is disabled for the first run of the matching project, or if you change mapping in the Map page, and then press Yes in the following popup. 두 경우 모두 인덱스를 다시 작성해야 합니다.In both of those cases, you must re-index. 일치 프로젝트가 변경되지 않은 경우에는 인덱스를 다시 작성할 필요가 없습니다.It is not necessary to re-index if the matching project has not changed. 이전 데이터에 대해 실행하면 성능이 향상됩니다.Executing on previous data can help performance.

  3. 시작 을 클릭하여 선택한 데이터 원본에 대해 일치를 실행합니다.Click Start to run matching on the selected data source.

  4. 일치 프로젝트를 중지하고 결과를 취소하려면 중지 를 클릭합니다.Click Stop if you want to stop the matching project and discard the results.

  5. 일치 프로세스가 완료되면 일치 결과 테이블의 클러스터가 적절한지 확인할 수 있으며, 프로파일러일치 결과 탭의 통계를 보고 원하는 결과를 얻었는지 확인할 수 있습니다.After the matching process has completed, verify that the clusters in the Matching Results table are appropriate, and view the statistics in the Profiler and Matching Results tabs to ensure that you are achieving the results that you need. 필터 에 대해 일치함 을 선택하여 일치하는 레코드를 보거나 일치하지 않음을 선택하여 일치하지 않는 레코드를 확인합니다.View the matched records by selecting Matched for Filter or view unmatched records by selecting Unmatched.

  6. 일치 정책에 여러 개의 일치 규칙이 있는 경우 일치 규칙 탭을 클릭하여 각 규칙에 대한 아이콘을 확인한 다음 일치 결과 테이블의 규칙 열에서 규칙을 파악하여 레코드를 일치하는 것으로 식별한 규칙을 확인합니다.If you have multiple matching rules in the matching policy, click the Matching Rules tab to identify the icon for each rule, and then verify which rule identified a record as a match by identifying the rule in the Rule column of the Matching Results table.

  7. 테이블에서 피벗이 아닌 레코드를 선택하고 자세히 보기 아이콘을 클릭하거나 레코드를 두 번 클릭하면 두 번 클릭한 레코드와 해당 피벗 레코드(모든 필드의 값 포함), 두 레코드 간의 점수 및 각 필드의 일치 점수 기여도에 대한 드릴다운이 표시된 일치 점수 정보 팝업이 나타납니다.If you select a non-pivot record in the table and click the View Details icon (or double-click the record), DQS will display a Matching Score Details popup that displays the record double-clicked and its pivot record (and the values in all their fields), the score between them, and a drill-down of the matching score contributions of each field. 피벗 레코드를 두 번 클릭한 경우에는 팝업이 표시되지 않습니다.Double-clicking a pivot record will not display the popup.

  8. 중복 레코드는 제외하고 피벗 레코드만 포함하도록 일치 결과 테이블에 표시된 레코드를 축소하려면 모두 축소 아이콘을 클릭합니다.Click the Collapse All icon to collapse the records displayed in the Matching Results table to include only pivot record, not the duplicate records. 모든 중복 레코드를 포함하도록 일치 결과 테이블에 표시된 레코드를 확장하려면 모두 확장 을 클릭합니다.Click Expand All to expand the records displayed in the Matching Results table to include all duplicate records.

  9. 일치 결과에서 레코드를 거부하려면 해당 레코드에 대해 거부됨 확인란을 클릭합니다.To reject a record from the matching results, click the Rejected checkbox for the record.

  10. 레코드가 표시되기 위해 필요한 일치 수준을 결정하는 최소 일치 점수를 변경하려면 테이블 오른쪽 위에 있는 최소 일치 점수 아이콘을 선택하고 더 높은 숫자를 입력합니다.To change the minimum matching score that determines the level of matching that a record must have to be displayed, select the Min. Matching Score icon above the right-hand side of the table, and enter a higher number. 최소 일치 점수는 기본적으로 80%로 설정됩니다.The minimum matching score is set to 80% by default. 새로 고침 을 클릭하여 테이블 내용을 변경합니다.Click Refresh to change the contents of the table.

  11. 분석이 완료되면 시작 단추가 다시 시작 단추로 바뀝니다.After the analysis has completed, the Start button turns into a Restart button. 분석 프로젝트를 다시 실행하려면 다시 시작 을 클릭합니다.Click Restart to run the analysis project again. 그러나 이전 분석의 결과가 아직 저장되지 않은 경우 다시 시작 을 클릭하면 이전 데이터가 손실됩니다.However, the results from the previous analysis have not been saved as yet, so clicking Restart will cause that previous data to be lost. 계속하려면 팝업에서 를 클릭합니다.To continue, click Yes in the popup. 분석이 실행 중일 때는 페이지에서 나가지 마세요. 그러면 분석 프로세스가 종료됩니다.As the analysis is running, do not leave the page or the analysis process will be terminated.

  12. 다음 을 클릭하여 Survivorship 및 내보내기 단계로 이동합니다.Click Next to proceed to the survivorship and export stage.

Survivorship 및 내보내기 단계Survivorship and Exporting Stage

Survivorship 프로세스에서는 각 클러스터에 대한 존속 레코드가 결정됩니다. 이 레코드는 클러스터에서 일치하는 다른 레코드를 대체합니다.In the survivorship process Data Quality Services determines a survivor record for each cluster, which will replace the other records that match it in the cluster. 그런 다음 일치 및/또는 Survivorship 결과를 SQL Server 데이터베이스의 테이블, .csv 파일 또는 Excel 파일로 내보냅니다.It then exports the matching and/or survivorship results to a table in the SQL Server database, a .csv file, or an Excel file.

Survivorship은 선택 사항입니다.Survivorship is optional. Survivorship을 실행하지 않고 결과를 내보낼 수 있습니다. 이 경우 DQS에서는 일치 분석에서 지정된 피벗 레코드를 사용합니다.You can export the results without running survivorship, in which case DQS would use the pivot record that was designated in the matching analysis. 클러스터에 있는 둘 이상 레코드가 Survivorship 규칙을 준수하는 경우에는 Survivorship 프로세스에서 충돌하는 레코드 중 레코드 ID가 가장 낮은 레코드를 존속 레코드로 선택합니다.If two or more records in a cluster comply with the survivorship rule, the survivorship process will select the lowest record ID among the conflicting records to be the survivor. 다른 Survivorship 규칙을 사용하여 존속 레코드를 다른 파일 또는 테이블로 내보낼 수 있습니다.You can export survivors to different files or tables using different survivorship rules.

  1. 내보내기 페이지의 대상 유형: SQL Server, CSV 파일또는 Excel 파일에서 일치 데이터를 내보낼 대상을 선택합니다.On the Export page, select the destination where you want to export the matching data to in Destination Type: SQL Server, CSV File, or Excel File.

    중요

    64비트 버전의 Excel을 사용 중인 경우 일치하는 데이터를 Excel 파일로 내보낼 수 없습니다. SQL Server 데이터베이스 또는 .csv 파일로만 내보낼 수 있습니다.If you are using 64-bit version of Excel, you cannot export the matching data to an Excel file; you can export only to a SQL Server database or to a .csv file.

  2. 대상 유형 에 대해 SQL Server를 선택한 경우 데이터베이스 이름에서 결과를 내보낼 데이터베이스를 선택합니다.If you selected SQL Server for Destination Type, select the database to export the results to in Database Name.

    중요

    대상 데이터베이스는 DQS 서버와 동일한 SQL Server 인스턴스에 있어야 합니다.The destination database must be present in the same SQL Server instance as the DQS server. 그렇지 않으면 드롭다운 목록에 나타나지 않습니다.Otherwise, it will not appear in the drop-down list.

  3. 일치 결과 에 대한 확인란을 선택하여 SQL Server 데이터베이스의 지정된 테이블이나 지정된 .csv 또는 Excel 파일로 일치 결과를 내보냅니다(위 설명 참조).Select the check box for Matching Results to export matching results (see above for an explanation) to the designated table in a SQL Server database or to the designated .csv or Excel file. Survivorship 결과 에 대한 확인란을 선택하여 SQL Server 데이터베이스의 지정된 테이블이나 지정된 .csv 또는 Excel 파일로 Survivorship 결과를 내보냅니다(위 설명 참조).Select the check box for Survivorship Results to export survivorship results (see above for an explanation) to the designated table in a SQL Server database or to the designated .csv or Excel file.

    일치 결과에 대한 내보내기 항목은 다음과 같습니다.The following will be exported for matching results:

    • 클러스터 및 각 클러스터의 일치하는 레코드 목록(규칙 이름 및 점수 포함).A list of clusters and the matched records in each cluster, including the rule name and the score. 피벗 레코드는 "피벗"으로 표시됩니다.The pivot record will be marked as “Pivot”. 클러스터가 내보내기 목록에 맨 먼저 나타납니다.The clusters will appear first in the export list.

    • 일치하지 않는 레코드(점수 및 규칙 이름 열에 "NULL"이 표시됨).A list of the unmatched records, with “NULL” in the Score and Rule Name columns. 이러한 레코드는 내보내기 목록에서 클러스터 뒤에 추가됩니다.These records will be appended to the export list after the clusters.

      Survivorship 결과에 대한 내보내기 항목은 다음과 같습니다.The following will be exported for survivorship results:

    • Survivorship 프로세스에서 Survivorship 규칙에 따라 결정한 존속 레코드 목록.A list of the survivor records as determined by the survivorship process according to the survivorship rule. 이러한 레코드는 내보내기 목록에 맨 먼저 나타납니다.These records appear first in the export list.

    • 일치하는 레코드의 클러스터에 포함되지 않은 일치하지 않는 레코드 목록.A list of the unmatched records that are not included in the clusters of matched records. 이러한 레코드는 존속 레코드 결과 뒤에 추가됩니다.These records are appended after the survivor results.

  4. 대상 유형 에 대해 SQL Server를 선택한 경우 테이블 이름에 결과를 내보낼 테이블 이름을 입력합니다.If you selected SQL Server for Destination Type, enter the name of the tables that you want to export the results to in Table Name. 일치 결과와 Survivorship 결과를 둘 다 내보내려면 대상 테이블의 이름이 데이터베이스에 고유하게 서로 달라야 합니다.If you export both matching results and survivorship results, the destination tables must have different names that are unique to the database.

  5. 대상 유형 에 대해 CSV 파일을 선택한 경우 CSV 파일 이름에 결과를 내보낼 CSV 파일의 파일 및 경로를 입력합니다.If you selected CSV File for Destination Type, enter the file and path for the CSV file that you want to export to in CSV File Name.

  6. 대상 유형 에 대해 Excel 파일을 선택한 경우 Excel 파일 이름에 결과를 내보낼 Excel 파일의 파일 및 경로를 입력합니다.If you selected Excel File for Destination Type, enter the file and path for the Excel file that you want to export to in Excel File Name. 64비트 버전의 Excel을 사용 중인 경우 Excel 파일로 내보낼 수 없습니다.You cannot export to an Excel file if you are using 64-bit version of Excel.

  7. 다음과 같이 Survivorship 규칙을 선택합니다.Select the survivorship rule as follows:

    • DQS에서 임의로 선택한 초기 피벗 레코드를 존속 레코드로 지정하려면 피벗 레코드 를 선택합니다.Select Pivot record (the default) to identify the surviving record as the initial pivot record chosen arbitrarily by DQS.

    • 채워진 필드가 가장 많고 각 필드에 가장 많은 용어가 있는 레코드를 존속 레코드로 지정하려면 가장 완전하고 가장 긴 레코드 를 선택합니다.Select Most complete and longest record to identify the surviving record as the one with the largest number of populated fields, and has the largest number of terms in each field. 페이지에서 도메인에 매핑되지 않은 필드를 포함하여 모든 원본 필드가 선택됩니다.All source fields are checked, even those fields that were not mapped to a domain on the Map page.

    • 채워진 필드가 가장 많은 레코드를 존속 레코드로 지정하려면 가장 완전한 레코드 를 선택합니다.Select Most complete record to identify the surviving record as the one with the largest number of populated fields. 채워진 필드는 하나 이상의 값(문자열, 숫자 또는 둘 다)을 포함합니다.A populated field contains at least one value (string, numeric, or both). 맵 페이지에서 도메인에 매핑되지 않은 필드를 포함하여 모든 원본 필드가 선택됩니다.All source fields are checked, even those fields that were not mapped to a domain on the Map page. 채워진 필드는 하나 이상의 값(문자열, 숫자 또는 둘 다)을 포함합니다.A populated field contains at least one value (string, numeric, or both).

    • 해당 원본 필드에 가장 많은 용어가 있는 레코드를 존속 레코드로 지정하려면 가장 긴 레코드 를 선택합니다.Select Longest record to identify the surviving record as the one with the largest number of terms in its source fields. 각 레코드의 길이는 페이지에서 도메인에 매핑되지 않은 필드를 포함하여 모든 원본 필드에 있는 용어의 길이로 결정됩니다.To determine the length of each record, DQS verifies the length of the terms in all source fields, even those fields that were not mapped to a domain on the Map page.

  8. 프로파일러 탭의 통계를 보고 원하는 결과를 얻었는지 확인합니다.View the statistics in the Profiler tab to ensure that you are achieving the results that you need.

  9. 내보내기 를 클릭하여 결과를 내보냅니다.Click Export to export the results. 진행률과 내보내기 결과를 차례로 보여 주는 일치하는 항목 내보내기 대화 상자가 표시됩니다.This displays a Matching Export dialog box that shows the progress and then the results of the export.

    • SQL Server 를 데이터 대상으로 선택한 경우 지정한 이름의 새 테이블이 선택한 데이터베이스에서 만들어집니다.If you selected SQL Server as the data destination, a new table with the specified name will be created in the selected database.

    • CSV 파일 을 데이터 대상으로 선택한 경우 Data Quality 서버Data Quality Server CSV 파일 이름 상자에서 이전에 지정한 파일 이름으로 컴퓨터의 위치에 .csv 파일이 만들어집니다.If you selected CSV File as the data destination, a .csv file will be created at the location on the Data Quality 서버Data Quality Server computer with the file name that you specified earlier in the Csv file name box.

    • Excel 파일 을 데이터 대상으로 선택한 경우 Data Quality 서버Data Quality Server Excel 파일 이름 상자에서 이전에 지정한 파일 이름으로 컴퓨터의 위치에 .xlsx 파일이 만들어집니다.If you selected Excel File as the data destination, an .xlsx file will be created at the location on the Data Quality 서버Data Quality Server computer with the file name that you specified earlier in the Excel file name box.

  10. 내보내기가 올바르게 완료되었는지 확인하고 닫기를 클릭합니다.Verify that the export completed successfully, and then click Close.

  11. 마침 을 클릭하여 일치 프로젝트를 완료합니다.Click Finish to complete the matching project.

    참고

    일치 프로젝트를 완료한 다음 다시 사용하면 해당 일치 프로젝트에서 당시에 게시된 기술 자료를 사용합니다.If you have finished a matching project and then use it again, it will use the knowledge base in place when it was published. 즉, 프로젝트를 완료한 이후에 기술 자료에 적용한 변경 내용은 사용되지 않습니다.It will not use any changes that you have made to the knowledge base since you finished the project. 이러한 변경 내용을 사용하거나 새 기술 자료를 사용하려면 새로운 일치 프로젝트를 만들어야 합니다.To use those changes, or to use a new knowledge base, you will have to create a new matching project. 반면, 일치 프로젝트를 만들고 완료하지 않은 경우 프로젝트에서 일치를 실행하면 일치 정책에 게시한 변경 내용이 사용됩니다.On the other hand, if you have created, but not finished, a matching project, any changes that you have published to the matching policy will be used if you run matching in the project.

후속 작업: 일치 프로젝트를 실행한 후Follow Up: After Running a Matching Project

일치 프로젝트를 실행한 후 기술 자료의 일치 정책을 변경하고 업데이트된 일치 정책에 따라 다른 일치 프로젝트를 만들어 실행할 수 있습니다.After you run a matching project, you can change the matching policy in the knowledge base, and create and run another matching project based upon the updated matching policy. 자세한 내용은 Create a Matching Policy을 참조하세요.For more information, see Create a Matching Policy.

프로파일러 및 결과 탭Profiler and Results Tabs

프로파일러 및 결과 탭에는 일치 프로세스에 대한 통계가 포함됩니다.The Profiler and Results tabs contain statistics for the matching process.

프로파일러 탭Profiler Tab

프로파일러 탭을 클릭하면 원본 데이터베이스에 대한 통계와 정책 규칙에 포함된 각 필드에 대한 통계가 표시됩니다.Click the Profiler tab to display statistics for the source database and for each field included in the policy rule. 정책 규칙이 실행되면 통계가 업데이트됩니다.The statistics will be updated as the policy rule is run. 프로파일링을 통해 중복 제거 프로세스의 효과를 평가하여 이 프로세스로 데이터의 품질을 개선할 수 있는 정도를 확인할 수 있습니다.Profiling will help you assess the effectiveness of the de-duplication process, helping determine the extent to which the process is able to improve the quality of the data. 프로파일링의 정확도는 일치 프로젝트에 중요하지 않습니다.Accuracy in profiling is not important for a matching project.

원본 데이터베이스 통계에는 다음이 포함됩니다.The source database statistics include the following:

  • 레코드: 데이터베이스에 있는 전체 레코드 수Records: The total number of records in the database

  • 전체 값: 필드에 있는 전체 값 수Total Values: The total number of values in the fields

  • 새 값: 이전 실행 이후에 새로 생성된 전체 값 수와 값의 총 개수에 대한 해당 백분율New Values: The total number of values that are new since the previous run, and their percentage of the whole

  • 고유 값: 필드의 전체 고유 값 수와 값의 총 개수에 대한 해당 백분율Unique Values: The total number of unique values in the fields, and their percentage of the whole

  • 새로운 고유 값: 필드에 새로 생성된 전체 고유 값 수와 값의 총 개수에 대한 해당 백분율New Unique Values: The total number of unique values that are new in the fields, and their percentage of the whole

    필드 통계에는 다음이 포함됩니다.The field statistics include the following:

  • 필드: 매핑에 포함된 필드 수Field: Name of the field that was included in the mappings.

  • 도메인: 필드에 매핑된 도메인의 이름Domain: Name of the domain that was mapped to the field.

  • 새 항목: 새로 발견된 일치 레코드 수와 해당 백분율New: The number of new matches found and their percentage of the total

  • 고유: 필드의 고유 레코드 수와 해당 백분율Unique: The number of unique records in the field and their percentaqe of the total

  • 완결성: 규칙 실행의 완료율Completeness: The percentage that the rule run is complete.

일치 정책 알림Matching Policy Notifications

일치 정책 작업의 경우 다음과 같은 상황에서 알림이 발생합니다.For the matching policy activity, the following conditions result in notifications:

  • 모든 레코드에 필드가 비어 있는 경우 - 해당 필드를 매핑에서 제거하는 것이 좋습니다.The field is empty in all records; it is recommended that you eliminate it from mapping.

  • 필드 완결성 점수가 매우 낮은 경우 - 해당 필드를 매핑에서 제거하는 것이 좋습니다.The field completeness score is very low; you may want to eliminate it from mapping.

  • 필드의 모든 값이 유효하지 않은 경우 - 필드 내용에 대한 도메인 규칙의 매핑과 관련성을 확인해야 합니다.All values in a field are invalid; you should verify the mapping and the relevancy of domain rules to the field contents.

  • 필드에 유효한 값이 적은 경우 - 필드 내용에 대한 도메인 규칙의 매핑과 관련성을 확인해야 합니다.There is a low level of valid values in the field; you should verify the mapping and the relevancy of domain rules to the field contents.

  • 이 필드의 고유성 수준이 높은 경우 -There is a high level of uniqueness in this field. 일치 정책에서 이 필드를 사용하면 일치 결과를 줄일 수 있습니다.Using this field in matching policy can decrease the matching results.

일치 규칙 탭Matching Rules Tab

이 탭을 클릭하면 일치 정책의 규칙 목록과 규칙의 조건이 표시됩니다.Click this tab to display a list of the rules in the matching policy and the conditions in a rule.

규칙 목록Rules List
일치 정책의 모든 일치 규칙 목록을 표시합니다.Displays a list of all matching rules in the matching policy. 규칙 중 하나를 클릭하면 일치 규칙 테이블에 규칙의 조건이 표시됩니다.Select one of the rules to display the conditions in the rule in the Matching Rule table.

일치 규칙 테이블Matching Rule Table
도메인, 유사성 값, 가중치 및 필수 구성 요소 선택 항목을 포함하여 선택한 규칙의 각 조건을 표시합니다.Displays each condition in the selected rule, including domain, similarity value, weight, and prerequisite selection.

일치 결과 탭Matching Results Tab

일치 결과 탭을 클릭하면 프로젝트에 대해 선택한 기술 자료 및 해당 기술 자료의 일치 규칙을 사용하여 데이터 원본을 분석할 수 있는 통계가 표시됩니다.Click the Matching Results tab to display statistics for the analysis of the data source using the knowledge selected for the project and the matching rule or rules in that knowledge base. 통계에는 다음이 포함됩니다.The statistics include the following:

  • 데이터베이스에 있는 전체 레코드 수The total number of records in the database

  • 데이터베이스에 있는 전체 일치 레코드 수The total number of matching records in the database

  • 중복된 것으로 간주되지 않는 데이터베이스의 레코드 수The number of records in the database that are not considered to be duplicates

  • 검색된 클러스터 수The number of clusters discovered

  • 평균 클러스터 크기(중복 레코드 수를 클러스터 수로 나눈 값)The average cluster size (number of duplicate records divided by number of clusters)

  • 클러스터의 최소 중복 레코드 수The fewest number of duplicates in a cluster

  • 클러스터의 최대 중복 레코드 수The greatest number of duplicates in a cluster