유사 항목 그룹화 변환을 사용하여 유사한 데이터 행 식별Identify Similar Data Rows by Using the Fuzzy Grouping Transformation

유사 항목 그룹화 변환을 추가 및 구성하려면 패키지에 적어도 하나 이상의 데이터 흐름 태스크 하나의 원본이 이미 들어 있어야 합니다.To add and configure a Fuzzy Grouping transformation, the package must already include at least one Data Flow task and a source.

데이터 흐름에서 유사 항목 그룹화 변환을 구현하려면To implement Fuzzy Grouping transformation in a data flow

  1. SQL Server Data Tools(SSDT)SQL Server Data Tools (SSDT)에서 원하는 패키지가 들어 있는 Integration ServicesIntegration Services 프로젝트를 엽니다.In SQL Server Data Tools(SSDT)SQL Server Data Tools (SSDT), open the Integration ServicesIntegration Services project that contains the package you want.

  2. 솔루션 탐색기에서 패키지를 두 번 클릭하여 엽니다.In Solution Explorer, double-click the package to open it.

  3. 데이터 흐름 탭을 클릭한 다음 도구 상자에서 유사 항목 그룹화 변환을 디자인 화면으로 끌어 옵니다.Click the Data Flow tab, and then, from the Toolbox, drag the Fuzzy Grouping transformation to the design surface.

  4. 데이터 원본이나 이전 변환에서 연결선을 유사 항목 그룹화 변환으로 끌어서 유사 항목 그룹화 변환을 데이터 흐름에 연결합니다.Connect the Fuzzy Grouping transformation to the data flow by dragging the connector from the data source or a previous transformation to the Fuzzy Grouping transformation.

  5. 유사 항목 그룹화 변환을 두 번 클릭합니다.Double-click the Fuzzy Grouping transformation.

  6. 유사 항목 그룹화 변환 편집기 대화 상자의 연결 관리자 탭에서 SQL ServerSQL Server 데이터베이스로 연결되는 OLE DB 연결 관리자를 선택합니다.In the Fuzzy Grouping Transformation Editor dialog box, on the Connection Manager tab, select an OLE DB connection manager that connects to a SQL ServerSQL Server database.

    참고

    변환에는 임시 테이블 및 인덱스를 만들기 위해 SQL ServerSQL Server 데이터베이스에 대한 연결이 필요합니다.The transformation requires a connection to a SQL ServerSQL Server database to create temporary tables and indexes.

  7. 탭을 클릭하고 사용 가능한 입력 열 목록에서 데이터 집합에서 유사 행을 식별하는 데 사용할 입력 열의 확인란을 선택합니다.Click the Columns tab and, in the Available Input Columns list, select the check box of the input columns to use to identify similar rows in the dataset.

  8. 통과 열의 확인란을 선택하여 변환 출력으로 통과할 입력 열을 식별합니다.Select the check box in the Pass Through column to identify the input columns to pass through to the transformation output. 통과 열은 중복 행의 식별 과정에 포함되지 않습니다.Pass-through columns are not included in the process of identification of duplicate rows.

    참고

    그룹화에 사용되는 입력 열은 통과 열로 자동으로 선택되지 않으며 그룹화에 사용되는 경우 선택을 해제할 수 없습니다.Input columns that are used for grouping are automatically selected as pass-through columns, and they cannot be unselected while used for grouping.

  9. 필요에 따라 출력 별칭 열에서 출력 열의 이름을 업데이트합니다.Optionally, update the names of output columns in the Output Alias column.

  10. 필요에 따라 그룹 출력 별칭 열에서 정리된 열의 이름을 업데이트합니다.Optionally, update the names of cleaned columns in the Group OutputAlias column.

    참고

    열의 기본 이름은 "_clean" 접미사가 붙은 입력 열의 이름입니다.The default names of columns are the names of the input columns with a "_clean" suffix.

  11. 필요에 따라 일치 유형 열에서 사용할 일치 유형을 업데이트합니다.Optionally, update the type of match to use in the Match Type column.

    참고

    적어도 하나 이상의 열에서 유사 항목 일치가 사용되어야 합니다.At least one column must use fuzzy matching.

  12. 최소 유사성 열에서 최소 유사성 수준 열을 지정합니다.Specify the minimum similarity level columns in the Minimum Similarity column. 값은 0에서 1 사이여야 합니다.The value must be between 0 and 1. 값이 1에 가까울수록 입력 열의 유사 값이 그룹으로 묶입니다.The closer the value is to 1, the more similar the values in the input columns must be to form a group. 최소 유사성이 1이면 정확히 일치하는 항목을 나타냅니다.A minimum similarity of 1 indicates an exact match.

  13. 필요에 따라 유사성 출력 별칭 열에서 유사성 열의 이름을 업데이트합니다.Optionally, update the names of similarity columns in the Similarity Output Alias column.

  14. 데이터 값에 숫자 처리를 지정하려면 숫자 열의 값을 업데이트합니다.To specify the handling of numbers in data values, update the values in the Numerals column.

  15. 변환에서 열의 문자열 데이터를 비교하는 방법을 지정하려면 비교 플래그 열에서 기본으로 선택된 비교 옵션을 수정합니다.To specify how the transformation compares the string data in a column, modify the default selection of comparison options in the Comparison Flags column.

  16. 고급 탭을 클릭하여 변환이 고유 행 식별자(_key_in), 중복 행 식별자(_key_out) 및 유사성 값(_score)에 대한 출력에 추가하는 열 이름을 수정합니다.Click the Advanced tab to modify the names of the columns that the transformation adds to the output for the unique row identifier (_key_in), the duplicate row identifier (_key_out), and the similarity value (_score).

  17. 필요에 따라 슬라이더 막대를 움직여서 유사성 임계값을 조정합니다.Optionally, adjust the similarity threshold by moving the slider bar.

  18. 선택적으로 데이터의 구분 기호를 무시하려면 토큰 구분 기호 확인란의 선택을 취소합니다.Optionally, clear the token delimiter check boxes to ignore delimiters in the data.

  19. 확인을 클릭합니다.Click OK.

  20. 업데이트된 패키지를 저장하려면 파일 메뉴에서 선택한 항목 저장 을 클릭합니다.To save the updated package, click Save Selected Items on the File menu.

관련 항목:See Also

유사 항목 그룹화 변환 Fuzzy Grouping Transformation
Integration Services 변환 Integration Services Transformations
Integration Services 경로 Integration Services Paths
데이터 흐름 태스크Data Flow Task