유사 항목 조회 변환Fuzzy Lookup Transformation

유사 항목 조회 변환은 데이터 표준화, 데이터 수정, 누락된 값 제공 등 데이터 정리 태스크를 수행합니다.The Fuzzy Lookup transformation performs data cleaning tasks such as standardizing data, correcting data, and providing missing values.

참고

성능 및 메모리 제한 사항을 포함하여 유사 항목 조회 변환에 대한 자세한 내용은 Fuzzy Lookup and Fuzzy Grouping in SQL Server Integration Services 2005(SQL Server Integration Services 2005에서 유사 항목 조회 및 유사 항목 그룹화) 백서를 참조하세요.For more detailed information about the Fuzzy Lookup transformation, including performance and memory limitations, see the white paper, Fuzzy Lookup and Fuzzy Grouping in SQL Server Integration Services 2005.

유사 항목 조회 변환 작업은 유사 항목 일치를 사용한다는 점에서 조회 변환과 다릅니다.The Fuzzy Lookup transformation differs from the Lookup transformation in its use of fuzzy matching. 조회 변환은 동등 조인을 사용하여 참조 테이블에서 일치하는 레코드를 찾으며The Lookup transformation uses an equi-join to locate matching records in the reference table. 일치하는 레코드가 하나 이상 있는 레코드와 일치하는 레코드가 없는 레코드를 반환합니다.It returns records with at least one matching record, and returns records with no matching records. 반대로 유사 항목 조회 변환은 유사 일치를 사용하여 참조 테이블에서 하나 이상의 근접하게 일치하는 항목을 반환합니다.In contrast, the Fuzzy Lookup transformation uses fuzzy matching to return one or more close matches in the reference table.

유사 항목 조회 변환은 패키지 데이터 흐름에서 종종 조회 변환 수행 후 이어지는 경우가 많습니다.A Fuzzy Lookup transformation frequently follows a Lookup transformation in a package data flow. 즉, 먼저 조회 변환이 정확히 일치하는 항목을 찾습니다.First, the Lookup transformation tries to find an exact match. 이 시도가 실패하면 유사 항목 조회 변환이 수행되어 참조 테이블에서 근접한 항목을 제공합니다.If it fails, the Fuzzy Lookup transformation provides close matches from the reference table.

변환 작업은 입력 데이터를 정리 및 확장하는 데 사용하는 값을 포함하는 참조 데이터 원본에 액세스해야 합니다.The transformation needs access to a reference data source that contains the values that are used to clean and extend the input data. 참조 데이터 원본은 SQL ServerSQL Server 데이터베이스에 있는 테이블이어야 합니다.The reference data source must be a table in a SQL ServerSQL Server database. 입력 열의 값과 참조 테이블에 있는 값 사이의 일치 항목은 정확히 일치하는 항목 또는 유사 항목일 수 있습니다.The match between the value in an input column and the value in the reference table can be an exact match or a fuzzy match. 유사 항목 조회의 경우 변환 작업에는 최소 한 개 이상의 일치하는 열이 있어야 합니다.However, the transformation requires at least one column match to be configured for fuzzy matching. 정확한 일치만 사용하려는 경우 대신 조회 변환을 사용하십시오.If you want to use only exact matching, use the Lookup transformation instead.

이 변환은 하나의 입력과 하나의 출력을 가지며This transformation has one input and one output.

DT_WSTRDT_STR 데이터 형식의 입력 열만 유사 일치에서 사용할 수 있습니다.Only input columns with the DT_WSTR and DT_STR data types can be used in fuzzy matching. 정확히 일치에는 DT_TEXT, DT_NTEXTDT_IMAGE를 제외한 모든 DTS 데이터 형식을 사용할 수 있습니다.Exact matching can use any DTS data type except DT_TEXT, DT_NTEXT, and DT_IMAGE. 자세한 내용은 Integration Services Data Types을 참조하세요.For more information, see Integration Services Data Types. 입력과 참조 테이블 사이에서 조인에 참여하는 열은 호환 가능한 데이터 형식이어야 합니다.Columns that participate in the join between the input and the reference table must have compatible data types. 예를 들어 DTS DT_WSTR 데이터 형식의 열을 SQL ServerSQL Server nvarchar 데이터 형식의 열에 조인하는 것은 유효하지만 DT_WSTR 데이터 형식의 열을 int 데이터 형식의 열에 조인하는 것은 유효하지 않습니다.For example, it is valid to join a column with the DTS DT_WSTR data type to a column with the SQL ServerSQL Server nvarchar data type, but invalid to join a column with the DT_WSTR data type to a column with the int data type.

최대 메모리 양, 행 비교 알고리즘, 변환에서 사용하는 인덱스 및 참조 테이블의 캐싱을 지정하여 이 변환을 사용자 지정할 수 있습니다.You can customize this transformation by specifying the maximum amount of memory, the row comparison algorithm, and the caching of indexes and reference tables that the transformation uses.

유사 항목 조회 변환에 사용하는 메모리 크기는 MaxMemoryUsage 사용자 지정 속성을 설정하여 구성할 수 있습니다.The amount of memory that the Fuzzy Lookup transformation uses can be configured by setting the MaxMemoryUsage custom property. 크기(MB)를 지정하거나 값 0을 사용할 수 있습니다. 이렇게 하면 변환에 요구 사항 및 사용 가능한 실제 메모리를 기준으로 하여 동적 메모리 크기를 사용할 수 있습니다.You can specify the number of megabytes (MB), or use the value 0, which lets the transformation use a dynamic amount of memory based on its needs and the physical memory available. MaxMemoryUsage 사용자 지정 속성은 패키지 로드 시 속성 식을 사용하여 업데이트할 수 있습니다.The MaxMemoryUsage custom property can be updated by a property expression when the package is loaded. 자세한 내용은 Integration Services(SSIS) 식, 패키지에서 속성 식 사용변환 사용자 지정 속성을 참조하세요.For more information, see Integration Services (SSIS) Expressions, Use Property Expressions in Packages, and Transformation Custom Properties.

유사 항목 일치 동작의 제어Controlling Fuzzy Matching Behavior

유사 항목 조회 변환이 수행하는 조회를 사용자 지정할 수 있는 기능으로는 각 입력 행당 반환할 수 있는 최대 일치 항목 개수, 토큰 구분 기호 및 유사성 임계값의 세 가지가 있습니다.The Fuzzy Lookup transformation includes three features for customizing the lookup it performs: maximum number of matches to return per input row, token delimiters, and similarity thresholds.

변환은 지정된 최대 일치 항목 개수까지 0개 이상의 일치 항목을 반환합니다.The transformation returns zero or more matches up to the number of matches specified. 최대 일치 항목 개수를 지정하면 변환이 항상 최대 일치 항목 개수만큼의 항목을 반환하는 것이 아니라 최대 그만큼의 일치 항목을 반환할 수 있음을 의미합니다.Specifying a maximum number of matches does not guarantee that the transformation returns the maximum number of matches; it only guarantees that the transformation returns at most that number of matches. 최대 일치 항목 개수를 1보다 큰 값으로 설정하면 변환의 출력에는 각 조회당 하나 이상의 행이 포함되며 일부 행은 중복될 수 있습니다.If you set the maximum number of matches to a value greater than 1, the output of the transformation may include more than one row per lookup and some of the rows may be duplicates.

변환은 데이터를 토큰화하는 데 사용하는 기본 구분 기호 집합을 제공하지만 필요하다면 데이터에 맞는 토큰 구분 기호를 추가할 수 있습니다.The transformation provides a default set of delimiters used to tokenize the data, but you can add token delimiters to suit the needs of your data. 기본 구문 기호는 Delimiters 속성에 포함됩니다.The Delimiters property contains the default delimiters. 토큰화는 데이터 내에서 서로 비교되는 단위를 정의하므로 중요합니다.Tokenization is important because it defines the units within the data that are compared to each other.

유사성 임계값은 구성 요소 및 조인 수준에서 설정할 수 있습니다.The similarity thresholds can be set at the component and join levels. 조인 수준의 유사성 임계값은 변환이 입력 열과 참조 테이블 사이에서 유사 항목 일치를 수행하는 경우에만 사용할 수 있습니다.The join-level similarity threshold is only available when the transformation performs a fuzzy match between columns in the input and the reference table. 유사성 범위는 0에서 1 사이입니다.The similarity range is 0 to 1. 임계값이 1에 가까울수록 서로 유사한 행과 열이 중복된 것으로 간주되기 쉽습니다.The closer to 1 the threshold is, the more similar the rows and columns must be to qualify as duplicates. 구성 요소 및 조인 수준에서 MinSimilarity 속성을 설정하여 유사성 임계값을 지정할 수 있습니다.You specify the similarity threshold by setting the MinSimilarity property at the component and join levels. 구성 요소 수준에서 지정한 유사성에 부합하려면 모든 행의 모든 일치에 대한 유사성이 구성 요소 수준에서 지정한 유사성 임계값보다 크거나 같아야 합니다.To satisfy the similarity that is specified at the component level, all rows must have a similarity across all matches that is greater than or equal to the similarity threshold that is specified at the component level. 즉, 행 또는 조인 수준의 일치가 특정 유사성에 도달하지 못할 경우 구성 요소 수준의 높은 유사성을 지정할 수 없습니다.That is, you cannot specify a very close match at the component level unless the matches at the row or join level are equally close.

각 일치 항목에는 유사성 점수와 신뢰성 점수가 포함됩니다.Each match includes a similarity score and a confidence score. 유사성 점수는 입력 레코드와 유사 항목 조회 변환이 참조 테이블에서 반환하는 레코드 사이의 문자적 유사성에 대한 수치적 측정 단위입니다.The similarity score is a mathematical measure of the textural similarity between the input record and the record that Fuzzy Lookup transformation returns from the reference table. 신뢰성 점수는 특정 값이 참조 테이블에 있는 일치 항목 중에서 가장 유사한 일치 항목이 될 수 있는 가능성을 측정하는 단위입니다.The confidence score is a measure of how likely it is that a particular value is the best match among the matches found in the reference table. 레코드에 할당되는 신뢰성 점수는 반환되는 다른 일치 레코드에 따라 달라집니다.The confidence score assigned to a record depends on the other matching records that are returned. 예를 들어 St.Saint 에 대한 조회는 다른 일치 항목에 관계없이 낮은 유사성 점수를 반환합니다.For example, matching St. and Saint returns a low similarity score regardless of other matches. Saint 가 반환되는 유일한 일치 항목인 경우 신뢰성 점수는 높아집니다.If Saint is the only match returned, the confidence score is high. 하지만 SaintSt. 가 모두 참조 테이블에 있는 경우 St. 에 대한 신뢰성은 높고 Saint 에 대한 신뢰성은 낮습니다.If both Saint and St. appear in the reference table, the confidence in St. is high and the confidence in Saint is low. 높은 유사성이 높은 신뢰성을 의미하지는 않습니다.However, high similarity may not mean high confidence. 예를 들어 Chapter 4값을 조회하는 경우 Chapter 1, Chapter 2Chapter 3 의 반환 결과는 높은 유사성 점수를 갖지만 어떤 결과가 가장 일치하는 항목인지 분명하지 않기 때문에 신뢰성 점수는 낮습니다.For example, if you are looking up the value Chapter 4, the returned results Chapter 1, Chapter 2, and Chapter 3 have a high similarity score but a low confidence score because it is unclear which of the results is the best match.

유사성 점수는 0과 1 사이의 소수 값으로 표시되며 여기서 유사성 점수 1은 입력 열의 값과 참조 테이블의 값이 정확히 일치함을 의미합니다.The similarity score is represented by a decimal value between 0 and 1, where a similarity score of 1 means an exact match between the value in the input column and the value in the reference table. 신뢰성 점수 역시 0과 1 사이의 소수 값으로 표시되며 일치 항목에 대한 신뢰성을 나타냅니다.The confidence score, also a decimal value between 0 and 1, indicates the confidence in the match. 사용 가능한 일치 항목이 없는 경우 0의 유사성 및 신뢰성 점수가 해당 행에 할당되고 참조 테이블에서 복사된 출력 열은 Null 값을 포함합니다.If no usable match is found, similarity and confidence scores of 0 are assigned to the row, and the output columns copied from the reference table will contain null values.

유사 항목 조회가 참조 테이블에서 적절한 일치 항목을 찾지 못하는 경우도 있습니다.Sometimes, Fuzzy Lookup may not locate appropriate matches in the reference table. 조회에 사용한 입력 값이 하나의 짧은 단어일 때 이러한 경우가 발생할 수 있습니다.This can occur if the input value that is used in a lookup is a single, short word. 예를 들어 행에 있는 해당 열 또는 다른 열에 다른 토큰이 열에 없는 경우 helo 는 참조 테이블에 있는 hello 값과 일치하지 않습니다.For example, helo is not matched with the value hello in a reference table when no other tokens are present in that column or any other column in the row.

변환의 출력 열에는 통과 열로 표시된 입력 열, 조회 테이블에서 선택된 열, 그리고 다음과 같은 추가 열이 포함됩니다.The transformation output columns include the input columns that are marked as pass-through columns, the selected columns in the lookup table, and the following additional columns:

  • _Similarity- 입력과 참조 열의 값 사이의 유사성을 나타내는 열입니다._Similarity, a column that describes the similarity between values in the input and reference columns.

  • _Confidence- 일치 항목의 신뢰성을 나타내는 열입니다._Confidence, a column that describes the quality of the match.

    변환은 SQL ServerSQL Server 데이터베이스에 대한 연결을 사용하여 유사 항목 조회 알고리즘에 필요한 임시 테이블을 만듭니다.The transformation uses the connection to the SQL ServerSQL Server database to create the temporary tables that the fuzzy matching algorithm uses.

유사 항목 조회 변환의 실행Running the Fuzzy Lookup Transformation

패키지가 변환을 처음 실행할 때 변환은 참조 테이블을 복사하고 정수 데이터 형식의 열을 새 테이블에 추가한 다음 키 열에서 인덱스를 작성합니다.When the package first runs the transformation, the transformation copies the reference table, adds a key with an integer data type to the new table, and builds an index on the key column. 그런 다음 변환은 참조 테이블의 복사본에서 일치 인덱스라고 하는 인덱스를 작성합니다.Next, the transformation builds an index, called a match index, on the copy of the reference table. 일치 인덱스는 입력 열의 값을 토큰화한 결과를 저장하며 변환은 조회 작업에 토큰을 사용합니다.The match index stores the results of tokenizing the values in the transformation input columns, and the transformation then uses the tokens in the lookup operation. 일치 인덱스는 SQL ServerSQL Server 데이터베이스에 있는 테이블입니다.The match index is a table in a SQL ServerSQL Server database.

패키지가 다시 실행될 때 변환은 기존 일치 인덱스를 사용하거나 새 인덱스를 만들 수 있습니다.When the package runs again, the transformation can either use an existing match index or create a new index. 참조 테이블이 정적인 경우 패키지는 반복되는 데이터 정리 세션을 위해 매번 인덱스를 다시 작성하는 비용이 많이 드는 과정을 피해갈 수 있습니다.If the reference table is static, the package can avoid the potentially expensive process of rebuilding the index for repeat sessions of data cleaning. 기존 인덱스를 사용하도록 선택한 경우 인덱스는 패키지가 처음 실행될 때 만들어집니다.If you choose to use an existing index, the index is created the first time that the package runs. 여러 유사 항목 조회 변환이 같은 참조 테이블을 사용하는 경우 모두 같은 인덱스를 사용할 수 있습니다.If multiple Fuzzy Lookup transformations use the same reference table, they can all use the same index. 인덱스를 다시 사용하려면 해당 조회 작업이 동일해야 하며 조회가 같은 열을 사용해야 합니다.To reuse the index, the lookup operations must be identical; the lookup must use the same columns. 인덱스의 이름 및 인덱스를 저장하는 SQL ServerSQL Server 데이터베이스에 대한 연결은 사용자 선택이 가능합니다.You can name the index and select the connection to the SQL ServerSQL Server database that saves the index.

변환이 일치 인덱스를 저장하는 경우 일치 인덱스를 자동으로 유지 관리할 수 있습니다.If the transformation saves the match index, the match index can be maintained automatically. 이는 참조 테이블에 있는 레코드가 업데이트될 때마다 일치 인덱스도 업데이트됨을 의미합니다.This means that every time a record in the reference table is updated, the match index is also updated. 패키지가 실행될 때 인덱스를 다시 작성할 필요가 없으므로 일치 인덱스를 유지 관리하면 처리 시간을 절약할 수 있습니다.Maintaining the match index can save processing time, because the index does not have to be rebuilt when the package runs. 변환의 일치 인덱스 관리 방법을 지정할 수 있습니다.You can specify how the transformation manages the match index.

다음 표에서는 일치 인덱스 옵션에 대해 설명합니다.The following table describes the match index options.

옵션Option DescriptionDescription
GenerateAndMaintainNewIndexGenerateAndMaintainNewIndex 새 인덱스를 만들어 저장하고 유지 관리합니다.Create a new index, save it, and maintain it. 변환은 참조 테이블에 트리거를 설치하여 참조 테이블 및 인덱스 테이블이 계속 동기화되도록 유지합니다.The transformation installs triggers on the reference table to keep the reference table and index table synchronized.
GenerateAndPersistNewIndexGenerateAndPersistNewIndex 새 인덱스를 만들고 저장하지만 유지 관리하지 않습니다.Create a new index and save it, but do not maintain it.
GenerateNewIndexGenerateNewIndex 새 인덱스를 만들지만 저장하지 않습니다.Create a new index, but do not save it.
ReuseExistingIndexReuseExistingIndex 기존 인덱스를 다시 사용합니다.Reuse an existing index.

일치 인덱스 테이블의 유지 관리Maintenance of the Match Index Table

GenerateAndMaintainNewIndex 옵션은 참조 테이블에 트리거를 설치하여 일치 인덱스 테이블과 참조 테이블이 계속 동기화되도록 유지합니다.The GenerateAndMaintainNewIndex option installs triggers on the reference table to keep the match index table and the reference table synchronized. 설치된 트리거를 제거해야 하는 경우 MatchIndexName 속성에서 지정한 이름을 입력 매개 변수 값으로 하여 sp_FuzzyLookupTableMaintenanceUnInstall 저장 프로시저를 실행합니다.If you have to remove the installed trigger, you must run the sp_FuzzyLookupTableMaintenanceUnInstall stored procedure, and provide the name specified in the MatchIndexName property as the input parameter value.

sp_FuzzyLookupTableMaintenanceUnInstall 저장 프로시저를 실행하기 전에 유지 관리된 일치 인덱스 테이블을 삭제해서는 안 됩니다.You should not delete the maintained match index table before running the sp_FuzzyLookupTableMaintenanceUnInstall stored procedure. 일치 인덱스 테이블이 삭제되면 참조 테이블의 트리거는 제대로 실행되지 않습니다.If the match index table is deleted, the triggers on the reference table will not execute correctly. 참조 테이블에 대한 모든 후속 업데이트는 참조 테이블의 트리거를 수동으로 제거할 때까지 계속 실패합니다.All subsequent updates to the reference table will fail until you manually drop the triggers on the reference table.

SQL TRUNCATE TABLE 명령은 DELETE 트리거를 호출하지 않습니다.The SQL TRUNCATE TABLE command does not invoke DELETE triggers. 참조 테이블에서 TRUNCATE TABLE 명령을 사용하면 참조 테이블과 일치 인덱스는 더 이상 동기화되지 않으며 유사 항목 조회 변환이 실패합니다.If the TRUNCATE TABLE command is used on the reference table, the reference table and the match index will no longer be synchronized and the Fuzzy Lookup transformation fails. 일치 인덱스를 유지 관리하는 트리거가 참조 테이블에 설치되어 있으므로 TRUNCATE TABLE 명령 대신 SQL DELETE 명령을 사용해야 합니다.While the triggers that maintain the match index table are installed on the reference table, you should use the SQL DELETE command instead of the TRUNCATE TABLE command.

참고

유사 항목 조회 변환 편집기참조 테이블 에서 저장된 인덱스 유지 관리를 선택하면 변환은 관리 저장 프로시저를 사용하여 인덱스를 유지 관리합니다.When you select Maintain stored index on the Reference Table tab of the Fuzzy Lookup Transformation Editor, the transformation uses managed stored procedures to maintain the index. 이러한 관리 저장 프로시저는 SQL ServerSQL Server의 CLR(공용 언어 런타임) 통합 기능을 사용합니다.These managed stored procedures use the common language runtime (CLR) integration feature in SQL ServerSQL Server. 기본적으로 SQL ServerSQL Server 의 CLR 통합은 사용되지 않습니다.By default, CLR integration in SQL ServerSQL Server is not enabled. 저장된 인덱스 유지 관리 기능을 사용하려면 CLR 통합을 사용하도록 설정해야 합니다.To use the Maintain stored index functionality, you must enable CLR integration. 자세한 내용은 Enabling CLR Integration을 참조하세요.For more information, see Enabling CLR Integration.

저장된 인덱스 유지 관리 옵션에는 CLR 통합이 필요하므로 CLR 통합이 사용되는 SQL ServerSQL Server 의 인스턴스에 있는 참조 테이블을 선택하는 경우에만 이 기능이 작동합니다.Because the Maintain stored index option requires CLR integration, this feature works only when you select a reference table on an instance of SQL ServerSQL Server where CLR integration is enabled.

행 비교Row Comparison

유사 항목 조회 변환을 구성하는 경우 변환에서 참조 테이블에서 일치하는 레코드를 찾는 데 사용할 비교 알고리즘을 지정할 수 있습니다.When you configure the Fuzzy Lookup transformation, you can specify the comparison algorithm that the transformation uses to locate matching records in the reference table. Exhaustive 속성을 True로 설정하면 변환에서는 입력의 각 행을 참조 테이블의 모든 행과 비교합니다.If you set the Exhaustive property to True, the transformation compares every row in the input to every row in the reference table. 이 비교 알고리즘은 보다 정확한 결과를 생성할 수 있지만 참조 테이블의 행 개수가 많으면 변환이 느리게 수행될 수 있습니다.This comparison algorithm may produce more accurate results, but it is likely to make the transformation perform more slowly unless the number of rows is the reference table is small. Exhaustive 속성을 True로 설정하면 전체 참조 테이블이 메모리에 로드됩니다.If the Exhaustive property is set to True, the entire reference table is loaded into memory. 성능 문제를 방지하려면 패키지 개발 시에만 Exhaustive 속성을 True 로 설정하는 것이 좋습니다.To avoid performance issues, it is advisable to set the Exhaustive property to True during package development only.

Exhaustive 속성을 False로 설정하면 유사 항목 조회 변환은 입력 레코드와 공통된 인덱싱된 토큰이나 부분 문자열(부분 문자열은 q-gram이라고 함)이 하나 이상 있는 일치 항목만 반환합니다.If the Exhaustive property is set to False, the Fuzzy Lookup transformation returns only matches that have at least one indexed token or substring (the substring is called a q-gram) in common with the input record. 조회 효율성을 최대화하기 위해 테이블의 각 행에 있는 토큰의 하위 집합만 유사 항목 조회 변환에서 일치 항목을 찾는 데 사용하는 반전된 인덱스 구조에 인덱싱됩니다.To maximize the efficiency of lookups, only a subset of the tokens in each row in the table is indexed in the inverted index structure that the Fuzzy Lookup transformation uses to locate matches. 입력 데이터 집합이 작으면 Exhaustive를 True 로 설정하여 인덱스 테이블에 공통된 토큰이 없는 일치 항목이 누락되지 않도록 합니다.When the input dataset is small, you can set Exhaustive to True to avoid missing matches for which no common tokens exist in the index table.

인덱스 및 참조 테이블의 캐싱Caching of Indexes and Reference Tables

유사 항목 조회 변환을 구성할 때 변환이 자체 작업을 수행하기 전에 메모리에서 인덱스와 참조 테이블을 부분적으로 캐시할지 여부를 지정할 수 있습니다.When you configure the Fuzzy Lookup transformation, you can specify whether the transformation partially caches the index and reference table in memory before the transformation does its work. WarmCaches 속성을 True로 설정하면 인덱스와 참조 테이블이 메모리에 로드됩니다.If you set the WarmCaches property to True, the index and reference table are loaded into memory. 입력에 여러 행이 있는 경우 WarmCaches 속성을 True 로 설정하면 변환의 성능을 향상시킬 수 있습니다.When the input has many rows, setting the WarmCaches property to True can improve the performance of the transformation. 입력 행 개수가 적은 경우 WarmCaches 속성을 False 로 설정하면 큰 인덱스를 더 빨리 다시 사용할 수 있습니다.When the number of input rows is small, setting the WarmCaches property to False can make the reuse of a large index faster.

임시 테이블 및 인덱스Temporary Tables and Indexes

유사 항목 조회 변환은 런타임에 변환이 연결하는 SQL ServerSQL Server 데이터베이스에서 테이블 및 인덱스 등의 임시 개체를 만듭니다.At run time, the Fuzzy Lookup transformation creates temporary objects, such as tables and indexes, in the SQL ServerSQL Server database that the transformation connects to. 이러한 임시 테이블 및 인덱스의 크기는 참조 테이블에 있는 행 및 토큰 개수와 유사 항목 조회 변환이 만드는 토큰 개수에 비례하므로 많은 양의 디스크 공간을 소모할 수 있습니다.The size of these temporary tables and indexes is proportionate to the number of rows and tokens in the reference table and the number of tokens that the Fuzzy Lookup transformation creates; therefore, they could potentially consume a significant amount of disk space. 변환은 또한 이 임시 테이블을 쿼리합니다.The transformation also queries these temporary tables. 그러므로 특히 프로덕션 서버가 사용 가능한 디스크 공간을 제한한 경우 유사 항목 조회 변환을 SQL ServerSQL Server 데이터베이스의 비-프로덕션 인스턴스에 연결하는 방법을 고려해야 합니다.You should therefore consider connecting the Fuzzy Lookup transformation to a non-production instance of a SQL ServerSQL Server database, especially if the production server has limited disk space available.

변환에서 사용하는 테이블 및 인덱스가 로컬 컴퓨터에 있는 경우 변환의 성능이 향상될 수 있습니다.The performance of this transformation may improve if the tables and indexes it uses are located on the local computer. 유사 항목 조회 변환에서 사용하는 참조 테이블이 프로덕션 서버에 있는 경우 테이블을 비-프로덕션 서버에 복사하고 복사본을 액세스하도록 유사 항목 조회 변환을 구성하는 방법을 고려해야 합니다.If the reference table that the Fuzzy Lookup transformation uses is on the production server, you should consider copying the table to a non-production server and configuring the Fuzzy Lookup transformation to access the copy. 이렇게 하면 조회 쿼리가 프로덕션 서버의 리소스를 소모하지 않도록 방지할 수 있습니다.By doing this, you can prevent the lookup queries from consuming resources on the production server. 이외에 유사 항목 조회 변환이 일치 인덱스를 유지 관리하는 경우, 즉 MatchIndexOptions가 GenerateAndMaintainNewIndex로 설정된 경우에 변환은 데이터 정리 작업을 수행하는 동안 참조 테이블을 잠그고 다른 사용자와 응용 프로그램이 이 테이블에 액세스하지 못하게 할 수 있습니다.In addition, if the Fuzzy Lookup transformation maintains the match index—that is, if MatchIndexOptionsis set to GenerateAndMaintainNewIndex—the transformation may lock the reference table for the duration of the data cleaning operation and prevent other users and applications from accessing the table.

유사 항목 조회 변환의 구성Configuring the Fuzzy Lookup Transformation

SSISSSIS 디자이너를 사용하거나 프로그래밍 방식으로 속성을 설정할 수 있습니다.You can set properties through SSISSSIS Designer or programmatically.

유사 항목 조회 변환 편집기 대화 상자에서 설정할 수 있는 속성에 대한 자세한 내용은 다음 항목을 참조하십시오.For more information about the properties that you can set in the Fuzzy Lookup Transformation Editor dialog box, click one of the following topics:

데이터 흐름 구성 요소의 속성을 설정하는 방법에 대한 자세한 내용은 데이터 흐름 구성 요소의 속성 설정을 참조하세요.For details about how to set properties of a data flow component, see Set the Properties of a Data Flow Component.

관련 항목:See Also

조회 변환 Lookup Transformation
유사 항목 그룹화 변환 Fuzzy Grouping Transformation
Integration Services 변환Integration Services Transformations