용어 조회 변환Term Lookup Transformation

용어 조회 변환은 변환 입력 열의 텍스트에서 추출된 용어와 참조 테이블에 있는 용어가 일치하는지 확인합니다.The Term Lookup transformation matches terms extracted from text in a transformation input column with terms in a reference table. 그런 다음 조회 테이블의 용어가 입력 데이터 집합에서 발생한 횟수를 계산하고 해당 개수를 참조 테이블의 용어와 함께 변환 출력의 열에 기록합니다.It then counts the number of times a term in the lookup table occurs in the input data set, and writes the count together with the term from the reference table to columns in the transformation output. 이러한 변환은 입력 텍스트를 기준으로 단어 빈도 통계가 모두 포함된 사용자 지정 단어 목록을 만들 때 유용합니다.This transformation is useful for creating a custom word list based on the input text, complete with word frequency statistics.

용어 조회 변환은 조회를 수행하기 전에 용어 추출 변환과 동일한 다음과 같은 방식을 사용하여 입력 열의 텍스트에서 단어를 추출합니다.Before the Term Lookup transformation performs a lookup, it extracts words from the text in an input column using the same method as the Term Extraction transformation:

  • 텍스트를 여러 문장으로 구분합니다.Text is broken into sentences.

  • 문장을 여러 단어로 구분합니다.Sentences are broken into words.

  • 단어를 기본 형태로 변환합니다.Words are normalized.

    용어 조회 변환에서 대/소문자를 구분하여 일치하는 용어를 검색할 수 있도록 구성하여 용어 검색 방법의 사용자 지정 수위를 높일 수 있습니다.To further customize which terms to match, the Term Lookup transformation can be configured to perform a case-sensitive match.

일치Matches

용어 조회에서는 조회를 수행하고 다음 규칙에 따라 값을 반환합니다.The Term Lookup performs a lookup and returns a value using the following rules:

  • 대/소문자 구분 검색을 수행하도록 변환이 구성된 경우 대/소문자가 다른 일치 항목은 무시됩니다.If the transformation is configured to perform case-sensitive matches, matches that fail a case-sensitive comparison are discarded. 예를 들어 studentSTUDENT 는 별개의 단어로 취급됩니다.For example, student and STUDENT are treated as separate words.

    참고

    소문자로 표기된 단어는 문장 처음에 대문자로 표시된 단어와 일치합니다.A non-capitalized word can be matched with a word that is capitalized at the beginning of a sentence. 예를 들어 Student 가 문장의 첫 단어인 경우 studentStudent 는 일치하는 단어로 검색됩니다.For example, the match between student and Student succeeds when Student is the first word in a sentence.

  • 명사 또는 명사구의 복수 형태가 참조 테이블에 있는 경우 조회에서는 명사 또는 명사구의 복수 형태만 검색합니다.If a plural form of the noun or noun phrase exists in the reference table, the lookup matches only the plural form of the noun or noun phrase. 예를 들어 모든 studentsstudent와 별개로 카운트됩니다.For example, all instances of students would be counted separately from the instances of student.

  • 참조 테이블에 단어의 단수 형태만 있는 경우 단어 또는 구의 단수 및 복수 형태는 모두 단수 형태로 검색됩니다.If only the singular form of the word is found in the reference table, both the singular and the plural forms of the word or phrase are matched to the singular form. 예를 들어 조회 테이블에 student가 있는 경우 변환에서는 studentstudents가 검색되며, 두 단어 모두 조회 용어 student에 일치하는 단어로 카운트됩니다.For example, if the lookup table contains student, and the transformation finds the words student and students, both words would be counted as a match for the lookup term student.

  • 입력 열의 텍스트가 분류된 명사구인 경우 명사구의 마지막 단어만 기본 형태로 변환됩니다.If the text in the input column is a lemmatized noun phrase, only the last word in the noun phrase is affected by normalization. 예를 들어 doctors appointments 의 분류된 형태는 doctors appointment입니다.For example, the lemmatized version of doctors appointments is doctors appointment.

    하위 용어가 둘 이상의 참조 레코드에 있는 경우처럼 참조 집합에서 겹치는 용어가 조회 항목에 포함되어 있을 때는 용어 조회 변환에서 하나의 조회 결과만 반환됩니다.When a lookup item contains terms that overlap in the reference set—that is, a sub-term is found in more than one reference record—the Term Lookup transformation returns only one lookup result. 다음 예에서는 겹치는 하위 용어가 조회 항목에 포함되어 있는 때의 결과를 보여 줍니다.The following example shows the result when a lookup item contains an overlapping sub-term. 이 경우 겹치는 하위 용어는 Windows이며 두 개의 참조 용어에 들어 있습니다.The overlapping sub-term in this case is Windows, which is found within two reference terms. 그러나 변환에서는 두 개의 결과를 반환하지 않고 Windows라는 하나의 참조 용어만 반환합니다.However, the transformation does not return two results, but returns only a single reference term, Windows. 두 번째 참조 용어인 Windows 7 Professional은 반환되지 않습니다.The second reference term, Windows 7 Professional, is not returned.

항목Item ValueValue
입력 용어Input term Windows 7 ProfessionalWindows 7 Professional
참조 용어Reference terms Windows, Windows 7 ProfessionalWindows, Windows 7 Professional
출력Output WindowsWindows

용어 조회 변환에서는 특수 문자가 포함된 명사 및 명사구를 검색할 수 있으며 참조 테이블의 데이터에는 이러한 문자가 포함될 수 있습니다.The Term Lookup transformation can match nouns and noun phrases that contain special characters, and the data in the reference table may include these characters. 특수 문자는 다음과 같습니다: %, @, &, $, #, *,:,., , ,!,?, <, >, +, =, ^, ~, |, \, /, (,), [,], {,}, ", 및 '.The special characters are as follows: %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “, and ‘.

데이터 형식Data Types

용어 조회 변환에서는 데이터 형식이 DT_WSTR 또는 DT_NTEXT인 열만 사용할 수 있습니다.The Term Lookup transformation can only use a column that has either the DT_WSTR or the DT_NTEXT data type. 열에 텍스트가 있지만 데이터 형식이 다른 경우 데이터 변환으로 데이터 흐름에 DT_WSTR 또는 DT_NTEXT 데이터 형식의 열을 추가하고 열 값을 새 열로 복사할 수 있습니다.If a column contains text, but does not have one of these data types, the Data Conversion transformation can add a column with the DT_WSTR or DT_NTEXT data type to the data flow and copy the column values to the new column. 그런 다음 데이터 변환의 출력을 용어 조회 변환에 대한 입력으로 사용할 수 있습니다.The output from the Data Conversion transformation can then be used as the input to the Term Lookup transformation. 자세한 내용은 Data Conversion Transformation을 참조하세요.For more information, see Data Conversion Transformation.

용어 조회 변환 구성Configuration the Term Lookup Transformation

용어 조회 변환 입력 열에는 열의 용도를 나타내는 InputColumnType 속성이 포함됩니다.The Term Lookup transformation input columns includes the InputColumnType property, which indicates the use of the column. InputColumnType에는 다음 값이 포함될 수 있습니다.InputColumnType can contain the following values:

  • 값 0은 열이 출력에만 전달되며 조회에서 사용되지 않음을 나타냅니다.The value 0 indicates the column is passed through to the output only and is not used in the lookup.

  • 값 1은 열이 조회에서만 사용됨을 나타냅니다.The value 1 indicates the column is used in the lookup only.

  • 값 2는 열이 출력에 전달되고 조회에서도 사용됨을 나타냅니다.The value 2 indicates the column is passed through to the output, and is also used in the lookup.

    InputColumnType 속성이 0이나 2로 설정된 변환 출력 열에는 업스트림 데이터 흐름 구성 요소에 의해 열에 할당된 계보 식별자를 포함하는 열에 대한 CustomLineageID 속성이 포함됩니다.Transformation output columns whose InputColumnType property is set to 0 or 2 include the CustomLineageID property for a column, which contains the lineage identifier assigned to the column by an upstream data flow component.

    용어 조회 변환은 변환 출력에 기본적으로 TermFrequency라는 두 개의 열을 추가합니다.The Term Lookup transformation adds two columns to the transformation output, named by default Term and Frequency. Term 은 조회 테이블의 용어를 포함하고 Frequency 는 참조 테이블의 용어가 입력 데이터 집합에서 발생한 횟수를 포함합니다.Term contains a term from the lookup table and Frequency contains the number of times the term in the reference table occurs in the input data set. 이러한 열에는 CustomLineageID 속성이 포함되지 않습니다.These columns do not include the CustomLineageID property.

    조회 테이블은 SQL ServerSQL Server 또는 Access 데이터베이스의 테이블이어야 합니다.The lookup table must be a table in a SQL ServerSQL Server or an Access database. 용어 추출 변환의 출력이 테이블에 저장되는 경우 이 테이블을 참조 테이블로 사용할 수 있지만 다른 테이블도 사용할 수 있습니다.If the output of the Term Extraction transformation is saved to a table, this table can be used as the reference table, but other tables can also be used. 플랫 파일, Excel 통합 문서 또는 다른 원본에 있는 텍스트는 용어 조회 변환을 사용하기 전에 SQL ServerSQL Server 데이터베이스나 Access 데이터베이스로 가져와야 합니다.Text in flat files, Excel workbooks or other sources must be imported to a SQL ServerSQL Server database or an Access database before you can use the Term Lookup transformation.

    용어 조회 변환은 별개의 OLE DB 연결을 사용하여 참조 테이블에 연결합니다.The Term Lookup transformation uses a separate OLE DB connection to connect to the reference table. 자세한 내용은 OLE DB Connection Manager을(를) 참조하세요.For more information, see OLE DB Connection Manager.

    용어 조회 변환은 완전히 사전 캐시된 모드에서 작동합니다.The Term Lookup transformation works in a fully precached mode. 용어 조회 변환은 런타임에 참조 테이블로부터 용어를 읽고 변환 입력 행을 처리하기 전에 이를 전용 메모리에 저장합니다.At run time, the Term Lookup transformation reads the terms from the reference table and stores them in its private memory before it processes any transformation input rows.

    입력 열 행의 용어는 반복될 수 있기 때문에 용어 조회 변환의 출력에는 일반적으로 변환 입력보다 많은 수의 행이 포함됩니다.Because the terms in an input column row may repeat, the output of the Term Lookup transformation typically has more rows than the transformation input.

    이 변환에는 하나의 입력과 하나의 출력이 있습니다.The transformation has one input and one output. 오류 출력은 지원하지 않습니다.It does not support error outputs.

    SSISSSIS 디자이너를 사용하거나 프로그래밍 방식으로 속성을 설정할 수 있습니다.You can set properties through SSISSSIS Designer or programmatically.

    용어 조회 변환 편집기 대화 상자에서 설정할 수 있는 속성에 대한 자세한 내용을 보려면 다음 항목 중 하나를 클릭하십시오.For more information about the properties that you can set in the Term Lookup Transformation Editor dialog box, click one of the following topics:

  • 용어 조회 변환 편집기(참조 테이블 탭)Term Lookup Transformation Editor (Reference Table Tab)

  • 용어 조회 변환 편집기(용어 조회 탭)Term Lookup Transformation Editor (Term Lookup Tab)

  • 용어 조회 변환 편집기(고급 탭)Term Lookup Transformation Editor (Advanced Tab)

    고급 편집기 대화 상자를 사용하거나 프로그래밍 방식으로 설정할 수 있는 속성에 대한 자세한 내용을 보려면 다음 항목 중 하나를 클릭하세요.For more information about the properties that you can set in the Advanced Editor dialog box or programmatically, click one of the following topics:

  • 공용 속성Common Properties

  • 변환 사용자 지정 속성Transformation Custom Properties

    속성을 설정하는 방법에 대한 자세한 내용은 데이터 흐름 구성 요소의 속성 설정을 참조하세요.For more information about how to set properties, see Set the Properties of a Data Flow Component.