용어 추출 변환Term Extraction Transformation

용어 추출 변환은 변환 입력 열의 텍스트에서 용어를 추출한 후 용어를 변환 출력 열에 기록합니다.The Term Extraction transformation extracts terms from text in a transformation input column, and then writes the terms to a transformation output column. 변환은 영어 텍스트에서만 작동되며 자체 영어 사전과 영어에 대한 언어적 정보가 사용됩니다.The transformation works only with English text and it uses its own English dictionary and linguistic information about English.

용어 추출 변환을 사용하면 데이터 집합의 내용을 확인할 수 있습니다.You can use the Term Extraction transformation to discover the content of a data set. 예를 들어 전자 메일 메시지가 포함된 텍스트는 제품에 대한 유용한 피드백을 제공할 수 있으므로 용어 추출 변환을 사용하여 메시지의 주요 내용을 추출하고 고객 의견을 분석할 수 있습니다.For example, text that contains e-mail messages may provide useful feedback about products, so that you could use the Term Extraction transformation to extract the topics of discussion in the messages, as a way of analyzing the feedback.

추출된 용어 및 데이터 형식Extracted Terms and Data Types

용어 추출 변환에서는 명사 또는 명사구를 따로 추출하거나 모두 추출할 수 있습니다.The Term Extraction transformation can extract nouns only, noun phrases only, or both nouns and noun phases. 명사는 단일 명사이며, 명사구는 하나의 명사와 명사 또는 형용사를 포함하는 두 개 이상의 단어입니다.A noun is a single noun; a noun phrases is at least two words, of which one is a noun and the other is a noun or an adjective. 예를 들어 명사만 추출하는 옵션이 사용된 경우에는 변환에서 bicyclelandscape등과 같은 용어가 추출되며 명사구 옵션이 사용된 경우에는 new blue bicycle, bicycle helmetboxed bicycles와 같은 용어가 추출됩니다.For example, if the transformation uses the nouns-only option, it extracts terms like bicycle and landscape; if the transformation uses the noun phrase option, it extracts terms like new blue bicycle, bicycle helmet, and boxed bicycles.

관사와 대명사는 추출되지 않습니다.Articles and pronouns are not extracted. 예를 들어 용어 추출 변환은 the bicycle , my bicyclethat bicycle에서 bicycle을 추출합니다.For example, the Term Extraction transformation extracts the term bicycle from the text the bicycle, my bicycle, and that bicycle.

용어 추출 변환은 추출되는 각 용어에 대한 순위를 생성합니다.The Term Extraction transformation generates a score for each term that it extracts. 순위는 TFIDF 값이나 입력에서 기본 용어가 나타나는 횟수를 의미하는 기본 빈도일 수 있습니다.The score can be either a TFIDF value or the raw frequency, meaning the number of times the normalized term appears in the input. 어느 경우에도 순위는 0 이상의 실수로 표현됩니다.In either case, the score is represented by a real number that is greater than 0. 예를 들어 TFIDF 순위 값이 0.5이거나 빈도 값이 1.0 또는 2.0일 수 있습니다.For example, the TFIDF score might have the value 0.5, and the frequency would be a value like 1.0 or 2.0.

용어 추출 변환의 출력에는 두 개의 열만 포함됩니다.The output of the Term Extraction transformation includes only two columns. 한 열에는 추출된 용어가 포함되고 다른 열에는 순위가 포함됩니다.One column contains the extracted terms and the other column contains the score. 열의 기본 이름은 TermScore입니다.The default names of the columns are Term and Score. 입력의 텍스트 열에는 여러 용어가 포함될 수 있기 때문에 용어 추출 변환의 출력에는 일반적으로 입력보다 많은 개수의 행이 포함됩니다.Because the text column in the input may contain multiple terms, the output of the Term Extraction transformation typically has more rows than the input.

추출된 용어를 테이블에 기록하는 경우에는 용어 조회, 유사 항목 조회 및 조회 변환과 같은 다른 조회 변환에서 해당 용어를 사용할 수 있습니다.If the extracted terms are written to a table, they can be used by other lookup transformation such as the Term Lookup, Fuzzy Lookup, and Lookup transformations.

용어 추출 변환에서는 데이터 형식이 DT_WSTR 또는 DT_NTEXT인 열의 텍스트만 사용할 수 있습니다.The Term Extraction transformation can work only with text in a column that has either the DT_WSTR or the DT_NTEXT data type. 열에 텍스트가 있지만 데이터 형식이 다른 경우 데이터 변환으로 데이터 흐름에 DT_WSTR 또는 DT_NTEXT 데이터 형식의 열을 추가하고 열 값을 새 열로 복사할 수 있습니다.If a column contains text but does not have one of these data types, the Data Conversion transformation can be used to add a column with the DT_WSTR or DT_NTEXT data type to the data flow and copy the column values to the new column. 그런 다음 데이터 변환의 출력을 용어 추출 변환에 대한 입력으로 사용할 수 있습니다.The output from the Data Conversion transformation can then be used as the input to the Term Extraction transformation. 자세한 내용은 Data Conversion Transformation을 참조하세요.For more information, see Data Conversion Transformation.

제외 용어Exclusion Terms

선택적으로 용어 추출 변환은 데이터 집합에서 용어를 추출할 때 건너뛸 수 있는 용어를 의미하는 제외 용어가 포함된 테이블의 열을 참조할 수 있습니다.Optionally, the Term Extraction transformation can reference a column in a table that contains exclusion terms, meaning terms that the transformation should skip when it extracts terms from a data set. 이 기능은 특정 비즈니스 및 분야에서 텍스트에 너무 자주 나와서 쓸모가 없는 단어와 같은 일련의 용어를 중요하지 않은 용어로 이미 정의해 둔 경우에 유용합니다.This is useful when a set of terms has already been identified as inconsequential in a particular business and industry, typically because the term occurs with such high frequency that it becomes a noise word. 예를 들어 특정 상표의 자동차에 대한 고객 지원 정보가 포함된 데이터 집합에서 용어를 추출할 때 해당 상표 이름은 너무 자주 나와서 중요하지 않으므로 제외될 수 있습니다.For example, when extracting terms from a data set that contains customer support information about a particular brand of cars, the brand name itself might be excluded because it is mentioned too frequently to have significance. 따라서 제외 목록의 값은 사용 중인 데이터 집합에 맞게 사용자 지정되어야 합니다.Therefore, the values in the exclusion list must be customized to the data set you are working with.

제외 목록에 용어를 추가하면 해당 용어를 포함하는 단어나 명사구와 같은 모든 용어도 제외됩니다.When you add a term to the exclusion list, all the terms—words or noun phrases—that contain the term are also excluded. 예를 들어 제외 목록에 data와 같은 한 단어가 있는 경우 data, data mining, data integritydata validation 과 같이 이 단어를 포함하는 모든 용어도 제외됩니다.For example, if the exclusion list includes the single word data, then all the terms that contain this word, such as data, data mining, data integrity, and data validation will also be excluded. data를 포함하는 복합어만 제외하려는 경우에는 제외 목록에 해당 복합 용어를 명시적으로 추가해야 합니다.If you want to exclude only compounds that contain the word data, you must explicitly add those compound terms to the exclusion list. 예를 들어 data항목은 추출하지만 data validation은 제외하려는 경우에는 제외 목록에 data validation 을 추가하고 제외 목록에서 data 가 제거되었는지 확인합니다.For example, if you want to extract incidences of data, but exclude data validation, you would add data validation to the exclusion list, and make sure that data is removed from the exclusion list.

참조 테이블은 SQL ServerSQL Server 또는 Access 데이터베이스의 테이블이어야 합니다.The reference table must be a table in a SQL ServerSQL Server or an Access database. 용어 추출 변환은 별개의 OLE DB 연결을 사용하여 참조 테이블에 연결합니다.The Term Extraction transformation uses a separate OLE DB connection to connect to the reference table. 자세한 내용은 OLE DB Connection Manager를 참조하세요.For more information, see OLE DB Connection Manager.

용어 추출 변환은 완전히 사전 캐시된 모드에서 작동합니다.The Term Extraction transformation works in a fully precached mode. 용어 추출 변환은 런타임에 참조 테이블로부터 제외 용어를 읽고 변환 입력 행을 처리하기 전에 이를 전용 메모리에 저장합니다.At run time, the Term Extraction transformation reads the exclusion terms from the reference table and stores them in its private memory before it processes any transformation input rows.

텍스트에서 용어 추출Extraction of Terms from Text

텍스트에서 용어를 추출하기 위해 용어 추출 변환은 다음과 같은 태스크를 수행합니다.To extract terms from text, the Term Extraction transformation performs the following tasks.

단어 식별Identification of Words

첫째, 용어 추출 변환은 다음 태스크를 수행하여 단어를 구분합니다.First, the Term Extraction transformation identifies words by performing the following tasks:

  • 공백, 줄 바꿈 및 기타 영어에서 사용되는 단어 종료 문자를 사용하여 텍스트를 여러 단어로 구분합니다.Separating text into words by using spaces, line breaks, and other word terminators in the English language. 예를 들어 ?For example, punctuation marks such as ? : 과 같은 문장 부호는 단어를 구분하는 문자입니다.and : are word-breaking characters.

  • 하이픈이나 밑줄로 연결된 단어는 그대로 유지합니다.Preserving words that are connected by hyphens or underscores. 예를 들어 copy-protectedread-only 와 같은 단어는 한 단어로 유지됩니다.For example, the words copy-protected and read-only remain one word.

  • 마침표가 포함된 머리 글자어를 그대로 유지합니다.Keeping intact acronyms that include periods. 예를 들어 A.B.C Company는 ABCCompany로 토큰화됩니다.For example, the A.B.C Company would be tokenized as ABC and Company.

  • 특수 문자가 사용된 단어를 분할합니다.Splitting words on special characters. 예를 들어 date/time 단어는 datetime으로 추출되고, (bicycle)bicycle로, C#은 C로 취급됩니다. 특수 문자는 삭제되며 단어로 취급될 수 없습니다.For example, the word date/time is extracted as date and time, (bicycle) as bicycle, and C# is treated as C. Special characters are discarded and cannot be lexicalized.

  • 아포스트로피와 같이 단어를 분할하지 않는 특수 문자를 인식합니다.Recognizing when special characters such as the apostrophe should not split words. 예를 들어 bicycle's 는 두 단어로 분할되지 않으며 bicycle (명사)라는 단일 용어로 생성됩니다.For example, the word bicycle's is not split into two words, and yields the single term bicycle (noun).

  • 시간 식, 통화 식, 전자 메일 주소 및 우편 주소를 분할합니다.Splitting time expressions, monetary expressions, e-mail addresses, and postal addresses. 예를 들어 January 31, 2004January, 312004의 3개의 토큰으로 분리됩니다.For example, the date January 31, 2004 is separated into the three tokens January, 31, and 2004.

태그가 지정된 단어Tagged Words

둘째, 용어 추출 변환은 다음과 같은 문장 요소 중 하나로 단어를 분류합니다.Second, the Term Extraction transformation tags words as one of the following parts of speech:

  • 단수 형태의 명사.A noun in the singular form. 예를 들면 bicyclepotato가 있습니다.For example, bicycle and potato.

  • 복수 형태의 명사.A noun in the plural form. 예를 들면 bicyclespotatoes가 있습니다.For example, bicycles and potatoes. 분류되지 않은 모든 복수 명사는 형태소 분석됩니다.All plural nouns that are not lemmatized are subject to stemming.

  • 단수 형태의 고유 명사.A proper noun in the singular form. 예를 들면 AprilPeter가 있습니다.For example, April and Peter.

  • 복수 형태의 고유 명사.A proper noun in the plural form. 예를 들면 AprilsPeters가 있습니다.For example Aprils and Peters. 고유 명사가 형태소 분석되기 위해서는 표준 영어 단어로 제한되는 내부 어휘집에 속해야 합니다.For a proper noun to be subject to stemming, it must be a part of the internal lexicon, which is limited to standard English words.

  • 형용사.An adjective. 예를 들면 blue가 있습니다.For example, blue.

  • 두 개의 사물을 비교하는 비교 형용사.A comparative adjective that compares two things. 예를 들면 highertaller가 있습니다.For example, higher and taller.

  • 적어도 두 개 이상의 사물에 대해 성질이 높거나 낮은 사물을 나타내는 최상급 형용사.A superlative adjective that identifies a thing that has a quality above or below the level of at least two others. 예를 들면 highesttallest가 있습니다.For example, highest and tallest.

  • 숫자.A number. 예를 들면 622004가 있습니다.For example, 62 and 2004.

    이러한 문장 요소에 속하지 않는 단어는 삭제됩니다.Words that are not one of these parts of speech are discarded. 예를 들어 동사와 대명사는 삭제됩니다.For example, verbs and pronouns are discarded.

참고

문장 요소 분류는 통계 모델을 기반으로 하며 분류는 완전히 정확하지 않을 수 있습니다.The tagging of parts of speech is based on a statistical model and the tagging may not be completely accurate.

용어 추출 변환이 명사만 추출하도록 구성된 경우 명사 또는 고유 명사의 단/복수 형태로 분류되는 단어만 추출됩니다.If the Term Extraction transformation is configured to extract only nouns, only the words that are tagged as singular or plural forms of nouns and proper nouns are extracted.

용어 추출 변환이 명사구만 추출하도록 구성된 경우 명사, 고유 명사, 형용사 및 숫자로 분류된 단어가 조합되어 명사구가 될 수 있지만 명사구에는 명사 또는 고유 명사의 단/복수 형태로 분류된 단어가 적어도 하나 이상 들어 있어야 합니다.If the Term Extraction transformation is configured to extract only noun phrases, words that are tagged as nouns, proper nouns, adjectives, and numbers may be combined to make a noun phrase, but the phrase must include at least one word that is tagged as a singular or plural form of a noun or a proper noun. 예를 들어 명사구 highest mountain 에는 최상급 형용사로 분류된 단어(highest)와 명사로 분류된 단어(mountain)가 조합되어 있습니다.For example, the noun phrase highest mountain combines a word tagged as a superlative adjective (highest) and a word tagged as noun (mountain).

용어 추출 변환이 명사와 명사구를 모두 추출하도록 구성된 경우 명사에 대한 규칙과 명사구에 대한 규칙이 모두 적용됩니다.If the Term Extraction is configured to extract both nouns and noun phrases, both the rules for nouns and the rules for noun phrases apply. 예를 들어 변환에서는 many beautiful blue bicycles 라는 텍스트로부터 bicyclebeautiful blue bicycle이 추출됩니다.For example, the transformation extracts bicycle and beautiful blue bicycle from the text many beautiful blue bicycles.

참고

추출된 용어는 변환에서 사용되는 최대 용어 길이 및 빈도 임계값에 따라 유지됩니다.The extracted terms remain subject to the maximum term length and frequency threshold that the transformation uses.

형태소가 분석된 단어Stemmed Words

용어 추출 변환은 또한 명사를 형태소 분석하여 명사의 단수 형태만 추출합니다.The Term Extraction transformation also stems nouns to extract only the singular form of a noun. 예를 들어 변환은 menman으로 추출하고, micemouse로, bicyclesbicycle로 추출합니다.For example, the transformation extracts man from men, mouse from mice, and bicycle from bicycles. 변환은 자체 사전을 사용하여 명사를 형태소 분석합니다.The transformation uses its dictionary to stem nouns. 사전에 표시되지 않은 동명사는 명사로 취급됩니다.Gerunds are treated as nouns if they are in the dictionary.

용어 추출 변환은 용어 추출 변환의 내부 사전을 사용하여 다음과 같이 사전의 단어 형태로 단어를 형태소 분석합니다.The Term Extraction transformation stems words to their dictionary form as shown in these examples by using the dictionary internal to the Term Extraction transformation.

  • 명사에서 s 를 제거합니다.Removing s from nouns. 예를 들어 bicyclesbicycle이 됩니다.For example, bicycles becomes bicycle.

  • 명사에서 es 를 제거합니다.Removing es from nouns. 예를 들어 storiesstory가 됩니다.For example, stories becomes story.

  • 불규칙 명사의 경우 사전에서 단수 형태를 검색합니다.Retrieving the singular form for irregular nouns from the dictionary. 예를 들어 geesegoose가 됩니다.For example, geese becomes goose.

기본 형태로 변환된 단어Normalized Words

용어 추출 변환은 문장 내 위치 때문에 대문자로 표기된 용어를 해당 소문자 형태를 사용하여 기본 형태로 바꿉니다.The Term Extraction transformation normalizes terms that are capitalized only because of their position in a sentence, and uses their non-capitalized form instead. 예를 들어 Dogs chase catsMountain paths are steep와 같은 문장에서 DogsMountaindogmountain의 기본 형태로 바뀝니다.For example, in the phrases Dogs chase cats and Mountain paths are steep, Dogs and Mountain would be normalized to dog and mountain.

용어 추출 변환은 단어를 기본 형태로 바꾸기 때문에 단어의 대/소문자가 달라도 다른 용어로 취급되지 않습니다.The Term Extraction transformation normalizes words so that the capitalized and noncapitalized versions of words are not treated as different terms. 예를 들어 You see many bicycles in SeattleBicycles are blue와 같은 텍스트에서 bicyclesBicycles 는 같은 용어로 인식되고 bicycle만 변환에서 유지됩니다.For example, in the text You see many bicycles in Seattle and Bicycles are blue, bicycles and Bicycles are recognized as the same term and the transformation keeps only bicycle. 내부 사전에 나열되지 않은 고유 명사 및 단어는 기본 형태로 바뀌지 않습니다.Proper nouns and words that are not listed in the internal dictionary are not normalized.

대/소문자를 구분하는 기본 형태Case-Sensitive Normalization

용어 추출 변환은 소문자 및 대문자 단어를 각각 고유한 용어로 인식하거나 동일 용어의 다른 표현으로 인식하도록 구성될 수 있습니다.The Term Extraction transformation can be configured to consider lowercase and uppercase words as either distinct terms, or as different variants of the same term.

  • 대/소문자를 다르게 인식하도록 변환이 구성된 경우 Methodmethod 는 두 개의 서로 다른 용어로 추출됩니다.If the transformation is configured to recognize differences in case, terms like Method and method are extracted as two different terms. 문장의 첫 번째 단어가 아닌 대문자로 표시된 단어는 기본 형태로 바뀌지 않으며 고유 명사로 분류됩니다.Capitalized words that are not the first word in a sentence are never normalized, and are tagged as proper nouns.

  • 대/소문자를 구분하지 않도록 변환이 구성된 경우 Methodmethod 와 같은 용어는 단일 용어의 다른 표현으로 인식됩니다.If the transformation is configured to be case-insensitive, terms like Method and method are recognized as variants of a single term. 추출된 용어 목록에는 입력 데이터 집합에서 단어가 표시된 순서에 따라 Method 또는 method가 포함될 수 있습니다.The list of extracted terms might include either Method or method, depending on which word occurs first in the input data set. Method 가 문장의 첫 번째 단어이기 때문에 대문자로 표기된 경우에는 기본 형태로 바뀌어서 추출됩니다.If Method is capitalized only because it is the first word in a sentence, it is extracted in normalized form.

문장 및 단어 경계Sentence and Word Boundaries

용어 추출 변환은 다음과 같은 문자를 문장 경계로 사용하여 텍스트를 여러 문장으로 분리합니다.The Term Extraction transformation separates text into sentences using the following characters as sentence boundaries:

  • ASCII 줄 바꿈 문자 0x0d(캐리지 리턴) 및 0x0a(줄 바꿈).ASCII line-break characters 0x0d (carriage return) and 0x0a (line feed). 이 문자를 문장 경계로 사용하려면 한 행에 두 개 이상의 줄 바꿈 문자가 있어야 합니다.To use this character as a sentence boundary, there must be two or more line-break characters in a row.

  • 하이픈(-).Hyphens (–). 이 문자를 문장 경계로 사용하려면 하이픈 왼쪽과 오른쪽의 문자가 모두 글자이면 안 됩니다.To use this character as a sentence boundary, neither the character to the left nor to the right of the hyphen can be a letter.

  • 밑줄().Underscore (). 이 문자를 문장 경계로 사용하려면 하이픈 왼쪽과 오른쪽의 문자가 모두 글자이면 안 됩니다.To use this character as a sentence boundary, neither the character to the left nor to the right of the hyphen can be a letter.

  • 0x19보다 작거나 같거나 0x7b보다 크거나 같은 모든 유니코드 문자.All Unicode characters that are less than or equal to 0x19, or greater than or equal to 0x7b.

  • 숫자, 문장 부호 및 영문자 조합.Combinations of numbers, punctuation marks, and alphabetical characters. 예를 들어 A23B#99 는 용어 A23B를 반환합니다.For example, A23B#99 returns the term A23B.

  • The characters, %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “, and ‘.The characters, %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “, and ‘.

    참고

    하나 이상의 마침표(.)가 포함된 머리 글자어는 여러 문장으로 분리되지 않습니다.Acronyms that include one or more periods (.) are not separated into multiple sentences.

    그런 다음 용어 추출 변환은 다음과 같은 단어 경계를 사용하여 문장을 여러 단어로 분리합니다.The Term Extraction transformation then separates the sentence into words using the following word boundaries:

  • SpaceSpace

  • Tab

  • ASCII 0x0d(캐리지 리턴)ASCII 0x0d (carriage return)

  • ASCII 0x0a(줄 바꿈)ASCII 0x0a (line feed)

    참고

    we're 또는 it's와 같이 축약형 단어에 아포스트로피가 사용된 경우에는 단어가 아포스트로피 앞에서 잘리고, 그렇지 않으면 아포스트로피 다음의 문자가 잘립니다.If an apostrophe is in a word that is a contraction, such as we're or it's, the word is broken at the apostrophe; otherwise, the letters following the apostrophe are trimmed. 예를 들어 we'rewe're로 분할되고 bicycle'sbicycle로 잘립니다.For example, we're is split into we and 're, and bicycle's is trimmed to bicycle.

용어 추출 변환 구성Configuration of the Term Extraction Transformation

용어 추출 변환은 내부 알고리즘과 통계 모델을 사용하여 결과를 생성합니다.The Text Extraction transformation uses internal algorithms and statistical models to generate its results. 용어 추출 변환을 여러 번 실행하여 결과를 검토하고 텍스트 마이닝 솔루션에 적합한 결과를 생성하도록 변환을 구성해야 할 수도 있습니다.You may have to run the Term Extraction transformation several times and examine the results to configure the transformation to generate the type of results that works for your text mining solution.

용어 추출 변환에는 하나의 일반 입력, 하나의 출력 및 하나의 오류 출력이 있습니다.The Term Extraction transformation has one regular input, one output, and one error output.

SSISSSIS 디자이너를 사용하거나 프로그래밍 방식으로 속성을 설정할 수 있습니다.You can set properties through SSISSSIS Designer or programmatically.

용어 추출 변환 편집기 대화 상자에서 설정할 수 있는 속성에 대한 자세한 내용을 보려면 다음 항목 중 하나를 클릭하십시오.For more information about the properties that you can set in the Term Extraction Transformation Editor dialog box, click one of the following topics: