Transformation d'extraction de termeTerm Extraction Transformation

APPLIES TO: yesSQL Server, including on Linux yesAzure SQL Database yesAzure SQL Data Warehouse noParallel Data Warehouse

La transformation d'extraction de terme extrait des termes à partir de texte d'une colonne d'entrée de transformation, puis écrit les termes dans une colonne de sortie de transformation.The Term Extraction transformation extracts terms from text in a transformation input column, and then writes the terms to a transformation output column. La transformation fonctionne uniquement avec du texte en langue anglaise et utilise uniquement son propre dictionnaire d'anglais et ses propres informations linguistiques.The transformation works only with English text and it uses its own English dictionary and linguistic information about English.

Vous pouvez utiliser la transformation d'extraction de terme pour découvrir le contenu d'un dataset.You can use the Term Extraction transformation to discover the content of a data set. Par exemple, du texte contenant des messages électroniques peut fournir des commentaires utiles sur des produits ; vous pourriez donc utiliser la transformation d'extraction de terme pour extraire les rubriques de discussion dans les messages et ainsi analyser les commentaires.For example, text that contains e-mail messages may provide useful feedback about products, so that you could use the Term Extraction transformation to extract the topics of discussion in the messages, as a way of analyzing the feedback.

Termes extraits et types de donnéesExtracted Terms and Data Types

La transformation d'extraction de terme peut extraire uniquement des noms, uniquement des expressions nominales, ou les deux.The Term Extraction transformation can extract nouns only, noun phrases only, or both nouns and noun phases. Un nom est un nom unique ; une expression nominale est constituée d'au moins deux mots, dont l'un est un nom et l'autre un nom ou un adjectif.A noun is a single noun; a noun phrases is at least two words, of which one is a noun and the other is a noun or an adjective. Par exemple, si la transformation utilise l’option « uniquement les noms », elle extrait des termes comme bicycle et landscape; si elle utilise l’option « uniquement les expressions nominales », elle extrait des termes comme new blue bicycle, bicycle helmetet boxed bicycles.For example, if the transformation uses the nouns-only option, it extracts terms like bicycle and landscape; if the transformation uses the noun phrase option, it extracts terms like new blue bicycle, bicycle helmet, and boxed bicycles.

Les articles et les pronoms ne sont pas extraits.Articles and pronouns are not extracted. Par exemple, la transformation d’extraction de termes extrait le terme bicycle des textes the bicycle, my bicycleet that bicycle.For example, the Term Extraction transformation extracts the term bicycle from the text the bicycle, my bicycle, and that bicycle.

La transformation d'extraction de terme génère un score pour chaque terme extrait.The Term Extraction transformation generates a score for each term that it extracts. Ce score peut être une valeur TFIDF ou la fréquence brute, autrement dit le nombre de fois que le terme normalisé apparaît dans l'entrée.The score can be either a TFIDF value or the raw frequency, meaning the number of times the normalized term appears in the input. Dans les deux cas, le score est représenté par un nombre réel supérieur à 0.In either case, the score is represented by a real number that is greater than 0. Par exemple, le score TFIDF peut avoir la valeur 0,5 et la fréquence peut être égale à 1 ou 2.For example, the TFIDF score might have the value 0.5, and the frequency would be a value like 1.0 or 2.0.

La sortie de la transformation d'extraction de terme contient seulement deux colonnes.The output of the Term Extraction transformation includes only two columns. Une colonne contient les termes extraits, tandis que l'autre contient le score.One column contains the extracted terms and the other column contains the score. Les noms par défaut des colonnes sont Terme et Score.The default names of the columns are Term and Score. La colonne de texte de l'entrée pouvant contenir plusieurs termes, la sortie de la transformation d'extraction de terme possède généralement plus de lignes que l'entrée.Because the text column in the input may contain multiple terms, the output of the Term Extraction transformation typically has more rows than the input.

Si les termes extraits sont écrits dans une table, ils peuvent être utilisés par d'autres transformations de recherche telles que les transformations de recherche, de recherche de terme et de recherche floue.If the extracted terms are written to a table, they can be used by other lookup transformation such as the Term Lookup, Fuzzy Lookup, and Lookup transformations.

La transformation d'extraction de terme ne peut fonctionner qu'avec du texte d'une colonne dont le type de données est DT_WSTR ou DT_NTEXT.The Term Extraction transformation can work only with text in a column that has either the DT_WSTR or the DT_NTEXT data type. Si une colonne contient du texte mais n'a pas l'un de ces types de données, la transformation de conversion de données peut être utilisée pour ajouter une colonne avec le type de données DT_WSTR ou DT_NTEXT au flux de données et copier les valeurs de colonne dans la nouvelle colonne.If a column contains text but does not have one of these data types, the Data Conversion transformation can be used to add a column with the DT_WSTR or DT_NTEXT data type to the data flow and copy the column values to the new column. La sortie de la transformation de conversion de données peut ensuite être utilisée comme entrée de la transformation d'extraction de terme.The output from the Data Conversion transformation can then be used as the input to the Term Extraction transformation. Pour plus d’informations, voir Data Conversion Transformation.For more information, see Data Conversion Transformation.

Termes d'exclusionExclusion Terms

Éventuellement, la transformation d'extraction de terme peut faire référence à une colonne de table qui contient des termes d'exclusion, à savoir des termes qui doivent être ignorés par la transformation lors de l'extraction de termes à partir d'un jeu de données.Optionally, the Term Extraction transformation can reference a column in a table that contains exclusion terms, meaning terms that the transformation should skip when it extracts terms from a data set. Cela est utile lorsqu'un ensemble de termes a déjà été identifié comme sans importance dans un secteur d'activité ou une industrie particulière, en général parce qu'ils apparaissent à une fréquence tellement élevée qu'ils en deviennent des mots non significatifs.This is useful when a set of terms has already been identified as inconsequential in a particular business and industry, typically because the term occurs with such high frequency that it becomes a noise word. Par exemple, lors de l'extraction de termes à partir d'un dataset qui contient des informations de support clientèle sur une marque de véhicules spécifique, le nom de la marque peut être exclu car il sera mentionné trop fréquemment pour être significatif.For example, when extracting terms from a data set that contains customer support information about a particular brand of cars, the brand name itself might be excluded because it is mentioned too frequently to have significance. Par conséquent, les valeurs de la liste d'exclusion doivent être personnalisées en fonction du jeu de données avec lequel vous travaillez.Therefore, the values in the exclusion list must be customized to the data set you are working with.

Quand vous ajoutez un terme à la liste d’exclusion, tous les termes (mots ou expressions nominales) qui contiennent le terme sont également exclus.When you add a term to the exclusion list, all the terms-words or noun phrases-that contain the term are also excluded. Par exemple, si la liste d’exclusion comprend le mot simple données, tous les termes qui contiennent ce mot, comme données, exploration de données, intégrité des donnéeset validation des données sont également exclus.For example, if the exclusion list includes the single word data, then all the terms that contain this word, such as data, data mining, data integrity, and data validation will also be excluded. Si vous souhaitez exclure uniquement les termes composés qui contiennent le mot données, vous devez les ajouter explicitement à la liste d’exclusion.If you want to exclude only compounds that contain the word data, you must explicitly add those compound terms to the exclusion list. Par exemple, si vous souhaitez extraire les occurrences de donnéestout en excluant validation des données, vous ajoutez validation des données à la liste d’exclusion et vous vérifiez que données est supprimé de celle-ci.For example, if you want to extract incidences of data, but exclude data validation, you would add data validation to the exclusion list, and make sure that data is removed from the exclusion list.

La table de référence doit être une table d'une base de données SQL ServerSQL Server ou Access.The reference table must be a table in a SQL ServerSQL Server or an Access database. La transformation d'extraction de terme utilise une connexion OLE DB distincte pour se connecter à la table de référence.The Term Extraction transformation uses a separate OLE DB connection to connect to the reference table. Pour plus d’informations, consultez OLE DB Connection Manager.For more information, see OLE DB Connection Manager.

La transformation d'extraction de terme fonctionne entièrement en mode de mise en cache préalable.The Term Extraction transformation works in a fully precached mode. Au moment de l'exécution, elle lit les termes d'exclusion à partir de la table de référence et les stocke dans sa mémoire privée avant de traiter des lignes d'entrée de transformation.At run time, the Term Extraction transformation reads the exclusion terms from the reference table and stores them in its private memory before it processes any transformation input rows.

Extraction de termes à partir de texteExtraction of Terms from Text

Pour extraire des termes à partir de texte, la transformation d'extraction de terme effectue les tâches suivantes.To extract terms from text, the Term Extraction transformation performs the following tasks.

Identification des motsIdentification of Words

Tout d'abord, la transformation d'extraction de terme identifie les mots en exécutant les tâches suivantes :First, the Term Extraction transformation identifies words by performing the following tasks:

  • Séparation du texte en mots à l'aide d'espaces, de sauts de lignes et d'autres terminateurs de langue anglaise.Separating text into words by using spaces, line breaks, and other word terminators in the English language. Par exemple, les signes de ponctuation comme ?For example, punctuation marks such as ? et : sont des caractères de séparation de mots.and : are word-breaking characters.

  • Préservation des mots connectés par des tirets ou des traits de soulignement.Preserving words that are connected by hyphens or underscores. Par exemple, les mots Presse-papiers et ci-dessous restent en seul mot.For example, the words copy-protected and read-only remain one word.

  • Conservation des acronymes incluant des points.Keeping intact acronyms that include periods. Par exemple, la Société A.B.C est divisée en Société et ABC.For example, the A.B.C Company would be tokenized as ABC and Company.

  • Fractionnement des mots avec caractères spéciaux.Splitting words on special characters. Par exemple, le mot date/heure est extrait comme date et heure, (bicycle) comme bicycleet C# est traité comme C. Les caractères spéciaux sont ignorés et ne peuvent pas être lexicalisés.For example, the word date/time is extracted as date and time, (bicycle) as bicycle, and C# is treated as C. Special characters are discarded and cannot be lexicalized.

  • Reconnaissance des cas dans lesquels certains caractères spéciaux (tels que l'apostrophe) ne doivent pas fractionner les mots.Recognizing when special characters such as the apostrophe should not split words. Par exemple, le mot l’élément n’est pas fractionné en deux mots et génère le terme unique élément (nom).For example, the word bicycle's is not split into two words, and yields the single term bicycle (noun).

  • Fractionnement des expressions temporelles, des expressions monétaires, des adresses de messagerie et des adresses postales.Splitting time expressions, monetary expressions, e-mail addresses, and postal addresses. Par exemple, la date 31 janvier 2004 est fractionnée en trois jetons : 31, janvieret 2004.For example, the date January 31, 2004 is separated into the three tokens January, 31, and 2004.

Mots avec balisesTagged Words

Ensuite, la transformation d'extraction de terme effectue un balisage des mots selon l'une des catégories grammaticales suivantes :Second, the Term Extraction transformation tags words as one of the following parts of speech:

  • Nom au singulier.A noun in the singular form. Par exemple, bicycle et potato.For example, bicycle and potato.

  • Nom au pluriel.A noun in the plural form. Par exemple, bicycles et potatoes.For example, bicycles and potatoes. Tous les noms au pluriel qui ne sont pas lemmatisés sont soumis à l'extraction de la racine.All plural nouns that are not lemmatized are subject to stemming.

  • Nom propre au singulier.A proper noun in the singular form. Par exemple, April et Peter.For example, April and Peter.

  • Nom propre au pluriel.A proper noun in the plural form. Par exemple, Aprils et Pierres.For example Aprils and Peters. Pour qu'un nom propre soit soumis à l'extraction de la racine, il doit faire partie du lexique interne, qui est limité aux mots anglais standard.For a proper noun to be subject to stemming, it must be a part of the internal lexicon, which is limited to standard English words.

  • Adjectif.An adjective. Par exemple, blue.For example, blue.

  • Adjectif comparatif qui compare deux choses.A comparative adjective that compares two things. Par exemple, higher et taller.For example, higher and taller.

  • Adjectif superlatif qui identifie une chose comme ayant une qualité supérieure ou inférieure au niveau d'au moins deux autres choses.A superlative adjective that identifies a thing that has a quality above or below the level of at least two others. Par exemple, highest et tallest.For example, highest and tallest.

  • Nombre.A number. Par exemple, 62 et 2004.For example, 62 and 2004.

Les mots qui n'appartiennent pas à ces catégories grammaticales sont ignorés.Words that are not one of these parts of speech are discarded. Par exemple, les verbes et les pronoms sont ignorés.For example, verbs and pronouns are discarded.

Notes

Le balisage des catégories grammaticales étant basé sur un modèle statistique, il peut ne pas être totalement exact.The tagging of parts of speech is based on a statistical model and the tagging may not be completely accurate.

Si la transformation d'extraction de terme est configurée de façon à extraire uniquement les noms, seuls les mots balisés comme des noms ou des noms propres au singulier ou au pluriel sont extraits.If the Term Extraction transformation is configured to extract only nouns, only the words that are tagged as singular or plural forms of nouns and proper nouns are extracted.

Si la transformation d'extraction de terme est configurée de façon à extraire uniquement les expressions nominales, les mots balisés comme noms, noms propres, adjectifs et nombres peuvent être combinés pour composer une expression nominale, mais la phrase doit inclure au moins un mot balisé en tant que nom ou nom propre au singulier ou au pluriel.If the Term Extraction transformation is configured to extract only noun phrases, words that are tagged as nouns, proper nouns, adjectives, and numbers may be combined to make a noun phrase, but the phrase must include at least one word that is tagged as a singular or plural form of a noun or a proper noun. Par exemple, l’expression nominale highest mountain combine un mot étiqueté comme adjectif superlatif (highest) et un mot étiqueté comme nom (mountain).For example, the noun phrase highest mountain combines a word tagged as a superlative adjective (highest) and a word tagged as noun (mountain).

Si la transformation d'extraction de terme est configurée de façon à extraire à la fois les noms et les expressions nominales, les règles relatives aux noms et aux expressions nominales sont applicables.If the Term Extraction is configured to extract both nouns and noun phrases, both the rules for nouns and the rules for noun phrases apply. Par exemple, la transformation extrait bicycle et beautiful blue bicycle du texte many beautiful blue bicycles.For example, the transformation extracts bicycle and beautiful blue bicycle from the text many beautiful blue bicycles.

Notes

Les termes extraits demeurent sujets au seuil de fréquence et à la longueur de terme maximale utilisés par la transformation.The extracted terms remain subject to the maximum term length and frequency threshold that the transformation uses.

Mots réduits à leur radicalStemmed Words

La transformation d'extraction de terme réduit les noms à leur racine afin d'extraire uniquement le singulier d'un nom.The Term Extraction transformation also stems nouns to extract only the singular form of a noun. Par exemple, la transformation extrait man de men, mouse de miceet bicycle de bicycles.For example, the transformation extracts man from men, mouse from mice, and bicycle from bicycles. La transformation utilise son dictionnaire pour obtenir la racine des noms.The transformation uses its dictionary to stem nouns. Les gérondifs sont traités comme des noms s'ils sont présents dans le dictionnaire.Gerunds are treated as nouns if they are in the dictionary.

Comme le montrent les exemples suivants, la transformation d'extraction de terme réduit les mots à leur forme présente dans le dictionnaire, à l'aide de son dictionnaire interne.The Term Extraction transformation stems words to their dictionary form as shown in these examples by using the dictionary internal to the Term Extraction transformation.

  • Suppression du s des noms.Removing s from nouns. Par exemple, bicycles devient bicycle.For example, bicycles becomes bicycle.

  • Suppression du es des noms.Removing es from nouns. Par exemple, stories devient story.For example, stories becomes story.

  • Récupération du singulier des noms irréguliers à partir du dictionnaire.Retrieving the singular form for irregular nouns from the dictionary. Par exemple, geese devient goose.For example, geese becomes goose.

Mots normalisésNormalized Words

La transformation d'extraction de terme normalise les termes qui commencent par une majuscule uniquement à cause de leur position dans la phrase et les remplace par leur forme minuscule.The Term Extraction transformation normalizes terms that are capitalized only because of their position in a sentence, and uses their non-capitalized form instead. Par exemple, dans les phrases Dogs chase cats et Mountain paths are steep, Dogs et Mountain sont normalisés en dog et mountain.For example, in the phrases Dogs chase cats and Mountain paths are steep, Dogs and Mountain would be normalized to dog and mountain.

La transformation d'extraction de terme normalise les mots de sorte que les versions commençant par une majuscule et par une minuscule ne soient pas traitées comme des termes différents.The Term Extraction transformation normalizes words so that the capitalized and noncapitalized versions of words are not treated as different terms. Par exemple, dans le texte You see many bicycles in Seattle et Bicycles are blue, bicycles et Bicycles sont reconnus comme étant e terme et la transformation conserve uniquement bicycle.For example, in the text You see many bicycles in Seattle and Bicycles are blue, bicycles and Bicycles are recognized as the same term and the transformation keeps only bicycle. Les noms propres et les mots non répertoriés dans le dictionnaire interne ne sont pas normalisés.Proper nouns and words that are not listed in the internal dictionary are not normalized.

Normalisation sensible à la casseCase-Sensitive Normalization

La transformation d'extraction de terme peut être configurée de façon à considérer les mots en majuscules et en minuscules comme des termes distincts ou comme des variantes différentes du même terme.The Term Extraction transformation can be configured to consider lowercase and uppercase words as either distinct terms, or as different variants of the same term.

  • Si la transformation est configurée de manière à reconnaître des différences de casse, des termes comme Method et method sont extraits comme deux termes différents.If the transformation is configured to recognize differences in case, terms like Method and method are extracted as two different terms. Les mots commençant par une majuscule qui ne sont pas le premier mot d'une phrase ne sont jamais normalisés et sont balisés comme noms propres.Capitalized words that are not the first word in a sentence are never normalized, and are tagged as proper nouns.

  • Si la transformation est configurée de manière à ne pas faire de distinction de casse, des termes comme Method et method sont reconnus comme des variantes d’un même terme.If the transformation is configured to be case-insensitive, terms like Method and method are recognized as variants of a single term. La liste de termes extraits peut inclure Method ou method, selon le terme apparu en premier dans le dataset en entrée.The list of extracted terms might include either Method or method, depending on which word occurs first in the input data set. Si le terme Method commence par une majuscule seulement car il s’agit du premier mot d’une phrase, il est extrait sous sa forme normalisée.If Method is capitalized only because it is the first word in a sentence, it is extracted in normalized form.

Limites de mots et de phrasesSentence and Word Boundaries

La transformation d'extraction de terme sépare le texte en phrases en utilisant les caractères suivants comme limites de phrases :The Term Extraction transformation separates text into sentences using the following characters as sentence boundaries:

  • Caractères de sauts de ligne ASCII 0x0d (retour chariot) et 0x0a (saut de ligne).ASCII line-break characters 0x0d (carriage return) and 0x0a (line feed). Pour que ce caractère soit utilisé comme limite de phrase, il doit y avoir deux caractères de saut de ligne ou plus sur une ligne.To use this character as a sentence boundary, there must be two or more line-break characters in a row.

  • Traits d’union (-).Hyphens (-). Pour que ce caractère soit utilisé comme limite de phrase, les caractères situés immédiatement à gauche et à droite du trait d'union ne doivent pas être des lettres.To use this character as a sentence boundary, neither the character to the left nor to the right of the hyphen can be a letter.

  • Caractère de soulignement ().Underscore (). Pour que ce caractère soit utilisé comme limite de phrase, les caractères situés immédiatement à gauche et à droite du trait d'union ne doivent pas être des lettres.To use this character as a sentence boundary, neither the character to the left nor to the right of the hyphen can be a letter.

  • Tous les caractères Unicode inférieurs ou égaux à 0x19, ou supérieurs ou égaux à 0x7b.All Unicode characters that are less than or equal to 0x19, or greater than or equal to 0x7b.

  • Combinaison de nombres, signes de ponctuation et caractères alphabétiques.Combinations of numbers, punctuation marks, and alphabetical characters. Par exemple, A23B#99 retourne le terme A23B.For example, A23B#99 returns the term A23B.

  • Caractères %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, " et '.The characters, %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, ", and '.

    Notes

    Les acronymes incluant un ou plusieurs points (.) ne sont pas divisés en plusieurs phrases.Acronyms that include one or more periods (.) are not separated into multiple sentences.

La transformation d'extraction de terme fractionne ensuite la phrase en mots à l'aide des limites de mots suivantes :The Term Extraction transformation then separates the sentence into words using the following word boundaries:

  • EspaceSpace

  • OngletTab

  • ASCII 0x0d (retour chariot)ASCII 0x0d (carriage return)

  • ASCII 0x0a (saut de ligne)ASCII 0x0a (line feed)

    Notes

    Si une apostrophe se trouve dans un mot qui constitue une contraction, comme we’re ou it’s, le mot est scindé au niveau de l’apostrophe ; sinon, les lettres qui suivent l’apostrophe sont supprimées.If an apostrophe is in a word that is a contraction, such as we're or it's, the word is broken at the apostrophe; otherwise, the letters following the apostrophe are trimmed. Par exemple, we’re est divisé en we et ’re, tandis que bicycle’s est tronqué en bicycle.For example, we're is split into we and 're, and bicycle's is trimmed to bicycle.

Configuration de la transformation d’extraction de termeConfiguration of the Term Extraction Transformation

La transformation d'extraction de terme utilise des algorithmes et des modèles statistiques internes pour générer ses résultats.The Text Extraction transformation uses internal algorithms and statistical models to generate its results. Vous devrez peut-être exécuter la transformation d'extraction de terme à plusieurs reprises et examiner les résultats afin de configurer la transformation de sorte qu'elle génère le type de résultats le mieux adapté à votre solution d'exploration de texte.You may have to run the Term Extraction transformation several times and examine the results to configure the transformation to generate the type of results that works for your text mining solution.

La transformation d'extraction de terme possède une entrée régulière, une sortie et une sortie d'erreur.The Term Extraction transformation has one regular input, one output, and one error output.

Vous pouvez définir les propriétés par le biais du concepteur SSISSSIS ou par programmation.You can set properties through SSISSSIS Designer or programmatically.

Pour plus d'informations sur les propriétés définissables dans la boîte de dialogue Éditeur avancé ou par programmation, cliquez sur l'une des rubriques suivantes :For more information about the properties that you can set in the Advanced Editor dialog box or programmatically, click one of the following topics:

Pour plus d’informations sur la façon de définir les propriétés, consultez Définir les propriétés d’un composant de flux de données.For more information about how to set properties, see Set the Properties of a Data Flow Component.

Éditeur de transformation d'extraction de terme (onglet Extraction de terme)Term Extraction Transformation Editor (Term Extraction Tab)

Utilisez l'onglet Extraction de terme de la boîte de dialogue Éditeur de transformation d'extraction de terme pour définir une colonne de texte qui contient le texte à extraire.Use the Term Extraction tab of the Term Extraction Transformation Editor dialog box to specify a text column that contains text to be extracted.

OptionsOptions

Colonnes d'entrée disponiblesAvailable Input Columns
En utilisant les cases à cocher, sélectionnez une colonne de texte à utiliser pour l'extraction de terme.Using the check boxes, select a single text column to use for term extraction.

TermeTerm
Fournissez un nom pour la colonne de sortie qui contiendra les termes extraits.Provide a name for the output column that will contain the extracted terms.

ScoreScore
Fournissez un nom pour la colonne de sortie qui contiendra le score de chaque terme extrait.Provide a name for the output column that will contain the score for each extracted term.

Configurer la sortie d’erreurConfigure Error Output
Utilisez la boîte de dialogue Configurer l’affichage des erreurs pour spécifier la gestion des erreurs dans les lignes qui provoquent des erreurs.Use the Configure Error Output dialog box to specify error handling for rows that cause errors.

Éditeur de transformation d'extraction de terme (onglet Exclusion)Term Extraction Transformation Editor (Exclusion Tab)

Utilisez l'onglet Exclusion de la boîte de dialogue Éditeur de transformation d'extraction de terme pour définir une connexion à une table de connexion et les colonnes qui contiennent des termes d'exclusion.Use the Exclusion tab of the Term Extraction Transformation Editor dialog box to set up a connection to an exclusion table and specify the columns that contain exclusion terms.

OptionsOptions

Utiliser les termes d'exclusionUse exclusion terms
Indique si vous voulez exclure des termes au cours de l'extraction de termes en définissant une colonne qui contient les termes d'exclusion.Indicate whether to exclude specific terms during term extraction by specifying a column that contains exclusion terms. Vous devez définir les propriétés sources suivantes si vous choisissez d'exclure des termes.You must specify the following source properties if you choose to exclude terms.

Gestionnaire de connexions OLE DBOLE DB connection manager
Sélectionnez un gestionnaire de connexions OLE DB existant ou créez une connexion en cliquant sur Nouvelle.Select an existing OLE DB connection manager, or create a new connection by clicking New.

NouveauNew
Créez une connexion à une base de données à l’aide de la boîte de dialogue Configurer le Gestionnaire de connexions OLE DB .Create a new connection to a database by using the Configure OLE DB Connection Manager dialog box.

Table ou vueTable or view
Sélectionnez la table ou la vue qui contient les termes d'exclusion.Select the table or view that contains the exclusion terms.

ColonneColumn
Sélectionnez la colonne de la table ou de la vue qui contient les termes d'exclusion.Select the column in the table or view that contains the exclusion terms.

Configurer la sortie d’erreurConfigure Error Output
Utilisez la boîte de dialogue Configurer l’affichage des erreurs pour spécifier la gestion des erreurs dans les lignes qui provoquent des erreurs.Use the Configure Error Output dialog box to specify error handling for rows that cause errors.

Éditeur de transformation d'extraction de terme (onglet Avancé)Term Extraction Transformation Editor (Advanced Tab)

Utilisez l’onglet Avancé de la boîte de dialogue Éditeur de transformation d’extraction de terme pour définir les propriétés de l’extraction, telles que la fréquence et la longueur, et indiquer si les mots ou les phrases doivent être extraits.Use the Advanced tab of the Term Extraction Transformation Editor dialog box to specify properties for the extraction such as frequency, length, and whether to extract words or phrases.

OptionsOptions

NomNoun
Indique que la transformation extrait uniquement des noms individuels.Specify that the transformation extracts individual nouns only.

Expression nominaleNoun phrase
Indique que la transformation extrait uniquement des expressions nominales.Specify that the transformation extracts noun phrases only.

Nom et expression nominaleNoun and noun phrase
Indique que la transformation extrait des noms et des expressions nominales.Specify that the transformation extracts both nouns and noun phrases.

FréquenceFrequency
Indique que le score correspond à la fréquence du terme.Specify that the score is the frequency of the term.

TFIDFTFIDF
Indique que le score correspond à la valeur TFIDF du terme.Specify that the score is the TFIDF value of the term. Le score TFIDF est le produit de la fréquence des termes et de la fréquence inverse de documents, défini comme suit : TFIDF d’un terme T = (fréquence de T) * journal((nombre de lignes en entrée) / (nombre de lignes comportant T))The TFIDF score is the product of Term Frequency and Inverse Document Frequency, defined as: TFIDF of a Term T = (frequency of T) * log( (#rows in Input) / (#rows having T) )

Seuil de fréquenceFrequency threshold
Définissez le nombre d'occurrences d'un mot ou d'une expression avant son extraction.Specify the number of times a word or phrase must occur before extracting it. La valeur par défaut est 2.The default value is 2.

Longueur maximale du termeMaximum length of term
Définissez la longueur maximale d'une expression en nombre de mots.Specify the maximum length of a phrase in words. Cette option affecte uniquement les expressions nominales.This option affects noun phrases only. La valeur par défaut est 12.The default value is 12.

Utiliser l'extraction de terme respectant la casseUse case-sensitive term extraction
Indiquez si l'extraction doit respecter la casse.Specify whether to make the extraction case-sensitive. La valeur par défaut est False.The default is False.

Configurer la sortie d'erreurConfigure Error Output
Utilisez la boîte de dialogue Configurer l’affichage des erreurs pour spécifier la gestion des erreurs dans les lignes qui provoquent des erreurs.Use the Configure Error Output dialog box to specify error handling for rows that cause errors.

Voir aussiSee Also

Guide de référence des erreurs et des messages propres à Integration Services Integration Services Error and Message Reference
Transformation de recherche de termeTerm Lookup Transformation