transformation de recherche de termeTerm Lookup Transformation

APPLIES TO: yesSQL Server, including on Linux yesAzure SQL Database yesAzure SQL Data Warehouse noParallel Data Warehouse

La transformation de recherche de terme met en correspondance des termes extraits de texte d'une colonne d'entrée de transformation avec les termes d'une table de référence.The Term Lookup transformation matches terms extracted from text in a transformation input column with terms in a reference table. Elle compte ensuite le nombre de fois où un terme de la table de recherche apparaît dans le dataset d'entrée, puis écrit ce nombre et le terme de la table de référence dans les colonnes de la sortie de la transformation.It then counts the number of times a term in the lookup table occurs in the input data set, and writes the count together with the term from the reference table to columns in the transformation output. Cette transformation est utile pour créer une liste personnalisée de termes reposant sur le texte d'entrée et complétée de statistiques de fréquence.This transformation is useful for creating a custom word list based on the input text, complete with word frequency statistics.

Avant d'effectuer une recherche, la transformation de recherche de terme extrait des mots du texte dans une colonne d'entrée à l'aide de la même méthode que la transformation d'extraction de terme :Before the Term Lookup transformation performs a lookup, it extracts words from the text in an input column using the same method as the Term Extraction transformation:

  • Le texte est divisé en phrases.Text is broken into sentences.

  • Les phrases sont divisées en mots.Sentences are broken into words.

  • Les mots sont normalisés.Words are normalized.

Il est possible de configurer la transformation de recherche de terme de manière à effectuer une mise en correspondance respectant la casse.To further customize which terms to match, the Term Lookup transformation can be configured to perform a case-sensitive match.

CorrespondancesMatches

La recherche de terme effectue une recherche et renvoie une valeur en suivant les règles ci-dessous :The Term Lookup performs a lookup and returns a value using the following rules:

  • Si la transformation est configurée pour effectuer des mises en correspondance respectant la casse, les termes ne correspondant pas à la casse sont ignorés.If the transformation is configured to perform case-sensitive matches, matches that fail a case-sensitive comparison are discarded. Par exemple, étudiant et ÉTUDIANT sont considérés comme des termes distincts.For example, student and STUDENT are treated as separate words.

    Notes

    Un mot dont la première lettre est une minuscule peut être mis en correspondance avec un mot dont la première lettre est une majuscule en début de phrase.A non-capitalized word can be matched with a word that is capitalized at the beginning of a sentence. Par exemple, étudiant et Étudiant sont mis en correspondance si Étudiant est le premier mot de la phrase.For example, the match between student and Student succeeds when Student is the first word in a sentence.

  • Si une forme plurielle du nom ou de la phrase nominale existe dans la table de référence, la recherche met en correspondance uniquement la forme plurielle du nom ou de la phrase nominale.If a plural form of the noun or noun phrase exists in the reference table, the lookup matches only the plural form of the noun or noun phrase. Par exemple, les instances de étudiants et de étudiantsont comptabilisées de façon distincte.For example, all instances of students would be counted separately from the instances of student.

  • Si seule la forme singulier du mot se trouve dans la table de référence, les formes singulier et pluriel du mot ou de la phrase sont mises en correspondance avec la forme singulier.If only the singular form of the word is found in the reference table, both the singular and the plural forms of the word or phrase are matched to the singular form. Par exemple, si la table de recherche contient étudiantet que la transformation trouve les mots étudiant et étudiants, ces deux mots seront comptabilisées comme des correspondances du terme étudiant.For example, if the lookup table contains student, and the transformation finds the words student and students, both words would be counted as a match for the lookup term student.

  • Si le texte de la colonne d'entrée est une phrase nominale contenant des lemmes, seul le dernier mot de la phrase nominale est affecté par la normalisation.If the text in the input column is a lemmatized noun phrase, only the last word in the noun phrase is affected by normalization. Par exemple, la version avec lemmes de visites avec les médecins est visite avec les médecins.For example, the lemmatized version of doctors appointments is doctors appointment.

Quand un élément de recherche contient des termes débordant du cadre de référence, autrement dit si un sous-terme est trouvé dans plusieurs enregistrements de référence, la transformation de recherche de terme ne retourne qu’un seul résultat de recherche.When a lookup item contains terms that overlap in the reference set-that is, a sub-term is found in more than one reference record-the Term Lookup transformation returns only one lookup result. L'exemple suivant illustre le résultat trouvé lorsqu'un élément de recherche présente un sous-terme de chevauchement.The following example shows the result when a lookup item contains an overlapping sub-term. Dans cet exemple, le sous-terme est Windows, que l’on retrouve dans deux termes de référence.The overlapping sub-term in this case is Windows, which is found within two reference terms. Toutefois, la transformation ne retourne pas deux résultats, mais un seul terme de référence uniquement, Windows.However, the transformation does not return two results, but returns only a single reference term, Windows. Le second terme de référence, Windows 7 Professionnel, n’est pas retourné.The second reference term, Windows 7 Professional, is not returned.

ÉlémentItem ValeurValue
Terme entréInput term Windows 7 ProfessionnelWindows 7 Professional
Termes de référenceReference terms Windows, Windows 7 ProfessionnelWindows, Windows 7 Professional
SortieOutput WindowsWindows

La transformation de recherche de terme peut mettre en correspondance des noms et des phrases nominales contenant des caractères spéciaux. Les données de la table de référence peuvent inclure ces caractères.The Term Lookup transformation can match nouns and noun phrases that contain special characters, and the data in the reference table may include these characters. Les caractères spéciaux sont les suivants : %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, " et '.The special characters are as follows: %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, ", and '.

Types de donnéesData Types

La transformation de recherche de terme ne peut utiliser qu'une colonne contenant le type de données DT_WSTR ou DT_NTEXT.The Term Lookup transformation can only use a column that has either the DT_WSTR or the DT_NTEXT data type. Si une colonne contient du texte, mais pas l'un de ces types de données, la transformation de conversion de données peut ajouter une colonne avec le type de données DT_WSTR ou DT_NTEXT au flux de données, puis copier les valeurs de la colonne dans cette nouvelle colonne.If a column contains text, but does not have one of these data types, the Data Conversion transformation can add a column with the DT_WSTR or DT_NTEXT data type to the data flow and copy the column values to the new column. La sortie de la transformation de conversion de données peut ensuite être utilisée comme entrée de la transformation de recherche de terme.The output from the Data Conversion transformation can then be used as the input to the Term Lookup transformation. Pour plus d’informations, voir Data Conversion Transformation.For more information, see Data Conversion Transformation.

Configuration de la transformation de recherche de termeConfiguration the Term Lookup Transformation

Les colonnes d’entrée de la transformation de recherche de terme incluent la propriété InputColumnType, qui indique l’utilisation de la colonne.The Term Lookup transformation input columns includes the InputColumnType property, which indicates the use of the column. InputColumnType peut contenir les valeurs ci-dessous :InputColumnType can contain the following values:

  • La valeur 0 indique que la colonne est transmise à la sortie uniquement et n'est pas utilisée dans la recherche.The value 0 indicates the column is passed through to the output only and is not used in the lookup.

  • La valeur 1 indique que la colonne est utilisée dans la recherche uniquement.The value 1 indicates the column is used in the lookup only.

  • La valeur 2 indique que la colonne est transmise à la sortie et est utilisée dans la recherche.The value 2 indicates the column is passed through to the output, and is also used in the lookup.

Les colonnes de sortie de la transformation, dont la propriété InputColumnType a la valeur 0 ou 2, sont accompagnées de la propriété CustomLineageID, qui contient l’identificateur de lignage affecté à la colonne par un composant amont du flux de données.Transformation output columns whose InputColumnType property is set to 0 or 2 include the CustomLineageID property for a column, which contains the lineage identifier assigned to the column by an upstream data flow component.

La transformation de recherche de terme ajoute deux colonnes à la sortie de la transformation, dont les noms par défaut sont Term et Frequency.The Term Lookup transformation adds two columns to the transformation output, named by default Term and Frequency. Term contient un terme issu de la table de recherche et Frequency contient le nombre d’occurrences du terme de la table de référence dans le jeu de données d’entrée.Term contains a term from the lookup table and Frequency contains the number of times the term in the reference table occurs in the input data set. Ces colonnes n’incluent pas la propriété CustomLineageID.These columns do not include the CustomLineageID property.

La table de recherche doit être une table d'une base de données SQL ServerSQL Server ou Access.The lookup table must be a table in a SQL ServerSQL Server or an Access database. Si la sortie de la transformation d'extraction de terme est enregistrée dans une table, cette table peut être utilisée comme table de référence (sachant que les autres tables peuvent également être utilisées).If the output of the Term Extraction transformation is saved to a table, this table can be used as the reference table, but other tables can also be used. Pour pouvoir utiliser la transformation de recherche de terme sur le texte de fichiers plats, de classeurs Excel ou d’autres sources, vous devez les importer dans une base de données SQL ServerSQL Server ou Access.Text in flat files, Excel workbooks or other sources must be imported to a SQL ServerSQL Server database or an Access database before you can use the Term Lookup transformation.

La transformation de recherche de terme utilise une connexion OLE DB distincte pour se connecter à la table de référence.The Term Lookup transformation uses a separate OLE DB connection to connect to the reference table. Pour plus d’informations, consultez OLE DB Connection Manager.For more information, see OLE DB Connection Manager.

La transformation de recherche de terme fonctionne en mode de mise en cache globale préalable.The Term Lookup transformation works in a fully precached mode. Au moment de l'exécution, elle lit les termes de la table de référence et les stocke dans sa mémoire privée avant de traiter toute ligne d'entrée de la transformation.At run time, the Term Lookup transformation reads the terms from the reference table and stores them in its private memory before it processes any transformation input rows.

Dans la mesure où les termes d'une ligne de colonne d'entrée peuvent se répéter, la sortie de la transformation de recherche de terme contient généralement plus de lignes que l'entrée de la transformation.Because the terms in an input column row may repeat, the output of the Term Lookup transformation typically has more rows than the transformation input.

La transformation comporte une entrée et une sortie.The transformation has one input and one output. Elle ne prend pas en charge les sorties d'erreur.It does not support error outputs.

Vous pouvez définir les propriétés par le biais du concepteur SSISSSIS ou par programmation.You can set properties through SSISSSIS Designer or programmatically.

Pour plus d'informations sur les propriétés définissables dans la boîte de dialogue Éditeur avancé ou par programmation, cliquez sur l'une des rubriques suivantes :For more information about the properties that you can set in the Advanced Editor dialog box or programmatically, click one of the following topics:

Pour plus d’informations sur la façon de définir les propriétés, consultez Définir les propriétés d’un composant de flux de données.For more information about how to set properties, see Set the Properties of a Data Flow Component.

Éditeur de transformation de recherche de terme (onglet Recherche de terme)Term Lookup Transformation Editor (Term Lookup Tab)

L'onglet Recherche de terme de la boîte de dialogue Éditeur de transformation de recherche de terme permet de mapper une colonne d'entrée à une colonne de recherche dans une table de référence et de fournir un alias pour chaque colonne de sortie.Use the Term Lookup tab of the Term Lookup Transformation Editor dialog box to map an input column to a lookup column in a reference table and to provide an alias for each output column.

OptionsOptions

Colonnes d'entrée disponiblesAvailable Input Columns
À l'aide des cases à cocher, sélectionnez les colonnes d'entrées à transmettre telles quelles à la sortie.Using the check boxes, select input columns to pass through to the output unchanged. Faites glisser une colonne d'entrée vers la liste Colonnes de référence disponibles pour la mapper sur une colonne de recherche dans la table de référence.Drag an input column to the Available Reference Columns list to map it to a lookup column in the reference table. Les types de données prises en charge par les colonnes d'entrée et de recherche doivent correspondre et avoir pour valeur DT_NTEXT ou DT_WSTR.The input and lookup columns must have matching, supported data types, either DT_NTEXT or DT_WSTR. Sélectionnez une ligne de mappage et cliquez avec le bouton droit pour modifier les mappages dans la boîte de dialogue Créer des relations .Select a mapping line and right-click to edit the mappings in the Create Relationships dialog box.

Colonnes de référence disponiblesAvailable Reference Columns
Affiche les colonnes disponibles dans la table de référence.View the available columns in the reference table. Choisissez la colonne qui contient la liste de termes correspondants.Choose the column that contains the list of terms to match.

Colonne SQL directePass-Through Column
Permet de sélectionner des colonnes dans la liste des colonnes d'entrée disponibles.Select from the list of available input columns. Vos sélections se reflètent dans les sélections des cases à cocher de la table Colonnes d'entrée disponibles .Your selections are reflected in the check box selections in the Available Input Columns table.

Alias de colonne de sortieOutput Column Alias
Permet de saisir un alias pour chaque colonne de sortie.Type an alias for each output column. La valeur par défaut correspond au nom de la colonne. Cependant, vous pouvez choisir un nom unique descriptif.The default is the name of the column; however, you can choose any unique, descriptive name.

Configurer la sortie d’erreurConfigure Error Output
Utilisez la boîte de dialogue Configurer l’affichage des erreurs pour spécifier les options de gestion des erreurs dans les lignes qui provoquent des erreurs.Use the Configure Error Output dialog box to specify error handling options for rows that cause errors.

Éditeur de transformation de recherche de terme (onglet Table de référence)Term Lookup Transformation Editor (Reference Table Tab)

Utilisez l’onglet Table de référence de la boîte de dialogue Éditeur de transformation de recherche de terme pour définir la connexion à la table de référence (recherche).Use the Reference Table tab of the Term Lookup Transformation Editor dialog box to specify the connection to the reference (lookup) table.

OptionsOptions

Gestionnaire de connexions OLE DBOLE DB connection manager
Sélectionnez un gestionnaire de connexions existant dans la liste ou créez une nouvelle connexion en cliquant sur Nouveau.Select an existing connection manager from the list, or create a new connection by clicking New.

NouveauNew
Crée une connexion en utilisant la boîte de dialogue Configurer le gestionnaire de connexions OLE DB .Create a new connection by using the Configure OLE DB Connection Manager dialog box.

Nom de la table de référenceReference table name
Sélectionnez une table ou une vue de recherche dans la base de données en sélectionnant un élément dans la liste.Select a lookup table or view from the database by selecting an item from the list. La table ou la vue doit contenir une colonne avec une liste de termes existante à laquelle le texte de la colonne source peut être comparé.The table or view should contain a column with an existing list of terms that the text in the source column can be compared to.

Configurer la sortie d’erreurConfigure Error Output
Utilisez la boîte de dialogue Configurer l’affichage des erreurs pour spécifier les options de gestion des erreurs dans les lignes qui provoquent des erreurs.Use the Configure Error Output dialog box to specify error handling options for rows that cause errors.

Éditeur de transformation de recherche de terme (onglet Avancé).Term Lookup Transformation Editor (Advanced Tab)

Utilisez l’onglet Avancé de la boîte de dialogue Éditeur de transformation de recherche de terme pour spécifier si la recherche doit respecter la casse.Use the Advanced tab of the Term Lookup Transformation Editor dialog box to specify whether lookup should be case-sensitive.

OptionsOptions

Utiliser la recherche de terme respectant la casseUse case-sensitive term lookup
Indique si la recherche respecte la casse.Indicate whether the lookup is case-sensitive. La valeur par défaut est False.The default is False.

Configurer la sortie d’erreurConfigure Error Output
Utilisez la boîte de dialogue Configurer l’affichage des erreurs pour spécifier les options de gestion des erreurs dans les lignes qui provoquent des erreurs.Use the Configure Error Output dialog box to specify error handling options for rows that cause errors.

 Voir aussiSee Also

Guide de référence des erreurs et des messages propres à Integration Services Integration Services Error and Message Reference
Transformation d'extraction de termeTerm Extraction Transformation