Créer un extracteur dans Microsoft SharePoint SyntexCreate an extractor in Microsoft SharePoint Syntex



La création d’un modèle de classifieur sert à automatiser l’identification et la classification de types de documents spécifiques. Avant ou après cette opération, vous pouvez, si vous le souhaitez, ajouter des extracteurs à votre modèle pour extraire des informations spécifiques de ces documents.Before or after you create a classifier model to automate identification and classification of specific document types, you can optionally choose to add extractors to your model to pull out specific information from these documents. Par exemple, vous souhaiterez sans doute que votre modèle identifie tous les documents Renouvellement de contrat ajoutés à votre bibliothèque de documents. Vous souhaiterez sans doute, également, qu’il affiche la date de démarrage du service de chaque document sous la forme d’une valeur de colonne dans la bibliothèque de documents.For example, you may want your model not only to identify all Contract Renewal documents added to your document library, but also to display the Service Start date for each document as a column value in the document library.

Vous devez créer un extracteur pour chaque entité dans le document à extraire.You need to create an extractor for each entity in the document that you want to extract. Dans notre exemple, nous devons extraire la  date de démarrage du service  de chaque ** document Renouvellement de contrat**  identifié par le modèle.In our example, we want to extract the Service Start Date for each Contract Renewal document that is identified by the model. Nous devons pouvoir consulter dans la bibliothèque de documents une vue de tous les documents  Renouvellement de contrat , avec une colonne qui affiche la date de démarrage du service de chaque document.We want to be able to see a view in the document library of all  Contract Renewal documents, with a column that shows the Service Start date value of each document.

Notes

Pour créer un extracteur, utilisez les fichiers déjà chargés pour entraîner le classifieur.In order to create an extractor, you use the same files you previously uploaded to train the classifier.

Nommer votre extracteurName your extractor

  1. Depuis la page d’accueil du modèle, dans la mosaïque Créer et entraîner des extracteurs, cliquez sur Entraîner un extracteur.From the model home page, in the Create and train extractors tile, click Train extractor.
  2. À l’écran Nouvel extracteur d’entités, tapez le nom de votre extracteur dans le champ Nom du nouvel extracteur.On the New entity extractor screen, type the name of your extractor in the New extractor name field. Par exemple, nommez-le Date de démarrage du service si vous souhaitez extraire la date de démarrage du service à partir de chaque document Renouvellement de contrat.For example, name it Service Start Date if you want to extract the service start date from each Contract Renewal document. Vous pouvez également choisir de réutiliser une colonne précédemment créée (par exemple, une colonne de métadonnées gérées).You can also choose to reuse a previously created column (for example, a managed metadata column).

Notes

Si vous créez un nouvel extracteur, sélectionnez Nouveau type de colonne, puis sélectionnez Une seule ligne de texte, la limite de caractères maximale est 255.If you create a new extractor, then select New column type and choose Single line of text, the maximum character limit is 255. Les caractères que vous tapez au-delà de la limite sont tronqués.Any characters that you type exceeding the limit get truncated. 3. Une fois que vous avez terminé, cliquez sur Créer.When you're done, click Create.

Ajouter une étiquetteAdd a label

L’étape suivante consiste à étiqueter l’entité à extraire dans vos exemples de fichiers d’entraînement.The next step is to label the entity you want to extract in your example training files.

La création de l’extracteur entraîne l’ouverture de la page correspondante.Creating the extractor opens the extractor page. Cette page affiche la liste des fichiers échantillons, le premier fichier de la liste étant affiché dans la visionneuse.Here you see a list of your sample files, with the first file on the list displayed in the viewer.

  1. Dans la visionneuse, sélectionnez les données à extraire des fichiers.From the viewer, select the data that you want to extract from the files. Par exemple, si vous souhaitez extraire la date de démarrage du service, mettez en évidence la valeur de date du premier fichier (lundi 14 octobre 2019).For example, if you want to extract the Start Service Date, you highlight the date value in the first file (Monday, October 14, 2019). Ensuite, cliquez sur Enregistrer.and then click Save. Normalement, la valeur sera affichée dans la liste d’exemples étiquetés du fichier, sous la colonne Étiquette.You should see the value display from the file in the Labeled examples list, under the Label column.

  2. Sélectionnez Fichier suivant pour enregistrer automatiquement et ouvrir le fichier suivant dans la liste de la visionneuse.Select Next file to auto save and open the next file in the list in the viewer. Vous pouvez également sélectionner Enregistrer, puis sélectionner un autre fichier dans la liste Exemples étiquetés.Or select Save and then select another file from the Labeled examples list.

  3. Dans la visionneuse, répétez les étapes 1 et 2, puis répétez l’opération jusqu’à enregistrer l’étiquette dans les cinq fichiers.In the viewer, repeat steps 1 and 2, then repeat until you saved the label in all five files.

    Paramètres avancés

Après l’étiquetage de cinq fichiers, une bannière de notification vous dit de passer à la formation.Once you labeled five files, a notification banner displays informing you to move to training. Vous pouvez choisir d’étiqueter d’autres documents ou de passer à la formation.You can choose to more label more documents or advance to training.

Utiliser la recherche pour effectuer une recherche dans votre fichierUse Find to search your file

Vous pouvez utiliser la fonctionnalité Rechercher pour rechercher une entité dans votre document que vous voulez étiqueter.You can use the Find feature to search for an entity in your document that you want to label.

Rechercher dans le fichier

La fonctionnalité Rechercher est utile si vous recherchez un document de grande taille ou si le document contient plusieurs instances de l’entité.The Find feature is useful if you are searching a large document or if there are multiple instances of the entity in the document. Si vous trouvez plusieurs instances, vous pouvez sélectionner celle dont vous avez besoin dans les résultats de recherche pour y aller dans la visionneuse afin de l’étiqueter.If you find multiple instances, you can select the one you need in the search results to go to that location in the viewer to label it.

Ajouter une explicationAdd an explanation

Dans notre exemple, nous allons créer une explication du format de l’entité proprement dit et des variations susceptibles d’apparaître dans les exemples de documents.For our example, we are going to create an explanation that provides a hint about the entity format itself and variations it may have in the sample documents. Par exemple, une date peut être affichée dans plusieurs formats différents :For example, a date value can be in a number of different formats, such as:

  • 14/10/201910/14/2019
  • 14 octobre 2019October 14, 2019
  • Lundi 14 octobre 2019Monday, October 14, 2019

Pour identifier plus facilement la date de démarrage du service, vous pouvez créer une explication de modèle.To help identify the Service Start Date you can create a pattern explanation.

  1. Dans la section Explication, sélectionnez Nouveau, puis tapez un nom (par exemple, Date).In the Explanation section, select New and type a name (for example, Date).
  2. Type : sélectionnez Liste de modèles.For Type, select Pattern list.
  3. Valeur : indiquez la variation de la date telle qu’elle apparaît dans les fichiers échantillons.For Value, provide the date variation as they appear in the sample files. Par exemple, si certaines dates apparaissent au format 0/00/0000, vous devez entrer les variations qui apparaissent dans vos documents, par exemple :For example, if you have date formats that appear as 0/00/0000, you enter any variations that appear in your documents, such as:
    • 0/0/00000/0/0000
    • 0/00/00000/00/0000
    • 00/0/000000/0/0000
    • 00/00/000000/00/0000
  4. Sélectionnez Enregistrer.Select Save.

Notes

Si vous souhaitez en savoir plus sur les types d’explications, veuillez consulter la rubrique Types d’explications.For more learn more about explanation types, see Explanation types.

Utiliser la bibliothèque d’explicationsUse the Explanation library

Pour créer des explications d’éléments tels que des dates, il est plus facile d’utiliser la bibliothèque d’explications que d’entrer manuellement toutes les variations.For creating explanations for items such as dates, it is easier to use the explanation library than to manually enter all variations. La bibliothèque d’explications est un ensemble d’explications de modèles et d’expressions prédéfinies.The explanation library is a set of pre-built phrase and pattern explanations. La bibliothèque tente d’offrir tous les formats de listes de modèles ou d’expressions courantes, comme des dates, des numéros de téléphone, des codes postaux, etc.The library tries to provides all formats for common phrase or pattern lists, such as dates, phone numbers, zip codes, and many others.

Pour l’échantillon Date de début du service, nous vous recommandons d’utiliser l’explication prédéfinie de la date dans la bibliothèque d’explications :For the Service Start Date sample, it is more efficient to use the pre-built explanation for Date in the explanation library:

  1. Dans la section Explication, sélectionnez Nouveau, puis Depuis la bibliothèque d’explications.In the Explanation section, select New, and then select From explanation library.

  2. Depuis la bibliothèque d’explications, sélectionnez Date.From the explanation library, select Date. Vous pouvez afficher toutes les variations de date reconnues.You can view all variations of date that are recognized.

  3. Sélectionnez Ajouter.Select Add.

    Bibliothèque d’explications

  4. À la page Créer une explication, les champs sont automatiquement remplis avec la date.On the Create an explanation page, the Date information from the explanation library auto fills the fields. Sélectionnez Enregistrer.Select Save.

    Date

Entraîner le modèleTrain the model

L’enregistrement de vos explications démarre l’entraînement.Saving your explanation start the training. Si votre modèle dispose d’informations suffisantes pour extraire les données de vos exemples de fichiers étiquetés, chacun d’entre eux comportera l’étiquette Correspondance.If your model has enough information to extract the data from your labeled example files, you will see each file labeled with Match.

Correspondance

Si l’explication ne dispose pas d’informations suffisante pour rechercher les données à extraire, chaque fichier est labellisé comportera l’étiquette Incompatibilité.If the explanation does not have enough information to find the data you want to extract, each file will be labeled with Mismatch. Si vous souhaitez en savoir plus sur l’incompatibilité en question, veuillez cliquer sur les fichiers incompatibles.You can click on the Mismatched files to see more information about why there was a mismatch.

Ajouter une autre explicationAdd another explanation

L’incompatibilité indique souvent que l’explication fournie ne comportait pas d’informations suffisantes pour extraire la valeur de la date de démarrage du service afin de faire correspondre les fichiers étiquetés.Often the mismatch is an indication that the explanation we provided did not provide enough information to extract the service start date value to match our labeled files. Vous devrez sans doute la modifier ou ajouter une autre explication.You may need to edit it, or add another explanation.

Dans notre exemple, vous remarquerez que la chaîne de texte Date de démarrage du service du précède toujours la valeur réelle.For our example, notice that the text string Start Service date of always precedes the actual value. Pour identifier plus facilement la date de démarrage du service, vous devez créer une explication d’expression.To help identify the Service Start Date, you need to create a phrase explanation.

  1. Dans la section Explication, sélectionnez Nouveau, puis tapez un nom (par exemple, Chaîne de préfixe).In the Explanation section, select New, and then type a name (for example, Prefix String).

  2. Type : sélectionnez Liste d’expressions.For the Type, select Phrase list.

  3. Utilisez la valeur Date de démarrage du service du.Use Service Start Date of as the value.

  4. Sélectionnez Enregistrer.Select Save.

    Chaîne de préfixe

Entraîner de nouveau le modèleTrain the model again

L’enregistrement de l’explication génère le redémarrage de l’entraînement, cette fois à l’aide des explications de l’exemple.Saving the explanation starts the training again, this time using both explanations in the example. Si votre modèle dispose d’informations suffisantes pour extraire les données des exemples de fichiers étiquetés, chacun d’entre eux comportera l’étiquette Correspondance.If your model has enough information to extract the data from the labeled example files, you see each file labeled with Match.

Si vous recevez de nouveau une incompatibilité sur vos fichiers étiquetés, vous devrez probablement créer une autre explication. Le modèle aura sans doute besoin d’informations supplémentaires sur le type de document. Sinon, vous devrez probablement envisager de modifier vos fichiers existants.If you again receive a Mismatch on your labeled files, you likely need to create another explanation to provide the model more information to identify the document type, or consider making changes to your existing ones.

Tester votre modèleTest your model

Si vous recevez une correspondance sur vos fichiers échantillons étiquetés, vous pouvez à présent tester votre modèle sur les autres exemples de fichiers non étiquetés.If you receive a match on your labeled sample files, you can now test your model on the remaining unlabeled example files. Cette étape est facultative mais utile, car elle permet d’évaluer la « pertinence » ou le degré de préparation du modèle avant utilisation, en le testant sur des fichiers pour l’instant inconnus de ce dernier.This is optional, but a useful step to evaluate the “fitness” or readiness of the model before using it, by testing it on files the model hasn’t seen before.

  1. Dans la page d’accueil du modèle, cliquez sur l’onglet Test. Le modèle s’exécute alors sur vos fichiers échantillons non étiquetés.From the model home page, click the Test tab. This runs the model on your unlabeled sample files.

  2. Dans la liste Fichiers de test, vos exemples de fichiers affichés indiquent si le modèle peut extraire les informations nécessaires.In the Test files list, your example files display to show if the model is able to extract the information you need. Utilisez ces informations pour déterminer plus facilement l’efficacité de votre classifieur lors de l’identification de vos documents.Use this information to help determine the effectiveness of your classifier in identifying your documents.

    Test de vos fichiers

Voir aussiSee Also

Créer un classifieurCreate a classifier

Types d’explicationsExplanation types

Utiliser la taxonomie du magasin de termes lors de la création d’un extracteurLeverage term store taxonomy when creating an extractor

Présentation de la compréhension de documentDocument Understanding overview

Appliquer un modèleApply a model

Mode d’accessibilité Syntex de SharePointSharePoint Syntex Accessibility Mode