Présentation de la compréhension de documentDocument understanding overview



La compréhension de document utilise les modèles de renseignements artificiels pour automatiser la classification des fichiers et l’extraction des informations.Document understanding uses artificial intelligence (AI) models to automate classification of files and extraction of information. Il fonctionne de façon optimale avec les documents non structurés, tels que les lettres ou les contrats.It works best with unstructured documents, such as letters or contracts. Ces documents doivent comporter du texte qui peut être identifié sur la base de phrases ou de modèles.These documents must have text that can be identified based on phrases or patterns. Le texte identifié désigne à la fois le type de fichier (sa classification) et ce que vous voulez extraire (ses extracteurs).The identified text designates both the type of file it is (its classification) and what you'd like to extract (its extractors).

Notes

Pour plus d’informations sur les exemples de scénarios relatifs aux exemples de scénarios, consultez l’article SharePoint Syntex adoption : Guide de démarrage.See the SharePoint Syntex adoption: Get started guide for more information about document understanding scenario examples.

Les modèles de compréhension de document sont créés et gérés dans un site de type SharePoint appelé un centre de contenu .Document understanding models are created and managed in a type of SharePoint site called a content center. Lorsqu’il est appliqué à une bibliothèque de documents SharePoint, le modèle associé à un type de contenu inclut des colonnes pour stocker les informations extraites.When applied to a SharePoint document library, the model is associated with a content type has columns to store the information being extracted. Le type de contenu que vous créez est stocké dans la Galerie de types de contenu SharePoint.The content type you create is stored in the SharePoint content type gallery. Vous pouvez également choisir d’utiliser des types de contenu existants pour utiliser leur schéma.You can also choose to use existing content types to use their schema.

Notes

Les types de contenus scellés ou en lecture seule ne peuvent pas être mis à jour. Ils ne peuvent donc pas être utilisés dans un modèle.Read-only or sealed content types cannot be updated, so they cannot be used in a model.

Ajoutez des classificateurs et des extracteurs à votre document présentation des modèles pour effectuer les opérations suivantes :Add classifiers and extractors to your document understanding models to do the following:

  • Les classificateurs sont utilisés pour identifier et classer les documents téléchargés vers la bibliothèque de documents.Classifiers are used to identify and classify documents that are uploaded to the document library. Par exemple, un classifieur peut être « exercé » pour identifier tous les documents renouvellement de contrat qui sont chargés dans la bibliothèque.For example, a classifier can be "trained" to identify all contract renewal documents that are uploaded to the library. Le type de contenu renouvellement contrat est défini par vous lorsque vous créez votre classifieur.The contract renewal content type is defined by you when you create your classifier.

  • Les extracteurs extraient des informations de ces documents.Extractors pull information from these documents. Par exemple, pour tous les documents de renouvellement de contrat identifiés dans votre bibliothèque de documents, les colonnes s’affichent dans votre affichage qui indiquent également la date de début du service et client pour chaque document de renouvellement de contrat.For example, for all contract renewal documents identified in your document library, columns display in your view that also show the Service Start Date and Client for each contract renewal document.

Vous pouvez utiliser des fichiers d’exemple pour former et tester vos classificateurs et extracteurs de votre modèle.You can use example files to train and test your classifiers and extractors in your model. Les exemples de fichiers fournissent vos exemples de modèles à rechercher lorsque vous essayez d’identifier et d’extraire des données de fichiers.Example files provide your model examples of what to look for when trying to identify and extract data from files. Par exemple, vous devez former vos classificateurs et extracteurs de renouvellement de contrat avec des exemples de documents de renouvellement de contrat que votre entreprise utilise.For example, you would train your contract renewal classifiers and extractors with examples of contract renewal documents your company works with. Vous pouvez également utiliser des exemples de fichiers pour tester l’efficacité de votre modèle.You can also use example files to test the effectiveness of your model.

Une fois que vous avez publié votre modèle, utilisez le centre de contenu pour l’appliquer à toute bibliothèque de documents SharePoint à laquelle vous avez accès.After publishing your model, use the content center to apply it to any SharePoint document library that you have access to.

Limitations de fichierFile limitations

Les modèles de compréhension des documents utilisent la technologie OCR (Optical Character Recognition) pour analyser les fichiers PDF, images et TIFF, à la fois lorsque vous entraînez un modèle avec des exemples de fichiers et lorsque vous l’exécutez sur des fichiers dans une bibliothèque de documents.Document understanding models use Optical Character Recognition (OCR) technology to scan PDFs, images, and TIFF files, both when you train a model with example files and when you run the model against files in a document library.

Notez les différences suivantes en ce qui concerne les fichiers texte Microsoft Office et les fichiers OCR numérisés (PDF, image ou TIFF) :Note the following differences in regards to Microsoft Office text-based files and OCR-scanned files (PDF, image, or TIFF):

  • Fichiers Office : nous tronquons à 64 000 caractères (lors de la formation et de l’exécuter sur des fichiers dans une bibliothèque de documents).Office files: We truncate at 64K characters (in training and when run against files in a document library).
  • Fichiers numérisés par OCR : la limite est de 20 pages.OCR-scanned files: There is a 20 page limit.

Types de fichiers pris en chargeSupported file types

Les modèles de compréhension des documents suivent les types de fichiers suivants :Document understanding models support the following file types:

  • docdoc
  • docxdocx
  • emleml
  • heicheic
  • heifheif
  • htmhtm
  • htmlhtml
  • jpegjpeg
  • jpgjpg
  • Markdownmarkdown
  • mdmd
  • msgmsg
  • pdfpdf
  • pngpng
  • pptppt
  • pptxpptx
  • rtfrtf
  • tiftif
  • tifftiff
  • txttxt
  • xlsxls
  • xlsxxlsx

Voir aussiSee Also

Créer un classificateurCreate a classifier

Créer un extracteurCreate an extractor

Créer un centre de contenuCreate a content center

Créer un modèle de traitement de formulaireCreate a form processing model

Appliquer un modèleApply a model

Différence entre la compréhension de document et les modèles de traitement de formulaireDifference between a document understanding and a form processing model

Vue d’ensemble du traitement des formulairesForm processing overview

Mode d’accessibilité Syntex de SharePointSharePoint Syntex Accessibility Mode