Baliser les documents

En catégorisant les documents que vous avez téléchargés, vous apprenez à votre modèle AI Builder à extraire les champs et les tables que vous avez spécifiés.

Pour commencer la catégorisation, sélectionnez l’une des collections dans le volet de droite.

Catégoriser des champs

Pour baliser un champ, il suffit de tracer un rectangle autour du champ qui vous intéresse et de sélectionner le nom du champ auquel il correspond.

Animation des champs de balisage dans un document.

Vous pouvez le redimensionner à tout moment pour ajuster votre sélection.

Si un champ se termine sur une ligne et commence sur une autre, vous pouvez le baliser à l’aide de l’option ’Continuer le marquage’.

Animation de la catégorisation de plusieurs mots et sauts de ligne.

Vous pouvez également utiliser la clé Contrôle dans Windows ou Commande dans macOS pour baliser plusieurs mots à la fois. Vous pouvez également utiliser la touche Majuscule pour sélectionner le premier et le dernier mot pour étiqueter tous les mots entre les deux.

Lorsque vous survolez des mots dans vos documents, des cadres bleu clair peuvent apparaître. Ils indiquent que vous pouvez dessiner un rectangle autour de ces mots pour sélectionner un champ.

Capture d’écran de la sélection des champs en gros plan.

Pour le modèle de factures personnalisé uniquement

Vous pouvez remplacer le comportement d’un champ par défaut en redessinant un cadre englobant existant.

Capture d’écran du remplacement du comportement d’un champ par défaut.

Les champs par défaut de la facture qui n’ont pas été automatiquement détectés dans votre document sont marqués comme « Pas dans le document ». Vous pouvez modifier ce paramètre en Disponible dans le document et le marquer manuellement s’il est présent.

Capture d’écran du champ disponible dans le document.

Lors du balisage, sélectionnez Personnalisé pour afficher la liste des champs non balisés que vous avez ajoutés, et sélectionnez Par défaut pour afficher les champs par défaut non balisés marqués comme « Disponibles dans le document ».

Capture d’écran de la vue par défaut.

Catégoriser des tables

  1. Dessinez un rectangle autour de la table dans le document qui vous intéresse, puis sélectionnez le nom de table correspondant. Le contenu du volet à droite est modifié.

  2. Dessinez des lignes en cliquant avec le bouton gauche entre les séparateurs de lignes.

  3. Dessinez des colonnes en appuyant sur Ctrl + clic gauche.

  4. Une fois les lignes et les colonnes définies, affectez les en-têtes à extraire en sélectionnant la colonne d’en-tête et en la mappant à celle souhaitée.

  5. Un aperçu de la façon dont le tableau sera extrait apparaît dans le panneau de droite.

  6. Si l’en-tête du tableau a été balisé, sélectionnez Ignorer la première ligne afin que l’en-tête du tableau ne soit pas extrait en tant que contenu du tableau.

L’animation suivante illustre ce processus :

Animation du balisage d’une table dans un document.

Une autre façon de définir les lignes et les colonnes d’un tableau consiste à sélectionner Délimiter les lignes et les colonnes en haut de l’écran.

Capture d’écran de Délimiter les lignes et les colonnes.

Utiliser le mode de balisage avancé

Le mode de balisage avancé vous permet de baliser les tableaux au niveau de la cellule. Utilisez ce mode pour les tableaux complexes tels que :

  • Tableaux asymétriques, où le balisage avec une grille n’est pas possible.
  • Lorsque vous devez extraire des éléments imbriqués, comme un élément dans une cellule.

Étant donné le tableau de l’exemple suivant, pour extraire le prix unitaire, nous le définirons comme une colonne distincte à l’étape Choisir les informations à extraire. Nous définissons Description, Prix unitaire, Quantité et Montant en tant que colonne individuelle du tableau et les balisons en conséquence en utilisant le mode de balisage avancé. Consultez l’animation ci-dessous.

Animation de Délimiter les lignes et les colonnes.

Vous pouvez commencer à baliser dans le mode par défaut pour capturer rapidement toutes les lignes et colonnes. Passez ensuite en mode avancé pour ajuster chaque cellule et baliser les éléments imbriqués.

Éléments imbriqués dans les tableaux

Vous pouvez catégoriser des éléments imbriqués dans une ligne en les définissant comme des colonnes. Étant donné le tableau de l’exemple ci-dessous, pour extraire le prix unitaire, nous le définirons comme une colonne distincte à l’étape Choisir les informations à extraire auparavant dans cette rubrique. Définissez Description, Prix unitaire, Quantité et Montant en tant que colonne individuelle du tableau et les balisons en conséquence.

Capture d’écran du balisage des éléments imbriqués dans les tables.

Tables à plusieurs pages

Si une table s’étend sur plusieurs pages, assurez-vous de le baliser sur toutes les pages. Une fois que vous avez terminé de baliser le tableau sur une page, sélectionnez Ce tableau continue à la page suivante et continuez à baliser le tableau sur la page suivante. Ce faisant, vous apprendrez au modèle que le tableau peut s’étendre sur plusieurs pages.

Capture d’écran montrant qu’il faut sélectionner l’option « Ce tableau continue sur la page suivante » pour continuer à baliser un tableau qui s’étend sur plusieurs pages.

Une fois que vous avez tagué toutes les pages où le tableau est présent. Sélectionner Terminé pour marquer la table comme entièrement étiquetée.

Vous pouvez marquer des tableaux complexes qui ont des cellules fusionnées, des éléments imbriqués, des bordures ou aucune bordure, ou même des éléments inattendus comme une tache de café, comme illustré dans l’exemple suivant.

Capture d’écran montrant qu’il faut sélectionner l’option « Terminé » une fois que le tableau a été balisé dans toutes les pages.

Pourboire

Comme bonne pratique, assurez-vous de charger des documents pour la formation avec les variations attendues. Par exemple, incluez des exemples où le tableau entier se trouve sur une seule page et où les tableaux s’étendent sur deux pages ou plus.

Baliser des cases à cocher

Pour baliser une case à cocher, il suffit de tracer un rectangle autour de la case à cocher que vous souhaitez extraire et de sélectionner le nom de la case à cocher à laquelle il correspond.

Animation du balisage d’une case à cocher.

Si la qualité du document est faible, AI Builder peut ne pas être en mesure de détecter la case à cocher. Si vous ne pouvez pas baliser une case à cocher, procédez comme suit :

  1. Dans le panneau de droite, sélectionnez les trois points à côté de la case à cocher que vous souhaitez extraire.

  2. Sélectionnez Non disponible dans le document.

AI Builder prend en charge la détection et l’extraction des marques de sélection telles que les cases à cocher et les boutons radio, avec différents marqueurs pour indiquer si la sélection est marquée ou non.

Champ, case à cocher ou table absent(e) d’un document ou d’une collection

Si un champ, une case à cocher ou une table n’est pas présent dans l’un des documents ou la collection que vous avez téléchargés pour la formation, sélectionnez Non disponible dans le document ou Non disponible dans la collection sur le panneau de droite, à côté d’un champ, d’une case à cocher ou d’une table.

Animation d’un champ ou d’une table absente d’un document ou d’une collection.

Catégoriser tous les documents dans toutes les collections

Tous les documents que vous avez chargés sont affichés afin que vous puissiez les baliser. Si vous avez créé plusieurs collections, étiquetez tous les documents dans toutes les collections.

Si les champs ne peuvent pas être balisés dans votre document, accédez à Les champs n’ont pas pu être chargés pour ce document pour d’éventuelles résolutions.

Étape suivante

Extraire des dates et des nombres

Voir aussi

Formation : traiter les documents personnalisés avec AI Builder (module)