Creare un estrattore in Microsoft Syntex

Si applica a: ✓ Elaborazione documenti non strutturata



Prima o dopo aver creato un modello di classificazione per automatizzare l'identificazione e la classificazione di tipi di documento specifici, è possibile scegliere di aggiungere degli estrattori al modello al fine di estrarre informazioni specifiche da tali documenti. Ad esempio, si potrebbe fare in modo che il modello non solo identifichi tutti i documenti Rinnovo del contratto aggiunti alla raccolta documenti, ma visualizzi anche la Data di avvio del servizio per ogni documento come valore di colonna nella raccolta documenti.

È necessario creare un estrattore per ogni entità nel documento che si vuole estrarre. Nell'esempio si vuole estrarre la data di inizio del servizio per ogni documento di rinnovo del contratto identificato dal modello. Si vuole essere in grado di visualizzare una visualizzazione nella raccolta documenti di tutti i documenti di rinnovo del contratto , con una colonna che mostra il valore della data di inizio del servizio di ogni documento.

Nota

Per creare un estrattore, è possibile usare gli stessi file caricati in precedenza per eseguire il training del classificatore.

Assegnare un nome all'estrattore

  1. Nella home page del modello, nel riquadro Crea ed esegui il training degli estrattori selezionare Train extractor (Esegui il training dell'estrattore).

  2. Nella schermata Nuovo estrattore di entità digitare il nome dell'estrattore nel campo Nome del nuovo estrattore. Ad esempio, assegnare il nome Data di avvio del servizio per estrarre la data di avvio del servizio da ogni documento Rinnovo del contratto. Si può anche decidere di riutilizzare una colonna creata in precedenza, ad esempio una colonna di metadati gestiti.

    Per impostazione predefinita, il tipo di colonna è Riga singola di testo. Per modificare il tipo di colonna, selezionare Impostazioni> avanzateTipo di colonna e quindi selezionare il tipo da usare.

    Screenshot della parte Impostazioni avanzate del pannello Nuovo estrattore di entità che mostra l'opzione Tipo di colonna.

    Nota

    Per gli estrattori con tipo di colonna Riga singola di testo, il limite massimo di caratteri è 255. Tutti i caratteri selezionati che superano il limite vengono troncati. Per selezionare più di 255 caratteri, scegliere il tipo di colonna Più righe di testo durante la creazione dell'estrattore.

    Per impostazione predefinita, vengono create più righe di colonne di testo con un limite alla quantità di testo che è possibile aggiungere. In questo caso, il testo estratto potrebbe essere troncato. In questo caso, è possibile usare l'impostazione Consenti lunghezza illimitata nelle raccolte documenti per rimuovere il limite.

  3. Al termine, selezionare Crea.

Aggiungere un'etichetta

Il passaggio successivo consiste nell'etichettare l'entità da estrarre nei file di training di esempio.

Quando si crea l'estrattore, viene aperta la pagina dell'estrattore. In questa pagina è presente un elenco dei file di esempio e nel visualizzatore viene mostrato il primo file nell'elenco.

  1. Nel visualizzatore selezionare i dati da estrarre dai file. Ad esempio, se si vuole estrarre la data di avvio del servizio, evidenziare il valore di data nel primo file (lunedì 14 ottobre 2022). e quindi selezionare Salva. Il valore presente nel file dovrebbe essere visualizzato nell'elenco Esempi etichettati, nella colonna Etichetta.

  2. Selezionare Avanti file per salvare automaticamente e aprire il file successivo nell'elenco nel visualizzatore. In alternativa, selezionare Salva e quindi selezionare un altro file nell'elenco Esempi etichettati.

  3. Nel visualizzatore ripetere i passaggi 1 e 2, quindi ripetere fino a salvare l'etichetta in tutti e cinque i file.

    Impostazioni avanzate.

Dopo avere etichettato cinque file, viene visualizzato un banner di notifica che indica di passare al training. È possibile decidere di etichettare altri documenti o procedere al training.

Usare Trova per eseguire ricerche nel file

È possibile usare la funzionalità Trova per cercare un'entità nel documento a cui assegnare un'etichetta.

Trova nel file.

La funzionalità Trova è utile se si esegue una ricerca in un documento di grandi dimensioni o se sono presenti più istanze dell'entità nel documento. Se si trovano più istanze, è possibile selezionare quella necessaria nei risultati della ricerca per passare a tale posizione nel visualizzatore ed etichettarla.

Aggiungere una spiegazione

Per l'esempio verrà creata una spiegazione che fornisce un suggerimento sul formato dell'entità e sulle varianti che potrebbe avere nei documenti di esempio. Ad esempio, un valore di data può essere in diversi formati, ad esempio:

  • 10/14/2022
  • 14 ottobre 2022
  • Lunedì, Ottobre 14, 2022

Per identificare la data di inizio del servizio, è possibile creare una spiegazione del modello.

  1. Nella sezione Spiegazione selezionare Nuovo e digitare un nome, ad esempio Data.
  2. In Tipo selezionare Elenco criteri.
  3. In Valore specificare le varianti della data che appaiono nei file di esempio. Ad esempio, se sono presenti formati di data visualizzati come 0/00/0000, immettere tutte le varianti presenti nei documenti, ad esempio:
    • 0/0/0000
    • 0/00/0000
    • 00/0/0000
    • 00/00/0000
  4. Seleziona Salva.

Nota

Per altre informazioni sui tipi di spiegazione, vedere Tipi di spiegazione.

Usare la libreria delle spiegazioni

Per la creazione di spiegazioni per elementi come le date, è più semplice usare la libreria di spiegazioni che immettere manualmente tutte le varianti. La raccolta di spiegazioni è un set di spiegazioni predefinite di tipo frase o criteri. La libreria tenta di fornire tutti i formati per le frasi o gli elenchi di criteri comuni, ad esempio date, numeri di telefono, codici postali e molti altri.

Per l'esempio data di inizio del servizio , è più efficiente usare la spiegazione predefinita per Date nella raccolta di spiegazioni:

  1. Nella sezione Spiegazione selezionare Nuovo e quindi Da raccolta spiegazioni.

  2. Nella raccolta di spiegazioni selezionare Data. Vengono visualizzate tutte le varianti di data riconosciute.

  3. Selezionare Aggiungi.

    Raccolta di spiegazioni.

  4. Nella pagina Crea spiegazione i campi vengono compilati automaticamente con le informazioni Data presenti nella raccolta di spiegazioni. Selezionare Salva.

    Data.

Eseguire il training del modello

Il salvataggio della spiegazione avvia il training. Se il modello dispone di informazioni sufficienti per estrarre i dati dai file di esempio etichettati, ogni file verrà etichettato con Corrispondenza.

Partita.

Se la spiegazione non dispone di informazioni sufficienti per trovare i dati da estrarre, ogni file verrà etichettato con Mancata corrispondenza. È possibile selezionare File non corrispondenti per visualizzare altre informazioni sul motivo per cui si è verificata una mancata corrispondenza.

Aggiungere un'altra spiegazione

Spesso la mancata corrispondenza indica che la spiegazione fornita non ha fornito informazioni sufficienti per estrarre il valore della data di inizio del servizio in modo che corrisponda ai file etichettati. Potrebbe essere necessario modificarlo o aggiungere un'altra spiegazione.

In questo esempio, la stringa di testo Data di avvio del servizio di precede sempre il valore effettivo. Per identificare la Data di avvio del servizio, è necessario creare una spiegazione di tipo frase.

  1. Nella sezione Spiegazione selezionare Nuovo e digitare un nome, ad esempio Stringa prefisso.

  2. In Tipo selezionare Elenco frasi.

  3. Usare Data di avvio del servizio di come valore.

  4. Selezionare Salva.

    Stringa prefisso.

Ripetere il training del modello

Quando si salva la spiegazione, viene eseguito nuovamente il training, questa volta usando entrambe le spiegazioni nell'esempio. Se il modello contiene informazioni sufficienti per estrarre i dati dai file di esempio etichettati, a ogni file sarà associata l'etichetta Corrisponde.

Se i file etichettati risultano nuovamente Non corrispondenti, probabilmente è necessario creare un'altra spiegazione per fornire ulteriori informazioni al modello per identificare il tipo di documento oppure valutare la possibilità di modificare quelle esistenti.

Testare il modello

Se viene rilevata una corrispondenza nei file di esempio etichettati, è possibile testare il modello sui rimanenti file di esempio non etichettati. Questo passaggio è facoltativo, ma utile per valutare la "idoneità" o l'idoneità del modello prima di usarlo, testandolo sui file che il modello non ha mai visto prima.

  1. Nella home page del modello selezionare la scheda Test . Verrà eseguito il modello sui file di esempio non etichettati.

  2. Nell'elenco Testa i file vengono visualizzati i file di esempio e viene mostrato se il modello è in grado di estrarre le informazioni necessarie. Usare queste informazioni per determinare l'efficacia del classificatore nell'identificazione dei documenti.

    Test sui file.

Affinare ulteriormente un estrattore

Se si dispone di entità duplicate e si vuole estrarre un solo valore o un determinato numero di valori, è possibile impostare una regola per specificare la modalità di elaborazione. Per aggiungere una regola per perfezionare le informazioni estratte, seguire questa procedura:

  1. Nella home page del modello, nella sezione Estrattori di entità selezionare l'estrattore da perfezionare e quindi selezionare Affina informazioni estratte.

    Screenshot della sezione Estrattori di entità che mostra l'opzione Affina informazioni estratte evidenziata.

  2. Nella pagina Affina informazioni estratte selezionare una delle regole seguenti:

    • Mantenere uno o più dei primi valori
    • Mantenere uno o più degli ultimi valori
    • Rimuovere i valori duplicati
    • Mantenere una o più delle prime righe
    • Mantenere una o più delle ultime righe

    Screenshot della pagina Affina informazioni estratte che mostra le opzioni delle regole.

  3. Immettere il numero di righe o valori da usare e quindi selezionare Affina.

  4. Se si vuole modificare una regola modificando il numero di righe o valori, selezionare l'estrattore da modificare, selezionare Affina informazioni estratte, modificare il numero e quindi selezionare Salva.

  5. Quando si testa l'estrattore, sarà possibile visualizzare il perfezionamento nella colonna Risultato perfezionamento dell'elenco File di test .

    Elenco File di test che mostra la colonna dei risultati del perfezionamento.

  6. Se si vuole eliminare una regola di perfezionamento in un estrattore, selezionare l'estrattore da cui si vuole rimuovere la regola, selezionare Affina informazioni estratte e quindi selezionare Elimina.

Vedere anche

Creare un classificatore

Tipi di spiegazione

Sfruttare la tassonomia dell'archivio termini durante la creazione di un estrattore

Modalità di accessibilità Syntex