Etichettare i dati in Language Studio

Prima di eseguire il training del modello, è necessario etichettare i documenti con le entità personalizzate da estrarre. L'etichettatura dei dati è un passaggio fondamentale nel ciclo di vita dello sviluppo. In questo passaggio è possibile creare i tipi di entità da estrarre dai dati e etichettare queste entità all'interno dei documenti. Questi dati verranno usati nel passaggio successivo quando si esegue il training del modello in modo che il modello possa apprendere dai dati etichettati. Se i dati sono già stati etichettati, è possibile importarlo direttamente nel progetto, ma è necessario assicurarsi che i dati seguono il formato dati accettato. Per altre informazioni sull'importazione di dati etichettati nel progetto, vedere creare un progetto .

Prima di creare un modello NER personalizzato, è necessario avere prima dati etichettati. Se i dati non sono già etichettati, è possibile etichettarlo in Language Studio. I dati etichettati informano il modello come interpretare il testo e vengono usati per il training e la valutazione.

Prerequisiti

Prima di poter etichettare i dati, è necessario:

  • Progetto creato correttamente con un account di archiviazione BLOB di Azure configurato
  • Dati di testo caricati nell'account di archiviazione.

Per altre informazioni, vedere il ciclo di vita dello sviluppo del progetto .

Linee guida per l'etichettatura dei dati

Dopo aver preparato i dati, progettare lo schema e creare il progetto, sarà necessario etichettare i dati. L'etichettatura dei dati è importante in modo che il modello sappia quali parole verranno associate ai tipi di entità da estrarre. Quando si etichettano i dati in Language Studio (o si importano dati etichettati), queste etichette verranno archiviate nel documento JSON nel contenitore di archiviazione connesso a questo progetto.

Quando si etichettano i dati, tenere presente quanto segue:

  • In generale, più dati etichettati portano a risultati migliori, purché i dati siano etichettati in modo accurato.

  • La precisione, la coerenza e la completezza dei dati etichettati sono fattori chiave per le prestazioni del modello.

    • Etichettare esattamente: etichettare ogni entità nel tipo corretto sempre. Includere solo gli elementi da estrarre, evitando dati non necessari nelle etichette.
    • Etichetta in modo coerente: la stessa entità deve avere la stessa etichetta in tutti i documenti.
    • Etichetta completamente: etichettare tutte le istanze dell'entità in tutti i documenti. È possibile usare la funzionalità di etichettatura automatica per garantire l'etichettatura completa.

    Nota

    Non esiste alcun numero fisso di etichette che possono garantire che il modello esegua le prestazioni migliori. Le prestazioni del modello dipendono dalla possibile ambiguità nello schema e dalla qualità dei dati etichettati. Tuttavia, è consigliabile avere circa 50 istanze etichettate per tipo di entità.

Assegnare etichette ai dati

Seguire questa procedura per etichettare i dati:

  1. Passare alla pagina del progetto in Language Studio.

  2. Dal menu a sinistra selezionare Etichetta dati. È possibile trovare un elenco di tutti i documenti nel contenitore di archiviazione.

    Suggerimento

    È possibile usare i filtri nel menu in alto per visualizzare i documenti non etichettati in modo da poter iniziare a etichettarli. È anche possibile usare i filtri per visualizzare i documenti etichettati con un tipo di entità specifico.

  3. Passare a una singola visualizzazione documento dal lato sinistro nel menu in alto o selezionare un documento specifico per avviare l'etichettatura. È possibile trovare un elenco di tutti i .txt documenti disponibili nel progetto a sinistra. È possibile usare il pulsante Indietro e Avanti nella parte inferiore della pagina per spostarsi nei documenti.

    Nota

    Se sono state abilitate più lingue per il progetto, si troverà un elenco a discesa Lingua nel menu in alto, che consente di selezionare la lingua di ogni documento.

  4. Nel riquadro laterale destro aggiungere il tipo di entità al progetto in modo da iniziare a etichettare i dati con loro.

  5. Sono disponibili due opzioni per etichettare il documento:

    Opzione Descrizione
    Etichetta con un pennello Selezionare l'icona del pennello accanto a un tipo di entità nel riquadro destro, quindi evidenziare il testo nel documento da annotare con questo tipo di entità.
    Etichetta usando un menu Evidenziare la parola che si vuole etichettare come entità e verrà visualizzato un menu. Selezionare il tipo di entità da assegnare per questa entità.

    Lo screenshot seguente mostra l'etichettatura usando un pennello.

    Screenshot che mostra le opzioni di etichettatura offerte in Custom NER.

  6. Nel riquadro laterale destro sotto il pivot Etichette è possibile trovare tutti i tipi di entità nel progetto e il numero di istanze etichettate per ogni oggetto.

  7. Nella sezione inferiore del riquadro laterale destro è possibile aggiungere il documento corrente visualizzato al set di training o al set di test. Per impostazione predefinita, tutti i documenti vengono aggiunti al set di training. Altre informazioni sui set di training e test e su come vengono usati per il training e la valutazione dei modelli.

    Suggerimento

    Se si prevede di usare la suddivisione automatica dei dati, usare l'opzione predefinita per assegnare tutti i documenti nel set di training.

  8. Nel pivot distribuzione è possibile visualizzare la distribuzione tra set di training e test. Sono disponibili due opzioni per la visualizzazione:

    • Totale istanze in cui è possibile visualizzare il numero di tutte le istanze etichettate di un tipo di entità specifico.
    • documenti con almeno un'etichetta in cui ogni documento viene conteggiato se contiene almeno un'istanza etichettata di questa entità.
  9. Quando si etichetta, le modifiche verranno sincronizzate periodicamente, se non sono ancora state salvate, verrà visualizzato un avviso nella parte superiore della pagina. Se si vuole salvare manualmente, selezionare Salva etichette nella parte inferiore della pagina.

Rimuovere le etichette

Per rimuovere un'etichetta

  1. Selezionare l'entità da cui si vuole rimuovere un'etichetta.
  2. Scorrere il menu visualizzato e selezionare Rimuovi etichetta.

Eliminare entità

Per eliminare un'entità, selezionare l'icona di eliminazione accanto all'entità da rimuovere. L'eliminazione di un'entità rimuoverà tutte le istanze etichettate dal set di dati.

Passaggi successivi

Dopo aver etichettato i dati, è possibile iniziare a eseguire il training di un modello che apprenderà in base ai dati.