Etichettare le espressioni in Language Studio

Articolo
12/19/2023

Dopo aver compilato uno schema per il progetto, è necessario aggiungere espressioni di training al progetto. Le espressioni devono essere simili a quanto verrà usato dagli utenti durante l'interazione con il progetto. Quando si aggiunge un'espressione, è necessario assegnare la finalità a cui appartiene. Dopo aver aggiunto l'espressione, etichettare le parole all'interno dell'espressione che si desidera estrarre come entità.

L'etichettatura dei dati è un passaggio fondamentale del ciclo di vita dello sviluppo; questi dati verranno usati nel passaggio successivo durante il training del modello in modo che il modello possa apprendere dai dati etichettati. Se sono già state etichettate espressioni, è possibile importarla direttamente nel progetto, ma è necessario assicurarsi che i dati seguano il formato di dati accettato. Per altre informazioni sull'importazione di dati etichettati nel progetto, vedere Creare un progetto . I dati etichettati comunicano al modello come interpretare il testo e vengono usati per il training e la valutazione.

Prerequisiti

Prima di poter etichettare i dati, è necessario:

Progetto creato correttamente.

Per altre informazioni, vedere il ciclo di vita dello sviluppo del progetto .

Linee guida per l'etichettatura dei dati

Dopo aver compilato lo schema e creato il progetto, sarà necessario etichettare i dati. L'etichettatura dei dati è importante in modo che il modello sappia quali parole e frasi verranno associate alle finalità e alle entità del progetto. È consigliabile dedicare tempo all'etichettatura delle espressioni, introducendo e affinando i dati che verranno usati per il training dei modelli.

Quando si aggiungono espressioni ed etichettarle, tenere presente quanto segue:

I modelli di Machine Learning vengono generalizzati in base agli esempi etichettati forniti; più esempi vengono forniti, maggiore è il numero di punti dati che il modello deve migliorare le generalizzazioni.
La precisione, la coerenza e la completezza dei dati etichettati sono fattori chiave per le prestazioni del modello.
- Etichettare con precisione: etichettare sempre ogni finalità ed entità al tipo corretto. Includere solo gli elementi classificati ed estratti, evitare dati non necessari nelle etichette.
- Etichetta coerente: la stessa entità deve avere la stessa etichetta in tutte le espressioni.
- Etichetta completamente: fornire espressioni diverse per ogni finalità. Etichettare tutte le istanze dell'entità in tutte le espressioni.

Etichettare chiaramente le espressioni

Assicurarsi che i concetti a cui fanno riferimento le entità siano ben definiti e separabili. Controllare se è possibile determinare facilmente le differenze in modo affidabile. In caso contrario, potrebbe essere un'indicazione che anche il componente appreso avrà difficoltà.
Se esiste una somiglianza tra le entità, assicurarsi che esistano alcuni aspetti dei dati che forniscono un segnale per la differenza tra di essi.

Ad esempio, se hai creato un modello per prenotare i voli, un utente potrebbe usare un'espressione come "Voglio un volo da Boston a Seattle". La città di origine e la città di destinazione per tali espressioni dovrebbero essere simili. Un segnale per distinguere "Città di origine" potrebbe essere che spesso è preceduto dalla parola "from".
Assicurarsi di etichettare tutte le istanze di ogni entità nei dati di training e di test. Un approccio consiste nell'usare la funzione di ricerca per trovare tutte le istanze di una parola o di una frase nei dati per verificare se sono etichettate correttamente.
Etichettare i dati di test per le entità che non hanno alcun componente appreso e anche per quelle eseguite. In questo modo si garantisce che le metriche di valutazione siano accurate.

Per i progetti multilingue, l'aggiunta di espressioni in altre lingue aumenta le prestazioni del modello in queste lingue, ma evita di duplicare i dati in tutte le lingue che si desidera supportare. Ad esempio, per migliorare le prestazioni di un bot di calender con gli utenti, uno sviluppatore potrebbe aggiungere esempi principalmente in inglese e alcuni in spagnolo o francese. Possono aggiungere espressioni, ad esempio:
- "Impostare un incontro con Matt e Kevindomani alle 12.00". (inglese)
- "Rispondi come provvisorio alla riunione di aggiornamento settimanale ". (inglese)
- "Cancelar mi próxima reunión." (spagnolo)

Come etichettare le espressioni

Per etichettare le espressioni, seguire questa procedura:

Passare alla pagina del progetto in Language Studio.
Nel menu a sinistra selezionare Etichettatura dati. In questa pagina è possibile iniziare ad aggiungere l'espressione e etichettarle. È anche possibile caricare l'espressione direttamente facendo clic su Carica file di espressione dal menu in alto, assicurarsi che segua il formato accettato.
Dai primi pivot è possibile modificare la visualizzazione in modo che sia impostata o set di test. Altre informazioni sui set di training e test e su come vengono usati per il training e la valutazione del modello.

Suggerimento

Se si prevede di usare Suddivide automaticamente il set di test dalla suddivisione dei dati di training, aggiungere tutte le espressioni al set di training.
Dal menu a discesa Seleziona finalità selezionare una delle finalità, la lingua dell'espressione (per i progetti multilingue) e l'espressione stessa. Premere il tasto INVIO nella casella di testo dell'espressione per aggiungere l'espressione.

Sono disponibili due opzioni per etichettare le entità in un'espressione:

Opzione	Descrizione
Etichetta con un pennello	Selezionare l'icona del pennello accanto a un'entità nel riquadro destro, quindi evidenziare il testo nell'espressione da etichettare.
Etichetta con il menu inline	Evidenziare la parola che si vuole etichettare come entità e verrà visualizzato un menu. Selezionare l'entità con cui si vogliono etichettare queste parole.

Nel riquadro laterale destro, sotto il pivot Etichette , è possibile trovare tutti i tipi di entità nel progetto e il numero di istanze etichettate per ogni.
Nel pivot Distribuzione è possibile visualizzare la distribuzione tra set di training e test. Sono disponibili due opzioni per la visualizzazione:
- Totale istanze per entità etichettata in cui è possibile visualizzare il numero di tutte le istanze etichettate di un'entità specifica.
- Espressioni univoche per ogni entità etichettata in cui ogni espressione viene conteggiata se contiene almeno un'istanza etichettata di questa entità.
- Espressioni per finalità in cui è possibile visualizzare il numero di espressioni per finalità.

Nota

Gli elenchi e i componenti predefiniti non vengono visualizzati nella pagina di etichettatura dei dati e tutte le etichette qui si applicano solo al componente appreso.

Per rimuovere un'etichetta:

Dall'interno dell'espressione selezionare l'entità da cui si vuole rimuovere un'etichetta.
Scorrere il menu visualizzato e selezionare Rimuovi etichetta.

Per eliminare un'entità:

Selezionare l'entità da modificare nel riquadro a destra.
Selezionare i tre puntini accanto all'entità e selezionare l'opzione desiderata dal menu a discesa.

Suggerire espressioni con Azure OpenAI

In CLU usare Azure OpenAI per suggerire espressioni da aggiungere al progetto usando modelli GPT. È prima necessario ottenere l'accesso e creare una risorsa in Azure OpenAI. Sarà quindi necessario creare una distribuzione per i modelli GPT. Seguire i passaggi necessari qui.

Prima di iniziare, la funzionalità suggerisci espressioni è disponibile solo se la risorsa Lingua si trova nelle aree seguenti:

Stati Uniti orientali
Stati Uniti centro-meridionali
Europa occidentale

Nella pagina Etichettatura dati:

Selezionare il pulsante Suggerisci espressioni . Verrà aperto un riquadro sul lato destro in cui viene richiesto di selezionare la risorsa e la distribuzione di Azure OpenAI.
Nella selezione di una risorsa OpenAI di Azure selezionare Connetti, che consente alla risorsa Lingua di accedere direttamente alla risorsa OpenAI di Azure. Assegna alla risorsa Language il ruolo di Cognitive Services User alla risorsa OpenAI di Azure, che consente alla risorsa lingua corrente di accedere al servizio Azure OpenAI. Se la connessione non riesce, seguire questa procedura per aggiungere manualmente il ruolo corretto alla risorsa Azure OpenAI.
Dopo aver connesso la risorsa, selezionare la distribuzione. Il modello consigliato per la distribuzione di Azure OpenAI è text-davinci-002.
Selezionare la finalità per cui si vogliono ottenere suggerimenti. Assicurarsi che la finalità selezionata abbia almeno 5 espressioni salvate da abilitare per i suggerimenti per l'espressione. I suggerimenti forniti da Azure OpenAI si basano sulle espressioni più recenti aggiunte per tale finalità.
Selezionare Genera espressioni. Al termine, le espressioni suggerite verranno visualizzate con una linea punteggiata intorno a essa, con la nota Generata dall'intelligenza artificiale. Tali suggerimenti devono essere accettati o rifiutati. Accettando un suggerimento, lo aggiunge semplicemente al progetto, come se fosse stato aggiunto autonomamente. Rifiutandolo elimina completamente il suggerimento. Solo le espressioni accettate saranno parte del progetto e usate per il training o il test. È possibile accettare o rifiutare facendo clic sui pulsanti di annullamento verde o rosso accanto a ogni espressione. È anche possibile usare i Accept all pulsanti e Reject all nella barra degli strumenti.

L'uso di questa funzionalità comporta un addebito per la risorsa OpenAI di Azure per un numero simile di token alle espressioni suggerite generate. I dettagli sui prezzi di Azure OpenAI sono disponibili qui.

Aggiungere configurazioni necessarie alla risorsa OpenAI di Azure

Se la connessione della risorsa language a una risorsa OpenAI di Azure ha esito negativo, seguire questa procedura:

Abilitare la gestione delle identità per la risorsa lingua usando le opzioni seguenti:

Azure portal
Language Studio

La risorsa language deve avere gestione delle identità per abilitarla usando il portale di Azure:

Passare alla risorsa lingua
Dal menu a sinistra, nella sezione Gestione risorse selezionare Identità
Dalla scheda Assegnata dal sistema assicurarsi di impostare Stato su Sì

Dopo aver abilitato l'identità gestita, assegnare il ruolo Cognitive Services User alla risorsa OpenAI di Azure usando l'identità gestita della risorsa language.

Accedere alla portale di Azure e passare alla risorsa OpenAI di Azure.
Selezionare la scheda Controllo di accesso (IAM) a sinistra.
Selezionare Aggiungi > assegnazione di ruolo.
Selezionare "Ruoli funzione processo" e fare clic su Avanti.
Selezionare Cognitive Services User dall'elenco dei ruoli e fare clic su Avanti.
Selezionare Assegna accesso a "Identità gestita" e selezionare "Seleziona membri".
In "Identità gestita" selezionare "Lingua".
Cercare la risorsa e selezionarla. Selezionare quindi il pulsante Seleziona sotto e accanto a completare il processo.
Esaminare i dettagli e selezionare Rivedi e assegna.

Dopo alcuni minuti, aggiornare Language Studio e sarà possibile connettersi correttamente ad Azure OpenAI.

Passaggi successivi

Eseguire il training del modello