Come eseguire il training di un modello di classificazione del testo personalizzato

Articolo
12/19/2023

Il training è il processo in cui il modello apprende dai dati etichettati. Al termine del training, sarà possibile visualizzare le prestazioni del modello per determinare se è necessario migliorare il modello.

Per eseguire il training di un modello, avviare un processo di training. Solo i processi completati creano un modello utilizzabile. I processi di formazione scadono dopo sette giorni. Dopo questo periodo, non sarà possibile recuperare i dettagli del processo. Se il processo di training è stato completato correttamente e un modello è stato creato, non sarà interessato dalla scadenza del processo. È possibile avere un solo processo di training in esecuzione alla volta e non è possibile avviare altri processi nello stesso progetto.

I tempi di training possono essere ovunque da pochi minuti quando si gestiscono pochi documenti, fino a diverse ore a seconda delle dimensioni del set di dati e della complessità dello schema.

Prerequisiti

Prima di eseguire il training del modello, è necessario:

Progetto creato correttamente con un account di archiviazione BLOB di Azure configurato,
Dati di testo caricati nell'account di archiviazione.
Dati etichettati

Per altre informazioni, vedere il ciclo di vita dello sviluppo del progetto .

Separazione dei dati

Prima di avviare il processo di training, i documenti etichettati nel progetto sono suddivisi in un set di training e in un set di test. Ognuno di essi serve una funzione diversa. Il set di training viene usato nel training del modello, questo è il set da cui il modello apprende la classe/le classi assegnate a ogni documento. Il set di test è un set cieco che non viene introdotto nel modello durante il training, ma solo durante la valutazione. Dopo aver eseguito il training del modello, viene usato per eseguire stime dai documenti nel set di test. In base a queste stime, verranno calcolate le metriche di valutazione del modello. È consigliabile assicurarsi che tutte le classi siano adeguatamente rappresentate sia nel set di training che nel set di test.

La classificazione del testo personalizzata supporta due metodi per la suddivisione dei dati:

Suddividere automaticamente il set di test dai dati di training: il sistema suddividerà i dati etichettati tra i set di training e test, in base alle percentuali scelte. Il sistema tenterà di avere una rappresentazione di tutte le classi nel set di training. La divisione percentuale consigliata è il 80% per il training e il 20% per i test.

Nota

Se si sceglie l'opzione Divisione automatica del set di test dai dati di training , solo i dati assegnati al set di training verranno suddivisi in base alle percentuali fornite.

Usare una suddivisione manuale dei dati di training e test: questo metodo consente agli utenti di definire quali documenti etichettati devono appartenere a quale set. Questo passaggio è abilitato solo se sono stati aggiunti documenti al set di test durante l'etichettatura dei dati.

Per avviare il training del modello da Language Studio:

Selezionare Processi di training dal menu a sinistra.
Selezionare Avvia un processo di training dal menu superiore.
Selezionare Esegui il training di un nuovo modello e digita il nome del modello nella casella di testo. È anche possibile sovrascrivere un modello esistente selezionando questa opzione e scegliendo il modello da sovrascrivere dal menu a discesa. Sovrascrivere un modello sottoposto a training è irreversibile, ma non influisce sui modelli distribuiti finché non si distribuisce il nuovo modello.
Selezionare il metodo di divisione dei dati. È possibile scegliere Suddivisione automatica del set di test dai dati di training in cui il sistema suddividerà i dati etichettati tra i set di training e test, in base alle percentuali specificate. In alternativa, è possibile usare una suddivisione manuale dei dati di training e test, questa opzione è abilitata solo se sono stati aggiunti documenti al set di test durante l'etichettatura dei dati. Per altre informazioni sulla suddivisione dei dati, vedere Come eseguire il training di un modello .
Selezionare il pulsante Esegui training .
Se si seleziona l'ID processo di training dall'elenco, verrà visualizzato un riquadro laterale in cui è possibile controllare lo stato del training, lo stato del processo e altri dettagli per questo processo.
Nota
- Solo i processi di training completati genereranno modelli.
- Il tempo per eseguire il training del modello può richiedere da qualche minuto a diverse ore in base alle dimensioni dei dati etichettati.
- È possibile eseguire un solo processo di training alla volta. Non è possibile avviare altri processi di training nello stesso progetto fino al completamento del processo in esecuzione.

Avviare il processo di formazione

Inviare una richiesta POST usando l'URL, le intestazioni e il corpo JSON seguenti per inviare un processo di training. Sostituire i valori segnaposto seguenti con i propri valori.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Segnaposto	Valore	Esempio
`{ENDPOINT}`	Endpoint per l'autenticazione della richiesta API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nome del progetto. Per questo valore viene applicata la distinzione tra maiuscole e minuscole.	`myProject`
`{API-VERSION}`	Versione dell'API che si sta chiamando. Il valore a cui viene fatto riferimento è per la versione più recente rilasciata. Altre informazioni sulle altre versioni api disponibili	`2022-05-01`

Intestazioni

Usare l'intestazione seguente per autenticare la richiesta.

Chiave	Valore
`Ocp-Apim-Subscription-Key`	Chiave della risorsa. Usato per autenticare le richieste API.

Testo della richiesta

Usare il codice JSON seguente nel corpo della richiesta. Il modello verrà assegnato al termine del {MODEL-NAME} training. Solo i processi di formazione con esito positivo produrranno modelli.

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

Chiave	Segnaposto	Valore	Esempio
modelLabel	`{MODEL-NAME}`	Nome del modello assegnato al modello una volta eseguito il training.	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Si tratta della versione del modello che verrà usata per eseguire il training del modello.	`2022-05-01`
evaluationOptions		Opzione per suddividere i dati tra set di training e test.	`{}`
kind	`percentage`	Metodi di divisione. I possibili valori sono `percentage` o `manual`. Per altre informazioni, vedere Come eseguire il training di un modello .	`percentage`
trainingSplitPercentage	`80`	Percentuale dei dati contrassegnati da includere nel set di training. Il valore consigliato è `80`.	`80`
testingSplitPercentage	`20`	Percentuale dei dati contrassegnati da includere nel set di test. Il valore consigliato è `20`.	`20`

Nota

L'oggetto trainingSplitPercentage e testingSplitPercentage sono necessari solo se Kind è impostato su percentage e la somma di entrambe le percentuali deve essere uguale a 100.

Dopo aver inviato la richiesta API, si riceverà una 202 risposta che indica che il processo è stato inviato correttamente. Nelle intestazioni di risposta estrarre il location valore. Verrà formattato come segue:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} viene usato per identificare la richiesta, perché questa operazione è asincrona. È possibile usare questo URL per ottenere lo stato del training.

Ottenere lo stato del processo di training

Il training potrebbe richiedere tempo a seconda delle dimensioni dei dati di training e della complessità dello schema. È possibile usare la richiesta seguente per mantenere il polling dello stato del processo di training fino al completamento.

Usare la richiesta GET seguente per ottenere lo stato dello stato di avanzamento del training del modello. Sostituire i valori segnaposto seguenti con i valori personalizzati.

URL richiesta

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Segnaposto	Valore	Esempio
`{ENDPOINT}`	Endpoint per l'autenticazione della richiesta API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nome del progetto. Per questo valore viene applicata la distinzione tra maiuscole e minuscole.	`myProject`
`{JOB-ID}`	ID per l'individuazione dello stato di training del modello. Questo valore si trova nel valore dell'intestazione `location` ricevuto nel passaggio precedente.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	Versione dell'API che si sta chiamando. Il valore a cui viene fatto riferimento è relativo alla versione più recente rilasciata. Per altre informazioni sulle altre versioni api disponibili, vedere Ciclo di vita del modello .	`2022-05-01`

Intestazioni

Usare l'intestazione seguente per autenticare la richiesta.

Chiave	Valore
`Ocp-Apim-Subscription-Key`	Chiave della risorsa. Usato per autenticare le richieste API.

Corpo della risposta

Dopo aver inviato la richiesta, si otterrà la risposta seguente.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Annullare il processo di training

Language Studio
API REST

Per annullare un processo di training in Language Studio, passare alla pagina Processi di training . Selezionare il processo di training da annullare e selezionare Annulla dal menu in alto.

Creare una richiesta POST usando l'URL, le intestazioni e il corpo JSON seguenti per annullare un processo di training.

URL richiesta

Usare l'URL seguente durante la creazione della richiesta API. Sostituire i valori segnaposto seguenti con i valori personalizzati.

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Segnaposto	Valore	Esempio
`{ENDPOINT}`	Endpoint per l'autenticazione della richiesta API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Nome del progetto. Per questo valore viene applicata la distinzione tra maiuscole e minuscole.	`EmailApp`
`{JOB-ID}`	Questo valore è l'ID processo di training.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	Versione dell'API che si sta chiamando. Il valore a cui si fa riferimento è per la versione più recente del modello rilasciato.	`2022-05-01`

Intestazioni

Usare l'intestazione seguente per autenticare la richiesta.

Chiave	Valore
`Ocp-Apim-Subscription-Key`	Chiave della risorsa. Usato per autenticare le richieste API.

Dopo aver inviato la richiesta API, si riceverà una risposta 202 con un'intestazione Operation-Location usata per controllare lo stato del processo.

Passaggi successivi

Al termine del training, sarà possibile visualizzare le prestazioni del modello per migliorare facoltativamente il modello, se necessario. Dopo aver soddisfatto il modello, è possibile distribuirlo, rendendolo disponibile per la classificazione del testo.

Share via

Come eseguire il training di un modello di classificazione del testo personalizzato

Prerequisiti

Separazione dei dati

Eseguire il training del modello

Avviare il processo di formazione

Intestazioni

Testo della richiesta

Ottenere lo stato del processo di training

URL richiesta

Intestazioni

Corpo della risposta

Annullare il processo di training

URL richiesta

Intestazioni

Passaggi successivi

Risorse aggiuntive