Caricare set di dati di training e test per il riconoscimento vocale personalizzato

Articolo
04/15/2024

Sono necessari dati audio o di testo per testare l'accuratezza del riconoscimento vocale o il training dei modelli personalizzati. Per informazioni sui tipi di dati supportati per il test o il training del modello, vedere Set di dati di training e test.

Suggerimento

È anche possibile usare l'editor di trascrizione online per creare e perfezionare set di dati audio etichettati.

Caricare set di dati

Per caricare set di dati personalizzati in Speech Studio, seguire questa procedura:

Accedere a Speech Studio.
Selezionare Riconoscimento vocale> personalizzato Il nome >del progetto Set di dati>di riconoscimento vocale Carica dati.
Selezionare la scheda Dati di training o Dati di test.
Selezionare un tipo di set di dati e quindi selezionare Avanti.
Specificare il percorso del set di dati e quindi selezionare Avanti. È possibile scegliere un file locale o immettere un percorso remoto, ad esempio l'URL del BLOB di Azure. Se si seleziona la posizione remota e non si usa il meccanismo di sicurezza dei servizi di Azure attendibili, la posizione remota deve essere un URL che può essere recuperato con una semplice richiesta GET anonima. Ad esempio, un URL di firma di accesso condiviso o un URL accessibile pubblicamente. Gli URL che richiedono un'autorizzazione aggiuntiva o che prevedono l'interazione dell'utente non sono supportati.

Nota

Se si usa l'URL BLOB di Azure, è possibile garantire la massima sicurezza dei file del set di dati usando un meccanismo di sicurezza dei servizi di Azure attendibile. Si useranno le stesse tecniche di trascrizione batch e URL di account Archiviazione semplici per i file del set di dati. Vedere i dettagli qui.
Immettere il nome e la descrizione del set di dati e quindi selezionare Avanti.
Esaminare le impostazioni e quindi selezionare Salva e chiudi.

Dopo aver caricato il set di dati, passare alla pagina Esegui training di modelli personalizzati per eseguire il training di un modello personalizzato.

Con l'INTERFACCIA della riga di comando di Riconoscimento vocale e l'API REST Riconoscimento vocale, a differenza di Speech Studio, non si sceglie se un set di dati è destinato a test o training al momento del caricamento. Specificare come viene usato un set di dati quando si esegue il training di un modello o si esegue un test .

Anche se non si indica se il set di dati è per il test o il training, è necessario specificare il tipo di set di dati. Il tipo di set di dati viene usato per determinare il tipo di set di dati creato. In alcuni casi, un tipo di set di dati viene usato solo per il test o il training, ma non è consigliabile assumerne una dipendenza. I valori dell'interfaccia della riga di comando di Voce e dell'API kind REST corrispondono alle opzioni in Speech Studio, come descritto nella tabella seguente:

Interfaccia della riga di comando e tipo di API	Opzioni di Speech Studio
Acustico	Dati di training: trascrizione audio e con etichetta umana Test dei dati: trascrizione (sintesi audio automatica) Dati di test: trascrizione audio e con etichetta umana
AudioFiles	Test dei dati: Audio
Lingua	Dati di training: testo normale
LanguageMarkdown	Dati di training: testo strutturato in formato markdown
Pronuncia	Dati di training: pronuncia
OutputFormatting	Dati di training: formato di output

Nota

Il testo strutturato nel formato markdown dei set di dati di training non è supportato dalla versione 3.0 dell'API REST Riconoscimento vocale in testo. È necessario usare l'API REST Riconoscimento vocale v3.1. Per altre informazioni, vedere Eseguire la migrazione del codice dalla versione 3.0 alla versione 3.1 dell'API REST.

Per creare un set di dati e connetterlo a un progetto esistente, usare il spx csr dataset create comando . Creare i parametri della richiesta in base alle istruzioni seguenti:

Impostare il project parametro sull'ID di un progetto esistente. Questo parametro è consigliato in modo da poter anche visualizzare e gestire il set di dati in Speech Studio. È possibile eseguire il spx csr project list comando per ottenere i progetti disponibili.
Impostare il parametro obbligatorio kind . Il set di valori possibile per il tipo di set di dati è: Lingua, Acustica, Pronuncia e AudioFiles.
Impostare il parametro obbligatorio contentUrl . Questo parametro è il percorso del set di dati. Se non si usa un meccanismo di sicurezza dei servizi di Azure attendibili (vedere la nota successiva), il contentUrl parametro deve essere un URL che può essere recuperato con una semplice richiesta GET anonima. Ad esempio, un URL di firma di accesso condiviso o un URL accessibile pubblicamente. Gli URL che richiedono un'autorizzazione aggiuntiva o che prevedono l'interazione dell'utente non sono supportati.

Nota

Se si usa l'URL BLOB di Azure, è possibile garantire la massima sicurezza dei file del set di dati usando un meccanismo di sicurezza dei servizi di Azure attendibile. Si useranno le stesse tecniche di trascrizione batch e URL di account Archiviazione semplici per i file del set di dati. Vedere i dettagli qui.
Impostare il parametro obbligatorio language . Le impostazioni locali del set di dati devono corrispondere alle impostazioni locali del progetto. Le impostazioni locali non possono essere modificate in un secondo momento. Il parametro dell'interfaccia della locale riga di comando language di Voce corrisponde alla proprietà nella richiesta e nella risposta JSON.
Impostare il parametro obbligatorio name . Questo parametro è il nome visualizzato in Speech Studio. Il parametro dell'interfaccia della displayName riga di comando name di Voce corrisponde alla proprietà nella richiesta e nella risposta JSON.

Ecco un esempio di comando dell'interfaccia della riga di comando di Voce che crea un set di dati e lo connette a un progetto esistente:

spx csr dataset create --api-version v3.1 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

Dovrebbe essere visualizzato un corpo della risposta nel formato seguente:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c",
  "kind": "Acoustic",
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/70ccbffc-cafb-4301-aa9f-ef658559d96e"
  },
  "properties": {
    "acceptedLineCount": 0,
    "rejectedLineCount": 0
  },
  "lastActionDateTime": "2022-05-20T14:07:11Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-20T14:07:11Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description"
}

La proprietà di primo livello self nel corpo della risposta è l'URI del set di dati. Usare questo URI per ottenere informazioni dettagliate sul progetto e i file del set di dati. È anche possibile usare questo URI per aggiornare o eliminare un set di dati.

Per informazioni sull'interfaccia della riga di comando di Voce con i set di dati, eseguire il comando seguente:

spx help csr dataset

Interfaccia della riga di comando e tipo di API	Opzioni di Speech Studio
Acustico	Dati di training: trascrizione audio e con etichetta umana Test dei dati: trascrizione (sintesi audio automatica) Dati di test: trascrizione audio e con etichetta umana
AudioFiles	Test dei dati: Audio
Lingua	Dati di training: testo normale
LanguageMarkdown	Dati di training: testo strutturato in formato markdown
Pronuncia	Dati di training: pronuncia
OutputFormatting	Dati di training: formato di output

Nota

Per creare un set di dati e connetterlo a un progetto esistente, usare l'operazione di Datasets_Create dell'API REST Riconoscimento vocale in testo. Costruire il corpo della richiesta in base alle istruzioni seguenti:

Impostare la project proprietà sull'URI di un progetto esistente. Questa proprietà è consigliata per consentire anche di visualizzare e gestire il set di dati in Speech Studio. È possibile effettuare una richiesta di Projects_List per ottenere i progetti disponibili.
Impostare la proprietà obbligatoria kind . Il set di valori possibile per il tipo di set di dati è: Lingua, Acustica, Pronuncia e AudioFiles.
Impostare la proprietà obbligatoria contentUrl . Questa proprietà è la posizione del set di dati. Se non si usa un meccanismo di sicurezza dei servizi di Azure attendibili (vedere la nota successiva), il contentUrl parametro deve essere un URL che può essere recuperato con una semplice richiesta GET anonima. Ad esempio, un URL di firma di accesso condiviso o un URL accessibile pubblicamente. Gli URL che richiedono un'autorizzazione aggiuntiva o che prevedono l'interazione dell'utente non sono supportati.

Nota

Se si usa l'URL BLOB di Azure, è possibile garantire la massima sicurezza dei file del set di dati usando un meccanismo di sicurezza dei servizi di Azure attendibile. Si useranno le stesse tecniche di trascrizione batch e URL di account Archiviazione semplici per i file del set di dati. Vedere i dettagli qui.
Impostare la proprietà obbligatoria locale . Le impostazioni locali del set di dati devono corrispondere alle impostazioni locali del progetto. Le impostazioni locali non possono essere modificate in un secondo momento.
Impostare la proprietà obbligatoria displayName . Questa proprietà è il nome visualizzato in Speech Studio.

Effettuare una richiesta HTTP POST usando l'URI, come illustrato nell'esempio seguente. Sostituire YourSubscriptionKey con la chiave della risorsa Voce, sostituire YourServiceRegion con l'area della risorsa Voce e impostare le proprietà del corpo della richiesta come descritto in precedenza.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/70ccbffc-cafb-4301-aa9f-ef658559d96e"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/datasets"

Dovrebbe essere visualizzato un corpo della risposta nel formato seguente:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c",
  "kind": "Acoustic",
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/70ccbffc-cafb-4301-aa9f-ef658559d96e"
  },
  "properties": {
    "acceptedLineCount": 0,
    "rejectedLineCount": 0
  },
  "lastActionDateTime": "2022-05-20T14:07:11Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-20T14:07:11Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description"
}

Importante

Connessione un set di dati in un progetto di riconoscimento vocale personalizzato non è necessario per eseguire il training e il test di un modello personalizzato usando l'API REST o l'interfaccia della riga di comando di Voce. Tuttavia, se il set di dati non è connesso ad alcun progetto, non è possibile selezionarlo per il training o il test in Speech Studio.

Caricare set di dati di training e test per il riconoscimento vocale personalizzato

Caricare set di dati

Passaggi successivi

Risorse aggiuntive