Contenitori riconoscimento vocale personalizzato con Docker

Articolo
04/24/2024

Il contenitore di riconoscimento vocale personalizzato trascrive il parlato in tempo reale o le registrazioni audio in batch con risultati intermedi. È possibile usare un modello personalizzato creato nel portale Voce personalizzato. Questo articolo illustra come scaricare, installare ed eseguire un contenitore di riconoscimento vocale personalizzato.

Per altre informazioni sui prerequisiti, verificare che un contenitore sia in esecuzione, che esegua più contenitori nello stesso host e che esegua contenitori disconnessi, vedere Installare ed eseguire contenitori di Voce con Docker.

Immagini del contenitore

L'immagine del contenitore di riconoscimento vocale personalizzato per tutte le versioni e le impostazioni locali supportate è disponibile nel syndicate Registro Container di Microsoft. Si trova all'interno del repository azure-cognitive-services/speechservices/ ed è denominata custom-speech-to-text.

Il nome completo dell'immagine del contenitore è mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text. Aggiungere una versione specifica o accodare :latest per ottenere la versione più recente.

Versione	Percorso
Più recente	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest`
4.6.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.6.0-amd64`

Tutti i tag, ad eccezione di latest, sono nel formato seguente e fanno distinzione tra maiuscole e minuscole:

<major>.<minor>.<patch>-<platform>-<prerelease>

Nota

locale e voice per i contenitori di riconoscimento vocale personalizzato sono determinati dal modello personalizzato inserito dal contenitore.

I tag sono disponibili anche in formato JSON per praticità. Il corpo include il percorso del contenitore e l'elenco di tag. I tag non vengono ordinati in base alla versione, ma "latest" viene sempre incluso alla fine dell'elenco, come illustrato in questo frammento di codice:

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    "2.10.0-amd64",
    "2.11.0-amd64",
    "2.12.0-amd64",
    "2.12.1-amd64",
    <--redacted for brevity-->
    "latest"
  ]
}

Ottenere l'immagine del contenitore con docker pull

Sono necessari i prerequisiti incluso l'hardware necessario. Vedere anche l'allocazione consigliata delle risorse per ogni contenitore di Voce.

Usare il comando docker pull per scaricare un'immagine del contenitore da Registro Container di Microsoft:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

Nota

locale e voice per i contenitori Voce personalizzati sono determinati dal modello personalizzato inserito dal contenitore.

Ottenere l'ID modello

Prima di poter eseguire il contenitore, è necessario conoscere l'ID modello del modello personalizzato o l’ID di un modello di base. Quando si esegue il contenitore, specificare uno degli ID modello da scaricare e usare.

ID modello personalizzato
ID modello di base

Il training del modello personalizzato deve essere eseguito tramite Speech Studio. Per informazioni su come ottenere l'ID modello, vedere Ciclo di vita del modello conversione voce/testo personalizzato.

Screenshot that shows the custom speech training page.

Ottenere l'ID modello da usare come argomento per il parametro ModelId del comando docker run.

Screenshot that shows custom speech model details.

È possibile ottenere le informazioni sul modello di base disponibili usando l'opzione BaseModelLocale={LOCALE}. Questa opzione offre un elenco dei modelli di base disponibili in tali impostazioni locali nell'account di fatturazione.

Per ottenere gli ID modello di base, usare il comando docker run. Ad esempio:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Questo comando controlla l'immagine del contenitore e restituisce i modelli di base disponibili delle impostazioni locali di destinazione.

Nota

Anche se si usa il comando docker run, il contenitore non viene avviato per il servizio.

L'output fornisce un elenco di modelli di base con le informazioni relative a impostazioni locali, ID modello e l'ora di creazione. Ad esempio:

Checking available base model for en-us
2020/10/30 21:54:20 [Info] Searching available base models for en-us
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T08:23:42Z, Id: a3d8aab9-6f36-44cd-9904-b37389ce2bfa
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T12:01:02Z, Id: cc7826ac-5355-471d-9bc6-a54673d06e45
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2017-08-17T12:00:00Z, Id: a1f8db59-40ff-4f0e-b011-37629c3a1a53
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-04-16T11:55:00Z, Id: c7a69da3-27de-4a4b-ab75-b6716f6321e5
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-09-21T15:18:43Z, Id: da494a53-0dad-4158-b15f-8f9daca7a412
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-10-19T11:28:54Z, Id: 84ec130b-d047-44bf-a46d-58c1ac292ca7
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T07:59:09Z, Id: ee5c100f-152f-4ae5-9e9d-014af3c01c56
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T09:21:55Z, Id: d04959a6-71da-4913-9997-836793e3c115
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-01-11T10:04:19Z, Id: 488e5f23-8bc5-46f8-9ad8-ea9a49a8efda
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-02-18T14:37:57Z, Id: 0207b3e6-92a8-4363-8c0e-361114cdd719
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-03-03T17:34:10Z, Id: 198d9b79-2950-4609-b6ec-f52254074a05
2020/10/30 21:54:21 [Fatal] Please run this tool again and assign --modelId '<one above base model id>'. If no model id listed above, it means currently there is no available base model for en-us

Download del modello di visualizzazione

Prima di eseguire il contenitore, è possibile ottenere facoltativamente le informazioni sui modelli di visualizzazione disponibili e scegliere se scaricare tali modelli nel contenitore di riconoscimento vocale per ottenere un output finale di visualizzazione estremamente migliorato. Il download del modello di visualizzazione è disponibile con il contenitore personalizzato di riconoscimento vocale versione 3.1.0 e successive.

Nota

Anche se si usa il comando docker run, il contenitore non viene avviato per il servizio.

È possibile eseguire query o scaricare uno o tutti questi tipi di modello di visualizzazione: Rescoring (Rescore), Punctuation (Punct), resegmentation (Resegment) e wfstitn (Wfstitn). In caso contrario, è possibile usare l'opzione FullDisplay (con o senza altri tipi) per eseguire query o scaricare tutti i tipi di modelli di visualizzazione.

Impostare BaseModelLocale per eseguire una query sul modello di visualizzazione più recente disponibile nelle impostazioni locali di destinazione. Se si includono più tipi di modello di visualizzazione, il comando restituisce i modelli di visualizzazione disponibili più recenti per ogni tipo. Ad esempio:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Impostare DisplayLocale per scaricare il modello di visualizzazione più recente disponibile nelle impostazioni locali di destinazione. Quando si imposta DisplayLocale, è necessario specificare anche FullDisplay o un subset separato da spazi di modelli di visualizzazione. Il comando scarica il modello di visualizzazione disponibile più recente per ogni tipo specificato. Ad esempio:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Impostare un parametro ID modello per scaricare un modello di visualizzazione specifico: Rescoring (RescoreId), Punctuation (PunctId), resegmentation (ResegmentId), or wfstitn (WfstitnId). Questa procedura è simile a quella con cui si scarica un modello di base tramite il parametro ModelId. Ad esempio, per scaricare un modello di visualizzazione di registrazione, è possibile usare il comando seguente con il parametro RescoreId:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Nota

Se si impostano più query o parametri di download, il comando assegna le priorità in questo ordine: BaseModelLocale, ID modello e infine DisplayLocale (applicabile solo per i modelli di visualizzazione).

Eseguire il contenitore con il comando docker run

Usare il comando docker run per eseguire il contenitore per il servizio.

Riconoscimento vocale personalizzato
Riconoscimento vocale personalizzato disconnesso

La tabella seguente rappresenta i vari parametri docker run e le descrizioni corrispondenti:

Parametro	Descrizione
`{VOLUME_MOUNT}`	Montaggio del volume del computer host, usato da Docker per rendere persistente il modello personalizzato. Ne è un esempio `c:\CustomSpeech`, dove l'unità `c:\` si trova nel computer host.
`{MODEL_ID}`	ID modello di base o voce personalizzato. Per altre informazioni, vedere Ottenere l'ID modello.
`{ENDPOINT_URI}`	L'endpoint è necessario per misurazione e fatturazione. Per altre informazioni, vedere argomenti di fatturazione.
`{API_KEY}`	La chiave API è obbligatoria. Per altre informazioni, vedere argomenti di fatturazione.

Quando si esegue il contenitore di riconoscimento vocale personalizzato, configurare la porta, la memoria e la CPU in base ai requisiti e alle raccomandazioni per il contenitore di riconoscimento vocale personalizzato.

Ecco un esempio del comando docker run con valori segnaposto. È necessario specificare i valori VOLUME_MOUNT, MODEL_ID, ENDPOINT_URI e API_KEY:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Questo comando:

Esegue un contenitore di riconoscimento vocale personalizzato dall'immagine del contenitore.
Alloca 4 core della CPU e 8 GB di memoria.
Carica il modello di riconoscimento vocale personalizzato dal montaggio di input del volume, ad esempio C:\CustomSpeech.
Espone la porta TCP 5000 e alloca un pseudo terminale TTY per il contenitore.
Scarica il modello dato ModelId (se non trovato nel montaggio del volume).
Se il modello personalizzato è stato scaricato in precedenza, ModelId viene ignorato.
Rimuove automaticamente il contenitore dopo la chiusura. L'immagine del contenitore rimane disponibile nel computer host.

Per altre informazioni su docker run con i contenitori di Voce, vedere Installare ed eseguire contenitori di Voce con Docker.

Per eseguire contenitori disconnessi (non connessi a Internet), è necessario inviare il modulo di richiesta e attendere l'approvazione. Per altre informazioni sull'applicazione e l'acquisto di un piano di impegno per l'uso di contenitori in ambienti disconnessi, vedere Usare i contenitori in ambienti disconnessi nella documentazione sui Servizi di Azure AI.

Se è stata ricevuta l'approvazione per eseguire il contenitore disconnesso da Internet, l'esempio seguente mostra la formattazione del comando docker run da usare, con valori segnaposto. Sostituire questi valori segnaposto con i propri valori.

Per preparare e configurare un contenitore di riconoscimento vocale personalizzato disconnesso, sono necessarie due risorse voce separate:

Una normale risorsa Voce di Azure AI configurata per l'uso di un piano tariffario "S0 - Standard" o di un piano tariffario con livello di impegno "Riconoscimento vocale (personalizzato)". Questo viene usato per eseguire il training, scaricare e configurare i modelli conversione voce/testo personalizzati da usare nel contenitore.
Una risorsa Voce di Azure AI configurata per l'uso del piano tariffario "Impegno DC0 (disconnesso)". Viene usato per scaricare il file di licenza del contenitore disconnesso necessario per eseguire il contenitore in modalità disconnessa.

Seguire questa procedura per scaricare ed eseguire il contenitore in ambienti disconnessi.

Scaricare un modello per il contenitore disconnesso. Per questo passaggio, usare normale risorsa Voce di Azure AI configurata per l'uso di un piano tariffario "S0 - Standard" o di un piano tariffario con livello di impegno "Riconoscimento vocale (personalizzato)".
Scaricare la licenza del contenitore disconnesso. Per questo passaggio, usare una risorsa Voce di Azure AI configurata per l'uso del piano tariffario "Impegno DC0 (disconnesso)".
Eseguire il contenitore disconnesso per il servizio. Per questo passaggio, usare una risorsa Voce di Azure AI configurata per l'uso del piano tariffario "Impegno DC0 (disconnesso)".

Scaricare un modello per il contenitore disconnesso

Per questo passaggio, usare normale risorsa Voce di Azure AI configurata per l'uso di un piano tariffario "S0 - Standard" o di un piano tariffario con livello di impegno "Riconoscimento vocale (personalizzato)".

La tabella seguente rappresenta i vari parametri docker run e le descrizioni corrispondenti:

Parametro	Descrizione
`{VOLUME_MOUNT}`	Montaggio del volume del computer host, usato da Docker per rendere persistente il modello personalizzato. Ne è un esempio `c:\CustomSpeech`, dove l'unità `c:\` si trova nel computer host.
`{MODEL_ID}`	ID modello di base o voce personalizzato. Per altre informazioni, vedere Ottenere l'ID modello.
`{ENDPOINT_URI}`	L'endpoint è necessario per misurazione e fatturazione. Per altre informazioni, vedere argomenti di fatturazione.
`{API_KEY}`	La chiave API è obbligatoria. Per altre informazioni, vedere argomenti di fatturazione.

Ecco un esempio del comando docker run con valori segnaposto. È necessario specificare i valori VOLUME_MOUNT, MODEL_ID, ENDPOINT_URI e API_KEY:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Questo comando:

Esegue un contenitore di riconoscimento vocale personalizzato dall'immagine del contenitore.
Alloca 4 core della CPU e 8 GB di memoria.
Carica il modello di riconoscimento vocale personalizzato dal montaggio di input del volume, ad esempio C:\CustomSpeech.
Espone la porta TCP 5000 e alloca un pseudo terminale TTY per il contenitore.
Scarica il modello dato ModelId (se non trovato nel montaggio del volume).
Se il modello personalizzato è stato scaricato in precedenza, ModelId viene ignorato.
Rimuove automaticamente il contenitore dopo la chiusura. L'immagine del contenitore rimane disponibile nel computer host.

Per altre informazioni su docker run con i contenitori di Voce, vedere Installare ed eseguire contenitori di Voce con Docker.

Scaricare la licenza del contenitore disconnesso

Scaricare quindi il file di licenza disconnesso. Il parametro DownloadLicense=True nel comando docker run scarica un file di licenza che consente l'esecuzione del contenitore Docker quando non è connesso a Internet. Contiene anche una data di scadenza dopo la quale il file di licenza non sarà valido per l’esecuzione del contenitore.

È possibile usare un file di licenza solo con il contenitore appropriato e il modello per cui è stata ricevuta l'approvazione. Ad esempio, non è possibile usare un file di licenza per un contenitore speech-to-text con un contenitore neural-text-to-speech.

Segnaposto	Descrizione
`{IMAGE}`	L’immagine del contenitore da usare. Ad esempio: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{LICENSE_MOUNT}`	Il percorso in cui viene scaricata e montata la licenza. Ad esempio: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Percorso in cui si trova il modello. Ad esempio: `/host/models:/usr/local/models`
`{ENDPOINT_URI}`	L’endpoint per l'autenticazione della richiesta di servizio. È disponibile nella pagina Chiave ed endpoint della risorsa nel portale di Azure. Ad esempio: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Chiave per la risorsa Voce. È disponibile nella pagina Chiave ed endpoint della risorsa nel portale di Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	La posizione della cartella di licenza nel file system locale del contenitore. Ad esempio: `/path/to/license/directory`

Per questo passaggio, usare una risorsa Voce di Azure AI configurata per l'uso del piano tariffario "Impegno DC0 (disconnesso)".

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Eseguire il contenitore disconnesso

Dopo aver scaricato il file di licenza, è possibile eseguire il contenitore in un ambiente disconnesso. Nell'esempio seguente viene illustrata la formattazione del comando docker run da usare, con valori segnaposto. Sostituire questi valori segnaposto con i propri valori.

Ovunque venga eseguito il contenitore, il file di licenza deve essere montato nel contenitore e la posizione della cartella di licenza nel file system locale del contenitore deve essere specificato con Mounts:License=. È necessario specificare anche un montaggio di output in modo che sia possibile scrivere i record di utilizzo per la fatturazione.

Segnaposto	Descrizione
`{IMAGE}`	L’immagine del contenitore da usare. Ad esempio: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{MEMORY_SIZE}`	Le dimensioni appropriate della memoria da allocare per il contenitore. Ad esempio: `4g`
`{NUMBER_CPUS}`	Il numero appropriato di CPU da allocare per il contenitore. Ad esempio: `4`
`{LICENSE_MOUNT}`	Il percorso in cui viene scaricata e montata la licenza. Ad esempio: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Percorso in cui si trova il modello. Ad esempio: `/host/models:/usr/local/models`
`{OUTPUT_PATH}`	Percorso di output per la registrazione. Ad esempio: `/host/output:/path/to/output/directory` Per altre informazioni, vedere i record di utilizzo nella documentazione dei Servizi di Azure AI.
`{ENDPOINT_URI}`	L’endpoint per l'autenticazione della richiesta di servizio. È disponibile nella pagina Chiave ed endpoint della risorsa nel portale di Azure. Ad esempio: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Chiave per la risorsa Voce. È disponibile nella pagina Chiave ed endpoint della risorsa nel portale di Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	La posizione della cartella di licenza nel file system locale del contenitore. Ad esempio: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	La posizione della cartella di output nel file system locale del contenitore. Ad esempio: `/path/to/output/directory`

Per questo passaggio, usare una risorsa Voce di Azure AI configurata per l'uso del piano tariffario "Impegno DC0 (disconnesso)".

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Il contenitore di riconoscimento vocale personalizzato forniscono una directory predefinita per la scrittura del file di licenza e del log di fatturazione in fase di esecuzione. Le directory predefinite sono rispettivamente /license e /output.

Quando si montano queste directory nel contenitore con il comando docker run -v, assicurarsi che la directory del computer locale sia impostata su user:group nonroot:nonroot prima di eseguire il contenitore.

Di seguito è riportato un comando di esempio con cui impostare la proprietà di file/directory.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Usare il contenitore

I contenitori voce forniscono API endpoint di query basate su websocket a cui si accede tramite Speech SDK e interfaccia della riga di comando di Voce. Per impostazione predefinita, il Software Development Kit e l'interfaccia della riga di comando di Voce usano il servizio Voce pubblico. Per usare il contenitore, è necessario modificare il metodo di inizializzazione.

Importante

Quando si usa il servizio Voce con contenitori, assicurarsi di usare l’autenticazione host. Se si configura la chiave e l'area, le richieste verranno inviate al servizio Voce pubblico. I risultati del servizio Voce potrebbero non essere quelli previsti. Le richieste provenienti da contenitori disconnessi avranno esito negativo.