Contenitori riconoscimento vocale con Docker

Articolo
04/24/2024

Il contenitore di riconoscimento vocale trascrive il parlato in tempo reale o le registrazioni audio in batch con risultati intermedi. Questo articolo illustra come scaricare, installare ed eseguire un contenitore di riconoscimento vocale.

Per altre informazioni sui prerequisiti, verificare che un contenitore sia in esecuzione, che esegua più contenitori nello stesso host e che esegua contenitori disconnessi, vedere Installare ed eseguire contenitori di Voce con Docker.

Immagini del contenitore

L'immagine del contenitore di riconoscimento vocale per tutte le versioni e le impostazioni locali supportate è disponibile nel syndicate Registro Container di Microsoft. Si trova all'interno del repository azure-cognitive-services/speechservices/ ed è denominata speech-to-text.

Il nome completo dell'immagine del contenitore è mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text. Aggiungere una versione specifica o accodare :latest per ottenere la versione più recente.

Versione	Percorso
Più recente	`mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest` Il tag `latest` esegue il pull dell'immagine più recente per le impostazioni locali `en-US`.
4.6.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:4.6.0-amd64-mr-in`

Tutti i tag, ad eccezione di latest, sono nel formato seguente e fanno distinzione tra maiuscole e minuscole:

<major>.<minor>.<patch>-<platform>-<locale>-<prerelease>

I tag sono disponibili anche in formato JSON per praticità. Il corpo include il percorso del contenitore e l'elenco di tag. I tag non vengono ordinati in base alla versione, ma "latest" viene sempre incluso alla fine dell'elenco, come illustrato in questo frammento di codice:

{
  "name": "azure-cognitive-services/speechservices/speech-to-text",
  "tags": [
    "2.10.0-amd64-ar-ae",
    "2.10.0-amd64-ar-bh",
    "2.10.0-amd64-ar-eg",
    "2.10.0-amd64-ar-iq",
    "2.10.0-amd64-ar-jo",
    <--redacted for brevity-->
    "latest"
  ]
}

Ottenere l'immagine del contenitore con docker pull

Sono necessari i prerequisiti incluso l'hardware necessario. Vedere anche l'allocazione consigliata delle risorse per ogni contenitore di Voce.

Usare il comando docker pull per scaricare un'immagine del contenitore da Registro Container di Microsoft:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text:latest

Importante

Il tag latest esegue il pull dell'immagine più recente per le impostazioni locali en-US. Per altre versioni e impostazioni locali, vedere Riconoscimento vocale alle immagini del contenitore di testo.

Eseguire il contenitore con il comando docker run

Usare il comando docker run per eseguire il contenitore.

Riconoscimento vocale
Riconoscimento vocale disconnesso al testo

La tabella seguente rappresenta i vari parametri docker run e le descrizioni corrispondenti:

Parametro	Descrizione
`{ENDPOINT_URI}`	L'endpoint è necessario per misurazione e fatturazione. Per altre informazioni, vedere argomenti di fatturazione.
`{API_KEY}`	La chiave API è obbligatoria. Per altre informazioni, vedere argomenti di fatturazione.

Quando si esegue il contenitore di riconoscimento vocale, configurare la porta, la memoria e la CPU in base ai requisiti e alle raccomandazioni per il contenitore di riconoscimento vocale.

Ecco un esempio del comando docker run con valori segnaposto. È necessario specificare i valori ENDPOINT_URI e API_KEY:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
mcr.microsoft.com/azure-cognitive-services/speechservices/speech-to-text \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Questo comando:

Esegue un contenitore speech-to-text dall'immagine del contenitore.
Alloca 4 core della CPU e 8 GB di memoria.
Espone la porta TCP 5000 e alloca un pseudo terminale TTY per il contenitore.
Rimuove automaticamente il contenitore dopo la chiusura. L'immagine del contenitore rimane disponibile nel computer host.

Per eseguire contenitori disconnessi (non connessi a Internet), è necessario inviare il modulo di richiesta e attendere l'approvazione. Per altre informazioni sull'applicazione e l'acquisto di un piano di impegno per l'uso di contenitori in ambienti disconnessi, vedere Usare i contenitori in ambienti disconnessi nella documentazione sui Servizi di Azure AI.

Se è stata ricevuta l'approvazione per eseguire il contenitore disconnesso da Internet, l'esempio seguente mostra la formattazione del comando docker run da usare, con valori segnaposto. Sostituire questi valori segnaposto con i propri valori.

Il parametro DownloadLicense=True nel comando docker run scarica un file di licenza che consente l'esecuzione del contenitore Docker quando non è connesso a Internet. Contiene anche una data di scadenza dopo la quale il file di licenza non sarà valido per l’esecuzione del contenitore. È possibile usare un file di licenza solo con il contenitore appropriato per cui è stata ricevuta l'approvazione. Ad esempio, non è possibile usare un file di licenza per un contenitore speech-to-text con un contenitore neural-text-to-speech.

Segnaposto	Descrizione
`{IMAGE}`	L’immagine del contenitore da usare. Ad esempio: `mcr.microsoft.com/azure-cognitive-services/speech-to-text:latest`
`{LICENSE_MOUNT}`	Il percorso in cui viene scaricata e montata la licenza. Ad esempio: `/host/license:/path/to/license/directory`
`{ENDPOINT_URI}`	L’endpoint per l'autenticazione della richiesta di servizio. È disponibile nella pagina Chiave ed endpoint della risorsa nel portale di Azure. Ad esempio: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Chiave per la risorsa Voce. È disponibile nella pagina Chiave ed endpoint della risorsa nel portale di Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	La posizione della cartella di licenza nel file system locale del contenitore. Ad esempio: `/path/to/license/directory`

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Dopo aver scaricato il file di licenza, è possibile eseguire il contenitore in un ambiente disconnesso. Nell'esempio seguente viene illustrata la formattazione del comando docker run da usare, con valori segnaposto. Sostituire questi valori segnaposto con i propri valori.

Ovunque venga eseguito il contenitore, il file di licenza deve essere montato nel contenitore e la posizione della cartella della licenza nel file system locale del contenitore deve essere specificata con Mounts:License=. È necessario specificare anche un montaggio di output in modo che sia possibile scrivere i record di utilizzo per la fatturazione.

Segnaposto	Valore	Formato o esempio
`{IMAGE}`	L’immagine del contenitore da usare. Ad esempio: `mcr.microsoft.com/azure-cognitive-services/speech-to-text:latest`
`{MEMORY_SIZE}`	Le dimensioni appropriate della memoria da allocare per il contenitore. Ad esempio: `4g`
`{NUMBER_CPUS}`	Il numero appropriato di CPU da allocare per il contenitore. Ad esempio: `4`
`{LICENSE_MOUNT}`	Il percorso in cui viene collocata e montata la licenza. Ad esempio: `/host/license:/path/to/license/directory`
`{OUTPUT_PATH}`	Percorso di output per la registrazione. Ad esempio: `/host/output:/path/to/output/directory` Per altre informazioni, vedere i record di utilizzo nella documentazione dei Servizi di Azure AI.
`{CONTAINER_LICENSE_DIRECTORY}`	La posizione della cartella di licenza nel file system locale del contenitore. Ad esempio: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	La posizione della cartella di output nel file system locale del contenitore. Ad esempio: `/path/to/output/directory`

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

I contenitori Voce forniscono una directory predefinita per la scrittura del file di licenza e del log di fatturazione in fase di esecuzione. Le directory predefinite sono rispettivamente /license e /output.

Quando si montano queste directory nel contenitore con il comando docker run -v, assicurarsi che la directory del computer locale sia impostata su user:group nonroot:nonroot prima di eseguire il contenitore.

Ecco un comando di esempio con cui impostare la proprietà di file/directory.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Per altre informazioni su docker run con i contenitori di Voce, vedere Installare ed eseguire contenitori di Voce con Docker.

Usare il contenitore

I contenitori di Voce forniscono API di endpoint di query basate su WebSocket a cui si accede tramite il Software Development Kit e l'interfaccia della riga di comando di Voce. Per impostazione predefinita, il Software Development Kit e l'interfaccia della riga di comando di Voce usano il servizio Voce pubblico. Per usare il contenitore, è necessario modificare il metodo di inizializzazione.

Importante

Quando si usa il servizio Voce con contenitori, assicurarsi di usare l’autenticazione host. Se si configura la chiave e l'area, le richieste verranno inviate al servizio Voce pubblico. I risultati del servizio Voce potrebbero non essere quelli previsti. Le richieste provenienti da contenitori disconnessi avranno esito negativo.