Contenedores personalizados de conversión de voz en texto con Docker

Artículo
01/21/2024

El contenedor personalizado de conversión de voz en texto transcribe grabaciones de audio por lotes o de voz en tiempo real con resultados intermedios. Puede usar un modelo personalizado que haya creado en el Portal de voz personalizada. En este artículo aprenderá a descargar, instalar y ejecutar un contenedor personalizado de conversión de voz a texto.

Para obtener más información sobre los requisitos previos, validar que el contenedor se esté ejecutando, ejecutar varios contenedores en el mismo host y ejecutar contenedores desconectados, consulte Instalación y ejecución de contenedores de Voz con Docker.

Imágenes del contenedor

La imagen de contenedor personalizado de conversión de voz en texto para todas las versiones y configuraciones regionales compatibles se puede encontrar en el sindicato de Microsoft Container Registry (MCR). Reside en el repositorio azure-cognitive-services/speechservices/ y se denomina custom-speech-to-text.

El nombre completo de la imagen de contenedor es mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text. Anexa una versión específica o :latest para obtener la versión más reciente.

Versión	Path
Más reciente	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest`
4.6.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.6.0-amd64`

Todas las etiquetas, salvo latest, tienen el formato siguiente y distinguen mayúsculas de minúsculas:

<major>.<minor>.<patch>-<platform>-<prerelease>

Nota:

Los valores de locale y voice de los contenedores personalizados de conversión de voz en texto los determina el modelo personalizado que ingiere el contenedor.

Las etiquetas también están disponibles en formato JSON para tu comodidad. El cuerpo incluye la ruta de acceso del contenedor y la lista de etiquetas. Las etiquetas no están ordenadas por versión, pero "latest" siempre se incluye al final de la lista, como se muestra en este fragmento de código:

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    "2.10.0-amd64",
    "2.11.0-amd64",
    "2.12.0-amd64",
    "2.12.1-amd64",
    <--redacted for brevity-->
    "latest"
  ]
}

Obtención de la imagen de contenedor con el comando docker pull

Son necesarios los requisitos previos, incluido el hardware necesario. Consulte también la asignación recomendada de recursos para cada contenedor de voz.

Use el comando docker pull para descargar una imagen de contenedor de Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

Nota

Los valores de locale y voice de los contenedores de voz personalizados los determina el modelo personalizado que ingiere el contenedor.

Obtención del id. del modelo

Para poder ejecutar el contenedor, debe conocer el id. de modelo del modelo personalizado o un id. de modelo base. Al ejecutar el contenedor, especifique uno de los identificadores de modelo que se van a descargar y usar.

Id. de modelo personalizado
Id. del modelo base

El modelo personalizado debe entrenarse usando el Speech Studio. Para más información sobre cómo obtener el id. del modelo, consulte Ciclo de vida del modelo de voz personalizada.

Screenshot that shows the custom speech training page.

Obtenga el identificador de modelo que se va a usar como argumento para el parámetro ModelId del comando docker run.

Screenshot that shows custom speech model details.

Puede obtener información del modelo base disponible mediante la opción BaseModelLocale={LOCALE}. Esta opción le proporciona una lista de los modelos base disponibles en la configuración regional de la cuenta de facturación.

Para obtener los id. de modelo base, use el comando docker run. Por ejemplo:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Este comando comprueba la imagen del contenedor y devuelve los modelos base disponibles de la configuración regional de destino.

Nota:

Aunque use el comando docker run, el contenedor no se inicia para el servicio.

La salida proporciona una lista de modelos base con la configuración regional de información, el identificador de modelo y la fecha y hora de creación. Por ejemplo:

Checking available base model for en-us
2020/10/30 21:54:20 [Info] Searching available base models for en-us
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T08:23:42Z, Id: a3d8aab9-6f36-44cd-9904-b37389ce2bfa
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T12:01:02Z, Id: cc7826ac-5355-471d-9bc6-a54673d06e45
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2017-08-17T12:00:00Z, Id: a1f8db59-40ff-4f0e-b011-37629c3a1a53
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-04-16T11:55:00Z, Id: c7a69da3-27de-4a4b-ab75-b6716f6321e5
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-09-21T15:18:43Z, Id: da494a53-0dad-4158-b15f-8f9daca7a412
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-10-19T11:28:54Z, Id: 84ec130b-d047-44bf-a46d-58c1ac292ca7
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T07:59:09Z, Id: ee5c100f-152f-4ae5-9e9d-014af3c01c56
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T09:21:55Z, Id: d04959a6-71da-4913-9997-836793e3c115
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-01-11T10:04:19Z, Id: 488e5f23-8bc5-46f8-9ad8-ea9a49a8efda
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-02-18T14:37:57Z, Id: 0207b3e6-92a8-4363-8c0e-361114cdd719
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-03-03T17:34:10Z, Id: 198d9b79-2950-4609-b6ec-f52254074a05
2020/10/30 21:54:21 [Fatal] Please run this tool again and assign --modelId '<one above base model id>'. If no model id listed above, it means currently there is no available base model for en-us

Descarga del modelo de visualización

Antes de ejecutar el contenedor, puede obtener opcionalmente la información de los modelos de visualización disponibles y optar por descargar esos modelos en el contenedor de conversión de voz en texto para obtener una visualización de salida final altamente mejorada. La descarga del modelo de visualización está disponible con la versión 3.1.0 y posterior del contenedor personalizado de conversión de voz en texto.

Nota:

Aunque use el comando docker run, el contenedor no se inicia para el servicio.

Puede consultar o descargar cualquiera de estos tipos de modelo de presentación, o todos ellos: Rescoring (Rescore), Punctuation (Punct), resegmentation (Resegment) y wfstitn (Wfstitn). De lo contrario, puede usar la opción FullDisplay (con los otros tipos o sin ellos) para consultar o descargar todos los tipos de modelos de presentación.

Establezca BaseModelLocale para consultar el modelo de presentación más reciente disponible en la configuración regional de destino. Si incluye varios tipos de modelo para mostrar, el comando devuelve los modelos de visualización disponibles más recientes para cada tipo. Por ejemplo:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Establezca DisplayLocale para descargar el modelo de presentación más reciente disponible en la configuración regional de destino. Al establecer DisplayLocale, también debe especificar FullDisplay o un subconjunto de modelos de presentación separados por espacios. El comando descarga el modelo de visualización más reciente disponible para cada tipo especificado. Por ejemplo:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Establezca un parámetro de Id. de modelo para descargar un modelo de presentación específico: Rescoring (RescoreId), Punctuation (PunctId), resegmentation (ResegmentId) o wfstitn (WfstitnId). Esto es parecido a la forma en que descargaría un modelo base mediante el parámetro ModelId. Por ejemplo, para descargar un modelo de presentación rescoring, puede usar el comando siguiente con el parámetro RescoreId:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Nota

Si establece más de una consulta o parámetro de descarga, el comando establecerá una prioridad en este orden: BaseModelLocale, Id. de modelo y, después, DisplayLocale (solo se aplica a los modelos de presentación).

Ejecute el contenedor con docker run

Utilice el comando docker run para ejecutar el contenedor para el servicio.

Conversión de voz en texto personalizada
Conversión de voz en texto personalizada desconectada

En la tabla siguiente se representan los diversos parámetros de docker run y las descripciones correspondientes:

Parámetro	Descripción
`{VOLUME_MOUNT}`	El montaje del volumen del equipo host, que Docker usa para conservar el modelo personalizado. Un ejemplo es `c:\CustomSpeech`, donde la unidad `c:\` se encuentra en la máquina host.
`{MODEL_ID}`	Id. del modelo base o de voz personalizado. Para más información, consulte Obtener id. del modelo.
`{ENDPOINT_URI}`	El punto de conexión es necesario para la medición y la facturación. Para más información, consulte los argumentos de facturación.
`{API_KEY}`	Se necesita la clave de API. Para más información, consulta los argumentos de facturación.

Al ejecutar el contenedor personalizado de conversión de voz en texto, configure el puerto, la memoria y la CPU según los requisitos y recomendaciones del contenedor personalizado de conversión de voz en texto.

Este es un ejemplo del comando docker run con valores de marcador de posición. Debe especificar los parámetros VOLUME_MOUNT, MODEL_ID, ENDPOINT_URI y API_KEY:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Este comando:

Ejecuta un contenedor Conversión de voz a texto personalizada desde la imagen de contenedor.
Asigna 4 núcleos de CPU y 8 GB de memoria.
Carga el modelo de Conversión de voz a texto personalizada desde el montaje de entrada de volumen, por ejemplo, C:\CustomSpeech.
Expone el puerto TCP 5000 y asigna un seudo-TTY para el contenedor.
Descarga el modelo dado el ModelId (si no se encuentra en el montaje de volumen).
Si el modelo personalizado se descargó anteriormente, se omite el ModelId.
Una vez que se produce la salida, quita automáticamente el contenedor. La imagen del contenedor sigue estando disponible en el equipo host.

Para obtener más información sobre docker run con los contenedores de Voz, consulte Instalación y ejecución de contenedores de Voz con Docker.

Para ejecutar contenedores desconectados (no conectados a Internet), debe enviar este formulario de solicitud y esperar la aprobación. Para más información sobre cómo aplicar y comprar un plan de compromiso para usar contenedores en entornos desconectados, consulte Uso de contenedores en entornos desconectados en la documentación de servicios de Azure AI.

Si está aprobado para ejecutar el contenedor desconectado de Internet, en el ejemplo siguiente se muestra el formato del comando docker run que se va a usar, con valores de marcador de posición. Reemplace estos valores por los suyos.

Para preparar y configurar una voz personalizada desconectada en un contenedor de texto, necesita dos recursos de voz independientes:

Un recurso de Voz de Azure AI normal que está configurado para usar un plan de tarifa "S0 - Standard" o un plan de tarifa de nivel de compromiso "Speech to Text (personalizado)". Se usará para entrenar, descargar y configurar los modelos de voz personalizados para su uso en el contenedor.
Un recurso de Voz de Azure AI configurado para usar el plan de precios "Compromiso de DC0 (desconectado)". Se usa para descargar el archivo de licencia del contenedor desconectado necesario para ejecutar el contenedor en modo desconectado.

Siga estos pasos para descargar y ejecutar el contenedor en entornos desconectados.

Descargue un modelo para el contenedor desconectado. Para este paso, use un recurso de Voz de Azure AI normal que esté configurado para usar un plan de tarifa "S0 - Standard" o un plan de tarifa de nivel de compromiso "Speech to Text (personalizado)".
Descargue la licencia del contenedor desconectado. Para este paso, use un recurso de Voz de Azure AI que esté configurado para usar el plan de precios "compromiso de DC0 (desconectado)".
Ejecute el contenedor desconectado para el servicio. Para este paso, use un recurso de Voz de Azure AI que esté configurado para usar el plan de precios "compromiso de DC0 (desconectado)".

Descargar un modelo para el contenedor desconectado

Para este paso, use un recurso de Voz de Azure AI normal que esté configurado para usar un plan de tarifa "S0 - Standard" o un plan de tarifa de nivel de compromiso "Speech to Text (personalizado)".

En la tabla siguiente se representan los diversos parámetros de docker run y las descripciones correspondientes:

Parámetro	Descripción
`{VOLUME_MOUNT}`	El montaje del volumen del equipo host, que Docker usa para conservar el modelo personalizado. Un ejemplo es `c:\CustomSpeech`, donde la unidad `c:\` se encuentra en la máquina host.
`{MODEL_ID}`	Id. del modelo base o de voz personalizado. Para más información, consulte Obtener id. del modelo.
`{ENDPOINT_URI}`	El punto de conexión es necesario para la medición y la facturación. Para más información, consulte los argumentos de facturación.
`{API_KEY}`	Se necesita la clave de API. Para más información, consulta los argumentos de facturación.

Este es un ejemplo del comando docker run con valores de marcador de posición. Debe especificar los parámetros VOLUME_MOUNT, MODEL_ID, ENDPOINT_URI y API_KEY:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Este comando:

Ejecuta un contenedor Conversión de voz a texto personalizada desde la imagen de contenedor.
Asigna 4 núcleos de CPU y 8 GB de memoria.
Carga el modelo de Conversión de voz a texto personalizada desde el montaje de entrada de volumen, por ejemplo, C:\CustomSpeech.
Expone el puerto TCP 5000 y asigna un seudo-TTY para el contenedor.
Descarga el modelo dado el ModelId (si no se encuentra en el montaje de volumen).
Si el modelo personalizado se descargó anteriormente, se omite el ModelId.
Una vez que se produce la salida, quita automáticamente el contenedor. La imagen del contenedor sigue estando disponible en el equipo host.

Para obtener más información sobre docker run con los contenedores de Voz, consulte Instalación y ejecución de contenedores de Voz con Docker.

Descargar la licencia del contenedor desconectado

A continuación, debe descargar el archivo de la licencia desconectada. El DownloadLicense=True parámetro del docker run comando descarga un archivo de licencia que permite que el contenedor de Docker se ejecute cuando no está conectado a Internet. También contiene una fecha de expiración, tras la cual el archivo de licencia no será válido para ejecutar el contenedor.

Solo puede usar un archivo de licencia con el contenedor y modelo adecuados para los que se le haya aprobado. Por ejemplo, no se pueden usar archivos de licencia para un contenedor speech-to-text con un contenedor neural-text-to-speech.

Marcador de posición	Descripción
`{IMAGE}`	Imagen de contenedor que desea usar. Por ejemplo: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{LICENSE_MOUNT}`	La ruta de acceso donde se descarga y monta la licencia. Por ejemplo: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Ruta de acceso donde se encuentra el modelo. Por ejemplo: `/host/models:/usr/local/models`
`{ENDPOINT_URI}`	Punto de conexión para autenticar la solicitud de servicio. Puede encontrarla en la página Clave y punto de conexión del recurso en Azure Portal. Por ejemplo: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	La clave del recurso de Voz. Puede encontrarla en la página Clave y punto de conexión del recurso en Azure Portal.
`{CONTAINER_LICENSE_DIRECTORY}`	Ubicación de la carpeta de licencias en el sistema de archivos local del contenedor. Por ejemplo: `/path/to/license/directory`

Para este paso, use un recurso de Voz de Azure AI que esté configurado para usar el plan de precios "compromiso de DC0 (desconectado)".

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Ejecutar el contenedor desconectado

Una vez descargado el archivo de licencia, el contenedor se puede ejecutar en un entorno desconectado. En el ejemplo siguiente se muestra el formato del comando docker run que se va a usar, con valores de marcador de posición. Reemplace estos valores por los suyos.

Cada vez que se ejecute el contenedor, es preciso montar el archivo de licencia en el contenedor y la ubicación de la carpeta de licencias en el sistema de archivos local del contenedor debe especificarse con Mounts:License=. También se debe especificar un montaje de salida para que se puedan escribir registros de uso de facturación.

Marcador de posición	Descripción
`{IMAGE}`	Imagen de contenedor que desea usar. Por ejemplo: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{MEMORY_SIZE}`	Tamaño adecuado de la memoria que se asignará al contenedor. Por ejemplo: `4g`
`{NUMBER_CPUS}`	Número apropiado de procesadores que se asignan a un contenedor. Por ejemplo: `4`
`{LICENSE_MOUNT}`	La ruta de acceso donde se descarga y monta la licencia. Por ejemplo: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Ruta de acceso donde se encuentra el modelo. Por ejemplo: `/host/models:/usr/local/models`
`{OUTPUT_PATH}`	La ruta de acceso de salida para el registro. Por ejemplo: `/host/output:/path/to/output/directory` Para más información, consulte los registros de uso en la documentación de servicios de Azure AI.
`{ENDPOINT_URI}`	Punto de conexión para autenticar la solicitud de servicio. Puede encontrarla en la página Clave y punto de conexión del recurso en Azure Portal. Por ejemplo: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	La clave del recurso de Voz. Puede encontrarla en la página Clave y punto de conexión del recurso en Azure Portal.
`{CONTAINER_LICENSE_DIRECTORY}`	Ubicación de la carpeta de licencias en el sistema de archivos local del contenedor. Por ejemplo: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Ubicación de la carpeta de salida en el sistema de archivos local del contenedor. Por ejemplo: `/path/to/output/directory`

Para este paso, use un recurso de Voz de Azure AI que esté configurado para usar el plan de precios "compromiso de DC0 (desconectado)".

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

El contenedor de Conversión de voz en texto personalizada proporciona un directorio predeterminado para escribir el archivo de licencia y el registro de facturación en tiempo de ejecución. Los directorios predeterminados son /license y /output, respectivamente.

Cuando monte estos directorios en el contenedor con el comando docker run -v, asegúrese de que la propiedad del directorio de la máquina local está establecido en user:group nonroot:nonroot antes de ejecutar el contenedor.

A continuación se muestra un comando de ejemplo para establecer la propiedad de un archivo o directorio.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Uso del contenedor

Los contenedores de voz proporcionan las API de punto de conexión de consulta basadas en websocket a las que se accede a través del SDK de voz y la CLI de voz. De forma predeterminada, el SDK de Voz y la CLI de Voz usan el servicio de Voz público. Para usar el contenedor, deberá cambiar el método de inicialización.

Importante

Cuando uses el servicio de voz con contenedores, asegúrate de usar la autenticación de host. Si configuras la clave y la región, las solicitudes irán al servicio de voz público. Es posible que los resultados del servicio de voz no sean los esperados. Se producirá un error en las solicitudes de contenedores desconectados.