Aangepaste spraak-naar-tekstcontainers met Docker

Artikel
01/21/2024

De aangepaste spraak-naar-tekstcontainer transcribeert realtime spraak- of batchaudio-opnamen met tussenliggende resultaten. U kunt een aangepast model gebruiken dat u hebt gemaakt in de aangepaste spraakportal. In dit artikel leert u hoe u een aangepaste spraak-naar-tekstcontainer downloadt, installeert en uitvoert.

Voor meer informatie over vereisten, valideren dat een container wordt uitgevoerd, meerdere containers op dezelfde host uitvoeren en niet-verbonden containers uitvoeren, raadpleegt u Speech-containers installeren en uitvoeren met Docker.

Containerinstallatiekopieën

De containerinstallatiekopie voor aangepaste spraak-naar-tekst voor alle ondersteunde versies en landinstellingen vindt u in het MCR-syndicat (Microsoft Container Registry). Deze bevindt zich in de azure-cognitive-services/speechservices/ opslagplaats en heeft de naam custom-speech-to-text.

De volledig gekwalificeerde containerinstallatiekopieënnaam is. mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text Voeg een specifieke versie toe of voeg toe :latest om de meest recente versie op te halen.

Versie	Pad
Laatste	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest`
4.6.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.6.0-amd64`

Alle tags, met uitzondering van latest, hebben de volgende indeling en zijn hoofdlettergevoelig:

<major>.<minor>.<patch>-<platform>-<prerelease>

Notitie

De locale en voice voor aangepaste spraak-naar-tekstcontainers wordt bepaald door het aangepaste model dat door de container is opgenomen.

De tags zijn ook beschikbaar in JSON-indeling voor uw gemak. De hoofdtekst bevat het containerpad en de lijst met tags. De tags worden niet gesorteerd op versie, maar "latest" worden altijd opgenomen aan het einde van de lijst, zoals wordt weergegeven in dit fragment:

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    "2.10.0-amd64",
    "2.11.0-amd64",
    "2.12.0-amd64",
    "2.12.1-amd64",
    <--redacted for brevity-->
    "latest"
  ]
}

De containerinstallatiekopie ophalen met docker pull

U hebt de vereisten nodig, inclusief vereiste hardware. Zie ook de aanbevolen toewijzing van resources voor elke Speech-container.

Gebruik de opdracht docker pull om een containerinstallatiekopie te downloaden uit Microsoft Container Registry:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

Notitie

De locale en voice voor aangepaste Spraak-containers wordt bepaald door het aangepaste model dat door de container is opgenomen.

De model-id ophalen

Voordat u de container kunt uitvoeren , moet u de model-id van uw aangepaste model of een basismodel-id kennen. Wanneer u de container uitvoert, geeft u een van de model-id's op die u wilt downloaden en gebruiken.

Aangepaste model-id
Basismodel-id

Het aangepaste model moet worden getraind met behulp van Speech Studio. Zie de levenscyclus van het aangepaste spraakmodel voor informatie over het ophalen van de model-id.

Screenshot that shows the custom speech training page.

Haal de model-id op die moet worden gebruikt als het argument voor de ModelId parameter van de docker run opdracht.

Screenshot that shows custom speech model details.

U kunt de beschikbare basismodelgegevens ophalen met behulp van de optie BaseModelLocale={LOCALE}. Met deze optie krijgt u een lijst met beschikbare basismodellen op die landinstelling onder uw factureringsrekening.

Als u basismodel-id's wilt ophalen, gebruikt u de docker run opdracht. Voorbeeld:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Met deze opdracht wordt de containerinstallatiekopieën gecontroleerd en worden de beschikbare basismodellen van de doellandinstelling geretourneerd.

Notitie

Hoewel u de docker run opdracht gebruikt, wordt de container niet gestart voor de service.

De uitvoer geeft u een lijst met basismodellen met de landinstelling, model-id en datum-tijd voor het maken van de gegevens. Voorbeeld:

Checking available base model for en-us
2020/10/30 21:54:20 [Info] Searching available base models for en-us
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T08:23:42Z, Id: a3d8aab9-6f36-44cd-9904-b37389ce2bfa
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T12:01:02Z, Id: cc7826ac-5355-471d-9bc6-a54673d06e45
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2017-08-17T12:00:00Z, Id: a1f8db59-40ff-4f0e-b011-37629c3a1a53
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-04-16T11:55:00Z, Id: c7a69da3-27de-4a4b-ab75-b6716f6321e5
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-09-21T15:18:43Z, Id: da494a53-0dad-4158-b15f-8f9daca7a412
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-10-19T11:28:54Z, Id: 84ec130b-d047-44bf-a46d-58c1ac292ca7
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T07:59:09Z, Id: ee5c100f-152f-4ae5-9e9d-014af3c01c56
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T09:21:55Z, Id: d04959a6-71da-4913-9997-836793e3c115
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-01-11T10:04:19Z, Id: 488e5f23-8bc5-46f8-9ad8-ea9a49a8efda
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-02-18T14:37:57Z, Id: 0207b3e6-92a8-4363-8c0e-361114cdd719
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-03-03T17:34:10Z, Id: 198d9b79-2950-4609-b6ec-f52254074a05
2020/10/30 21:54:21 [Fatal] Please run this tool again and assign --modelId '<one above base model id>'. If no model id listed above, it means currently there is no available base model for en-us

Model downloaden weergeven

Voordat u de container uitvoert , kunt u desgewenst de beschikbare informatie over weergavemodellen ophalen en ervoor kiezen om deze modellen te downloaden in uw spraak-naar-tekstcontainer om de uiteindelijke uitvoer te verbeteren. Het downloaden van het weergavemodel is beschikbaar met containerversie 3.1.0 en hoger van custom-speech-to-text.

Notitie

Hoewel u de docker run opdracht gebruikt, wordt de container niet gestart voor de service.

U kunt een of meer van deze weergavemodeltypen opvragen of downloaden: Rescoring (Rescore), Interpunctie (Punct), hersegmentatie (Resegment) en wfstitn (Wfstitn). Anders kunt u de FullDisplay optie (met of zonder de andere typen) gebruiken om alle typen weergavemodellen op te vragen of te downloaden.

Stel de opdracht in BaseModelLocale om een query uit te voeren op het meest recente beschikbare weergavemodel op de doellandinstelling. Als u meerdere weergavemodeltypen opneemt, retourneert de opdracht de meest recente beschikbare weergavemodellen voor elk type. Voorbeeld:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Stel het DisplayLocale in om het meest recente beschikbare weergavemodel op de doellandinstelling te downloaden. Wanneer u instelt DisplayLocale, moet u ook een door spaties gescheiden subset van weergavemodellen opgeven FullDisplay . Met de opdracht wordt het meest recente beschikbare weergavemodel gedownload voor elk opgegeven type. Voorbeeld:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Stel één model-id-parameter in om een specifiek weergavemodel te downloaden: Rescoring (RescoreId), Interpunctie (PunctId), hersegmentatie (ResegmentId) of wfstitn (WfstitnId). Dit is vergelijkbaar met hoe u een basismodel downloadt via de ModelId parameter. Als u bijvoorbeeld een weergavemodel voor het wijzigen van het formaat wilt downloaden, kunt u de volgende opdracht gebruiken met de RescoreId parameter:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Notitie

Als u meer dan één query of downloadparameter instelt, krijgt de opdracht prioriteit in deze volgorde: BaseModelLocale, model-id en vervolgens DisplayLocale (alleen van toepassing op weergavemodellen).

De container uitvoeren met docker-uitvoering

Gebruik de opdracht docker run om de container voor de service uit te voeren.

Aangepaste spraak naar tekst
Verbinding met aangepaste spraak naar tekst verbroken

De volgende tabel vertegenwoordigt de verschillende docker run parameters en de bijbehorende beschrijvingen:

Parameter	Description
`{VOLUME_MOUNT}`	De hostcomputervolumekoppeling, die Docker gebruikt om het aangepaste model te behouden. Een voorbeeld is `c:\CustomSpeech` waar het `c:\` station zich op de hostcomputer bevindt.
`{MODEL_ID}`	De aangepaste spraak- of basismodel-id. Zie De model-id ophalen voor meer informatie.
`{ENDPOINT_URI}`	Het eindpunt is vereist voor het meten en factureren. Zie factureringsargumenten voor meer informatie.
`{API_KEY}`	De API-sleutel is vereist. Zie factureringsargumenten voor meer informatie.

Wanneer u de aangepaste spraak-naar-tekstcontainer uitvoert, configureert u de poort, het geheugen en de CPU op basis van de aangepaste spraak naar tekstcontainervereisten en aanbevelingen.

Hier volgt een voorbeeldopdracht docker run met tijdelijke aanduidingen. U moet de waarden en MODEL_IDENDPOINT_URIAPI_KEY waarden VOLUME_MOUNTopgeven:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Met deze opdracht gebeurt het volgende:

Voert een aangepaste spraak-naar-tekstcontainer uit vanuit de containerinstallatiekopie.
Wijst 4 CPU-kernen en 8 GB geheugen toe.
Laadt de aangepaste spraak naar het tekstmodel van de volumeinvoerkoppeling, bijvoorbeeld C:\CustomSpeech.
Maakt TCP-poort 5000 beschikbaar en wijst een pseudo-TTY toe voor de container.
Downloadt het model op basis van de ModelId (indien niet gevonden op de volumekoppeling).
Als het aangepaste model eerder is gedownload, wordt het ModelId genegeerd.
Hiermee wordt de container automatisch verwijderd nadat deze is afgesloten. De containerinstallatiekopie is nog steeds beschikbaar op de hostcomputer.

Zie Speech-containers installeren en uitvoeren met Docker voor meer informatie over docker run spraakcontainers.

Als u niet-verbonden containers wilt uitvoeren (niet verbonden met internet), moet u dit aanvraagformulier indienen en wachten op goedkeuring. Zie Containers gebruiken in niet-verbonden omgevingen in de documentatie van Azure AI-services voor meer informatie over het toepassen en aanschaffen van een toezeggingsplan voor het gebruik van containers in niet-verbonden omgevingen .

Als u bent goedgekeurd om de container uit te voeren die is losgekoppeld van internet, ziet u in het volgende voorbeeld de opmaak van de docker run opdracht die moet worden gebruikt, met tijdelijke aanduidingen. Vervang deze tijdelijke aanduidingen door uw eigen waarden.

Als u een niet-verbonden aangepaste spraak-naar-tekstcontainer wilt voorbereiden en configureren, hebt u twee afzonderlijke spraakresources nodig:

Een reguliere Azure AI Speech-resource die is geconfigureerd voor het gebruik van een prijscategorie S0 - Standard of een prijsplan voor de toezeggingscategorie Spraak-naar-tekst (aangepast). Dit wordt gebruikt om uw aangepaste spraakmodellen te trainen, te downloaden en te configureren voor gebruik in uw container.
Een Azure AI Speech-resource die is geconfigureerd voor het gebruik van het prijsplan 'DC0 Commitment (Disconnected)'. Dit wordt gebruikt om het niet-verbonden containerlicentiebestand te downloaden dat is vereist om de container uit te voeren in de modus Niet-verbonden.

Volg deze stappen om de container te downloaden en uit te voeren in niet-verbonden omgevingen.

Download een model voor de niet-verbonden container. Voor deze stap gebruikt u een reguliere Azure AI Speech-resource die is geconfigureerd voor het gebruik van een prijscategorie 'S0 - Standard' of een prijsplan voor 'Spraak-naar-tekst'-toezeggingscategorie (aangepast).
Download de licentie voor de niet-verbonden container. Voor deze stap gebruikt u een Azure AI Speech-resource die is geconfigureerd voor het gebruik van het prijsplan 'DC0 Commitment (Disconnected)'.
Voer de niet-verbonden container voor de service uit. Voor deze stap gebruikt u een Azure AI Speech-resource die is geconfigureerd voor het gebruik van het prijsplan 'DC0 Commitment (Disconnected)'.

Een model downloaden voor de niet-verbonden container

Voor deze stap gebruikt u een reguliere Azure AI Speech-resource die is geconfigureerd voor het gebruik van een prijscategorie 'S0 - Standard' of een prijsplan voor 'Spraak-naar-tekst'-toezeggingscategorie (aangepast).

De volgende tabel vertegenwoordigt de verschillende docker run parameters en de bijbehorende beschrijvingen:

Parameter	Description
`{VOLUME_MOUNT}`	De hostcomputervolumekoppeling, die Docker gebruikt om het aangepaste model te behouden. Een voorbeeld is `c:\CustomSpeech` waar het `c:\` station zich op de hostcomputer bevindt.
`{MODEL_ID}`	De aangepaste spraak- of basismodel-id. Zie De model-id ophalen voor meer informatie.
`{ENDPOINT_URI}`	Het eindpunt is vereist voor het meten en factureren. Zie factureringsargumenten voor meer informatie.
`{API_KEY}`	De API-sleutel is vereist. Zie factureringsargumenten voor meer informatie.

Wanneer u de aangepaste spraak-naar-tekstcontainer uitvoert, configureert u de poort, het geheugen en de CPU op basis van de aangepaste spraak naar tekstcontainervereisten en aanbevelingen.

Hier volgt een voorbeeldopdracht docker run met tijdelijke aanduidingen. U moet de waarden en MODEL_IDENDPOINT_URIAPI_KEY waarden VOLUME_MOUNTopgeven:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Met deze opdracht gebeurt het volgende:

Voert een aangepaste spraak-naar-tekstcontainer uit vanuit de containerinstallatiekopie.
Wijst 4 CPU-kernen en 8 GB geheugen toe.
Laadt de aangepaste spraak naar het tekstmodel van de volumeinvoerkoppeling, bijvoorbeeld C:\CustomSpeech.
Maakt TCP-poort 5000 beschikbaar en wijst een pseudo-TTY toe voor de container.
Downloadt het model op basis van de ModelId (indien niet gevonden op de volumekoppeling).
Als het aangepaste model eerder is gedownload, wordt het ModelId genegeerd.
Hiermee wordt de container automatisch verwijderd nadat deze is afgesloten. De containerinstallatiekopie is nog steeds beschikbaar op de hostcomputer.

Zie Speech-containers installeren en uitvoeren met Docker voor meer informatie over docker run spraakcontainers.

De licentie voor de niet-verbonden container downloaden

Vervolgens downloadt u het niet-verbonden licentiebestand. Met DownloadLicense=True de parameter in uw docker run opdracht wordt een licentiebestand gedownload waarmee uw Docker-container kan worden uitgevoerd wanneer deze niet is verbonden met internet. Het bevat ook een vervaldatum, waarna het licentiebestand ongeldig is om de container uit te voeren.

U kunt alleen een licentiebestand gebruiken met de juiste container en het juiste model waarvoor u bent goedgekeurd. U kunt bijvoorbeeld geen licentiebestand gebruiken voor een speech-to-text container met een neural-text-to-speech container.

Plaatsaanduiding	Beschrijving
`{IMAGE}`	De containerinstallatiekopieën die u wilt gebruiken. Bijvoorbeeld: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{LICENSE_MOUNT}`	Het pad waar de licentie is gedownload en gekoppeld. Bijvoorbeeld: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Het pad waar het model zich bevindt. Bijvoorbeeld: `/host/models:/usr/local/models`
`{ENDPOINT_URI}`	Het eindpunt voor het verifiëren van uw serviceaanvraag. U vindt deze op de pagina Sleutel en eindpunt van uw resource, in Azure Portal. Bijvoorbeeld: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	De sleutel voor uw Spraak-resource. U vindt deze op de pagina Sleutel en eindpunt van uw resource, in Azure Portal.
`{CONTAINER_LICENSE_DIRECTORY}`	Locatie van de licentiemap in het lokale bestandssysteem van de container. Bijvoorbeeld: `/path/to/license/directory`

Voor deze stap gebruikt u een Azure AI Speech-resource die is geconfigureerd voor het gebruik van het prijsplan 'DC0 Commitment (Disconnected)'.

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

De niet-verbonden container uitvoeren

Zodra het licentiebestand is gedownload, kunt u de container uitvoeren in een niet-verbonden omgeving. In het volgende voorbeeld ziet u de opmaak van de opdracht die docker run u gebruikt, met tijdelijke aanduidingen. Vervang deze tijdelijke aanduidingen door uw eigen waarden.

Waar de container ook wordt uitgevoerd, moet het licentiebestand worden gekoppeld aan de container en moet de locatie van de licentiemap in het lokale bestandssysteem van de container worden opgegeven met Mounts:License=. Er moet ook een uitvoerkoppeling worden opgegeven, zodat factureringsgebruiksrecords kunnen worden geschreven.

Plaatsaanduiding	Beschrijving
`{IMAGE}`	De containerinstallatiekopieën die u wilt gebruiken. Bijvoorbeeld: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{MEMORY_SIZE}`	De juiste grootte van het geheugen dat moet worden toegewezen voor uw container. Bijvoorbeeld: `4g`
`{NUMBER_CPUS}`	Het juiste aantal CPU's dat moet worden toegewezen voor uw container. Bijvoorbeeld: `4`
`{LICENSE_MOUNT}`	Het pad waar de licentie is gedownload en gekoppeld. Bijvoorbeeld: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Het pad waar het model zich bevindt. Bijvoorbeeld: `/host/models:/usr/local/models`
`{OUTPUT_PATH}`	Het uitvoerpad voor logboekregistratie. Bijvoorbeeld: `/host/output:/path/to/output/directory` Zie de documentatie voor Azure AI-services voor meer informatie.
`{ENDPOINT_URI}`	Het eindpunt voor het verifiëren van uw serviceaanvraag. U vindt deze op de pagina Sleutel en eindpunt van uw resource, in Azure Portal. Bijvoorbeeld: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	De sleutel voor uw Spraak-resource. U vindt deze op de pagina Sleutel en eindpunt van uw resource, in Azure Portal.
`{CONTAINER_LICENSE_DIRECTORY}`	Locatie van de licentiemap in het lokale bestandssysteem van de container. Bijvoorbeeld: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Locatie van de uitvoermap in het lokale bestandssysteem van de container. Bijvoorbeeld: `/path/to/output/directory`

Voor deze stap gebruikt u een Azure AI Speech-resource die is geconfigureerd voor het gebruik van het prijsplan 'DC0 Commitment (Disconnected)'.

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

De aangepaste spraak-naar-tekstcontainer biedt een standaardmap voor het schrijven van het licentiebestand en het factureringslogboek tijdens runtime. De standaardmappen zijn respectievelijk /license en /output.

Wanneer u deze mappen aan de container wilt koppelen met de docker run -v opdracht, moet u ervoor zorgen dat de map van de lokale computer het eigendom user:group nonroot:nonroot heeft ingesteld voordat u de container uitvoert.

Hieronder ziet u een voorbeeldopdracht voor het instellen van bestands-/mapeigendom.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

De container gebruiken

Spraakcontainers bieden websocket-api's voor query-eindpunten die toegankelijk zijn via de Speech SDK en Speech CLI. De Speech SDK en Speech CLI maken standaard gebruik van de openbare Speech-service. Als u de container wilt gebruiken, moet u de initialisatiemethode wijzigen.

Belangrijk

Wanneer u de Speech-service met containers gebruikt, moet u hostverificatie gebruiken. Als u de sleutel en regio configureert, worden aanvragen naar de openbare Spraak-service verzonden. Resultaten van de Speech-service zijn mogelijk niet wat u verwacht. Aanvragen van niet-verbonden containers mislukken.