Egyéni beszéd a szövegtárolókban a Dockerrel

Cikk
01/21/2024

A szövegtároló egyéni beszéde átír valós idejű beszéd- vagy kötegelt hangrögzítéseket köztes eredményekkel. Az egyéni beszédportálon létrehozott egyéni modellt használhatja. Ebből a cikkből megtudhatja, hogyan tölthet le, telepíthet és futtathat egyéni beszédet szövegtárolóba.

Az előfeltételekről, a tárolók futásának ellenőrzéséről, több tároló ugyanazon a gazdagépen való futtatásáról és a leválasztott tárolók futtatásáról további információt a Speech-tárolók telepítése és futtatása a Dockerrel című témakörben talál.

Tárolólemezképek

Az egyéni beszéd–szöveg tárolórendszerkép az összes támogatott verzióhoz és területi beállításhoz megtalálható a Microsoft Container Registry (MCR) szindikátumán. Az adattárban azure-cognitive-services/speechservices/ található, és neve custom-speech-to-text.

A teljes tárolórendszerkép neve: mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text. Egy adott verzió hozzáfűzése vagy hozzáfűzése :latest a legújabb verzió lekéréséhez.

Verzió	Elérési út
Legutóbbi	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest`
4.6.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.6.0-amd64`

A címkék kivételével latestminden címke a következő formátumban van, és megkülönbözteti a kis- és nagybetűket:

<major>.<minor>.<patch>-<platform>-<prerelease>

Feljegyzés

A locale szövegtárolókhoz való egyéni beszédet és voice az egyéni beszédet a tároló által betöltött egyéni modell határozza meg.

A címkék JSON formátumban is elérhetők az Ön kényelme érdekében. A törzs tartalmazza a tároló elérési útját és a címkék listáját. A címkék nem verzió szerint lesznek rendezve, de "latest" mindig a lista végén jelennek meg, ahogyan az ebben a kódrészletben látható:

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    "2.10.0-amd64",
    "2.11.0-amd64",
    "2.12.0-amd64",
    "2.12.1-amd64",
    <--redacted for brevity-->
    "latest"
  ]
}

Tárolórendszerkép lekérése Docker-lekéréssel

Szüksége van az előfeltételekre, beleértve a szükséges hardvert is. Tekintse meg az egyes Speech-tárolókhoz javasolt erőforrások lefoglalását is.

A Docker lekéréses parancsával letölthet egy tárolólemezképet a Microsoft Container Registryből:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

Feljegyzés

Az locale egyéni Speech-tárolókat és voice az egyéni beszédtárolókat a tároló által betöltött egyéni modell határozza meg.

A modellazonosító lekérése

A tároló futtatása előtt ismernie kell az egyéni modell modellazonosítóját vagy egy alapmodell-azonosítót. A tároló futtatásakor meg kell adnia a letöltendő és használandó modellazonosítók egyikét.

Egyéni modell azonosítója
Alapmodell azonosítója

Az egyéni modellt a Speech Studióval kell betaníteni. A modellazonosító lekéréséről további információt az egyéni beszédmodell életciklusában talál.

Screenshot that shows the custom speech training page.

Szerezze be a parancs paraméterének argumentumaként ModelId használni kívánt modellazonosítótdocker run.

Screenshot that shows custom speech model details.

A rendelkezésre álló alapmodell-információkat a beállítással BaseModelLocale={LOCALE}szerezheti be. Ezzel a beállítással felsorolhatja az adott területi beállításon elérhető alapmodelleket a számlázási fiókban.

Az alapmodell-azonosítók lekéréséhez használja a docker run parancsot. Példa:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Ez a parancs ellenőrzi a tárolórendszerképet, és visszaadja a cél területi beállítás elérhető alapmodelljeit.

Feljegyzés

Bár a docker run parancsot használja, a tároló nem indul el a szolgáltatáshoz.

A kimenet az alapmodellek listáját adja meg az információ területi beállításával, a modellazonosítóval és a létrehozás dátumával. Példa:

Checking available base model for en-us
2020/10/30 21:54:20 [Info] Searching available base models for en-us
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T08:23:42Z, Id: a3d8aab9-6f36-44cd-9904-b37389ce2bfa
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T12:01:02Z, Id: cc7826ac-5355-471d-9bc6-a54673d06e45
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2017-08-17T12:00:00Z, Id: a1f8db59-40ff-4f0e-b011-37629c3a1a53
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-04-16T11:55:00Z, Id: c7a69da3-27de-4a4b-ab75-b6716f6321e5
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-09-21T15:18:43Z, Id: da494a53-0dad-4158-b15f-8f9daca7a412
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-10-19T11:28:54Z, Id: 84ec130b-d047-44bf-a46d-58c1ac292ca7
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T07:59:09Z, Id: ee5c100f-152f-4ae5-9e9d-014af3c01c56
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T09:21:55Z, Id: d04959a6-71da-4913-9997-836793e3c115
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-01-11T10:04:19Z, Id: 488e5f23-8bc5-46f8-9ad8-ea9a49a8efda
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-02-18T14:37:57Z, Id: 0207b3e6-92a8-4363-8c0e-361114cdd719
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-03-03T17:34:10Z, Id: 198d9b79-2950-4609-b6ec-f52254074a05
2020/10/30 21:54:21 [Fatal] Please run this tool again and assign --modelId '<one above base model id>'. If no model id listed above, it means currently there is no available base model for en-us

Modell letöltésének megjelenítése

A tároló futtatása előtt igény szerint lekérheti a rendelkezésre álló megjelenítési modellek adatait, és kiválaszthatja, hogy letölti ezeket a modelleket a beszéd-szövegtárolóba, hogy a végső megjelenítési kimenet jelentősen javuljon. A megjelenítési modell letöltése a custom-speech-to-text tároló 3.1.0-s és újabb verziójával érhető el.

Feljegyzés

Bár a docker run parancsot használja, a tároló nem indul el a szolgáltatáshoz.

A következő megjelenítési modelltípusok bármelyikét lekérdezheti vagy letöltheti: Rescoring (Rescore), Írásjelek (Punct), resegmentation (Resegment) és wfstitn (Wfstitn). Ellenkező esetben a FullDisplay beállítással (a többi típussal vagy anélkül) lekérdezheti vagy letöltheti az összes megjelenítési modellt.

Állítsa be a BaseModelLocale legújabb elérhető megjelenítési modell lekérdezéséhez a cél területi beállításon. Ha több megjelenítési modelltípust is tartalmaz, a parancs minden típushoz a legújabb elérhető megjelenítési modelleket adja vissza. Példa:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Állítsa be a DisplayLocale legújabb elérhető megjelenítési modell letöltését a cél területi beállításhoz. Ha be van állítva DisplayLocale, meg kell adnia FullDisplay a megjelenítési modellek szóközzel elválasztott részhalmazát is. A parancs letölti a legújabb elérhető megjelenítési modellt az egyes megadott típusokhoz. Példa:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Állítson be egy modellazonosító paramétert egy adott megjelenítési modell letöltéséhez: Rescoring (RescoreId), Írásjel (PunctId), resegmentation (ResegmentId) vagy wfstitn (WfstitnId). Ez hasonló ahhoz, ahogyan egy alapmodellt letöltene a ModelId paraméteren keresztül. Ha például le szeretne tölteni egy újraszerkesztési megjelenítési modellt, a következő parancsot használhatja a RescoreId paraméterrel:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Feljegyzés

Ha egynél több lekérdezési vagy letöltési paramétert állít be, a parancs ebben a sorrendben rangsorolja a következő sorrendet: BaseModelLocale, modellazonosító, majd DisplayLocale (csak megjelenítési modellek esetén alkalmazható).

A tároló futtatása docker-futtatással

A docker-futtatási paranccsal futtassa a tárolót a szolgáltatás számára.

Egyéni beszéd szöveggé
Leválasztott egyéni beszéd a szöveghez

Az alábbi táblázat a különböző docker run paramétereket és azok leírását jelöli:

Paraméter	Leírás
`{VOLUME_MOUNT}`	A gazdaszámítógép kötet csatlakoztatása, amelyet a Docker az egyéni modell megőrzésére használ. Ilyen például a `c:\CustomSpeechc:\` meghajtó helye a gazdagépen.
`{MODEL_ID}`	Az egyéni beszéd vagy az alapmodell azonosítója. További információ: A modellazonosító lekérése.
`{ENDPOINT_URI}`	A végpont szükséges a méréshez és a számlázáshoz. További információ: számlázási argumentumok.
`{API_KEY}`	Az API-kulcs megadása kötelező. További információ: számlázási argumentumok.

Amikor az egyéni beszédet szövegtárolóba futtatja, konfigurálja a portot, a memóriát és a PROCESSZORt az egyéni beszédnek megfelelően a szövegtároló követelményeinek és javaslatainak megfelelően.

Íme egy példaparancs docker run helyőrző értékekkel. Meg kell adnia a VOLUME_MOUNT, MODEL_ID, ENDPOINT_URIés API_KEY az értékeket:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

A parancs a következőket hajtja végre:

Egyéni beszédet futtat a tárolórendszerképből a szövegtárolóba.
4 processzormagot és 8 GB memóriát foglal le.
Betölti az egyéni beszédet a szövegmodellbe a kötetbemeneti csatlakoztatásból, például C:\CustomSpeech.
Az 5000-s TCP-portot teszi elérhetővé, és egy pszeudo-TTY-t foglal le a tárolóhoz.
Letölti a modellt a ModelId megadott (ha nem található a kötet csatlakoztatásán).
Ha az egyéni modellt korábban letöltötte, a ModelId rendszer figyelmen kívül hagyja.
A tárolót a kilépés után automatikusan eltávolítja. A tárolólemezkép továbbra is elérhető a gazdaszámítógépen.

A Speech-tárolókkal kapcsolatos docker run további információkért lásd : Speech-tárolók telepítése és futtatása a Dockerrel.

Ha leválasztott tárolókat szeretne futtatni (nem csatlakozik az internethez), el kell küldenie ezt a kéreleműrlapot , és meg kell várnia a jóváhagyást. A tárolók leválasztott környezetekben való használatára vonatkozó kötelezettségvállalási terv alkalmazásával és megvásárlásával kapcsolatos további információkért lásd : Tárolók használata leválasztott környezetekben az Azure AI-szolgáltatások dokumentációjában.

Ha az internetről leválasztott tároló futtatására van jóváhagyva, az alábbi példa a használandó parancs formázását docker run mutatja be helyőrző értékekkel. Cserélje le ezeket a helyőrző értékeket a saját értékeire.

A leválasztott egyéni beszéd szövegtárolóba való előkészítéséhez és konfigurálásához két külön beszéderőforrásra van szükség:

Egy normál Azure AI Speech-erőforrás, amely "S0 – Standard" tarifacsomag használatára van konfigurálva, vagy "Beszéd a szöveghez (egyéni)" kötelezettségvállalási szint tarifacsomagja. Ez az egyéni beszédmodellek betanítása, letöltése és konfigurálása a tárolóban való használatra.
Egy Azure AI Speech-erőforrás, amely a "DC0 Commitment (Disconnected)" díjszabási csomag használatára van konfigurálva. Ez a tároló leválasztott módban való futtatásához szükséges leválasztott tárolólicencfájl letöltésére szolgál.

Az alábbi lépéseket követve töltse le és futtassa a tárolót leválasztott környezetekben.

Töltse le a leválasztott tároló modelljét. Ehhez a lépéshez használjon egy normál Azure AI Speech-erőforrást, amely "S0 – Standard" tarifacsomag használatára van konfigurálva, vagy egy "Beszéd szöveghez (egyéni)" kötelezettségvállalási szint díjszabási csomagját.
Töltse le a leválasztott tárolólicencet. Ehhez a lépéshez használjon egy Azure AI Speech-erőforrást, amely a "DC0 Commitment (Disconnected)" díjszabási csomag használatára van konfigurálva.
Futtassa a leválasztott tárolót a szolgáltatáshoz. Ehhez a lépéshez használjon egy Azure AI Speech-erőforrást, amely a "DC0 Commitment (Disconnected)" díjszabási csomag használatára van konfigurálva.

Modell letöltése a leválasztott tárolóhoz

Ehhez a lépéshez használjon egy normál Azure AI Speech-erőforrást, amely "S0 – Standard" tarifacsomag használatára van konfigurálva, vagy egy "Beszéd szöveghez (egyéni)" kötelezettségvállalási szint díjszabási csomagját.

Az alábbi táblázat a különböző docker run paramétereket és azok leírását jelöli:

Paraméter	Leírás
`{VOLUME_MOUNT}`	A gazdaszámítógép kötet csatlakoztatása, amelyet a Docker az egyéni modell megőrzésére használ. Ilyen például a `c:\CustomSpeechc:\` meghajtó helye a gazdagépen.
`{MODEL_ID}`	Az egyéni beszéd vagy az alapmodell azonosítója. További információ: A modellazonosító lekérése.
`{ENDPOINT_URI}`	A végpont szükséges a méréshez és a számlázáshoz. További információ: számlázási argumentumok.
`{API_KEY}`	Az API-kulcs megadása kötelező. További információ: számlázási argumentumok.

Íme egy példaparancs docker run helyőrző értékekkel. Meg kell adnia a VOLUME_MOUNT, MODEL_ID, ENDPOINT_URIés API_KEY az értékeket:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

A parancs a következőket hajtja végre:

Egyéni beszédet futtat a tárolórendszerképből a szövegtárolóba.
4 processzormagot és 8 GB memóriát foglal le.
Betölti az egyéni beszédet a szövegmodellbe a kötetbemeneti csatlakoztatásból, például C:\CustomSpeech.
Az 5000-s TCP-portot teszi elérhetővé, és egy pszeudo-TTY-t foglal le a tárolóhoz.
Letölti a modellt a ModelId megadott (ha nem található a kötet csatlakoztatásán).
Ha az egyéni modellt korábban letöltötte, a ModelId rendszer figyelmen kívül hagyja.
A tárolót a kilépés után automatikusan eltávolítja. A tárolólemezkép továbbra is elérhető a gazdaszámítógépen.

A Speech-tárolókkal kapcsolatos docker run további információkért lásd : Speech-tárolók telepítése és futtatása a Dockerrel.

A leválasztott tárolólicencek letöltése

Ezután letölti a leválasztott licencfájlt. A DownloadLicense=True parancs paramétere docker run letölt egy licencfájlt, amely lehetővé teszi a Docker-tároló futtatását, ha nincs internetkapcsolata. Emellett egy lejárati dátumot is tartalmaz, amely után a licencfájl érvénytelen lesz a tároló futtatásához.

Csak a megfelelő tárolóval és modellel rendelkező licencfájlt használhatja, amelyet jóváhagyott. Például nem használhat licencfájlt tárolóval speech-to-text rendelkező neural-text-to-speech tárolókhoz.

Helyőrző	Leírás
`{IMAGE}`	A használni kívánt tárolórendszerkép. Például: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{LICENSE_MOUNT}`	A licenc letöltési és csatlakoztatási útvonala. Például: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	A modell elérési útja. Például: `/host/models:/usr/local/models`
`{ENDPOINT_URI}`	A szolgáltatáskérés hitelesítésének végpontja. Az erőforrás kulcs- és végpontoldalán , az Azure Portalon található. Például: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	A Speech-erőforrás kulcsa. Az erőforrás kulcs- és végpontoldalán , az Azure Portalon található.
`{CONTAINER_LICENSE_DIRECTORY}`	A licencmappa helye a tároló helyi fájlrendszerében. Például: `/path/to/license/directory`

Ehhez a lépéshez használjon egy Azure AI Speech-erőforrást, amely a "DC0 Commitment (Disconnected)" díjszabási csomag használatára van konfigurálva.

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

A leválasztott tároló futtatása

A licencfájl letöltése után a tárolót leválasztott környezetben futtathatja. Az alábbi példa a használt parancs formázását docker run mutatja be helyőrző értékekkel. Cserélje le ezeket a helyőrző értékeket a saját értékeire.

Bárhol is fut a tároló, a licencfájlt csatlakoztatni kell a tárolóhoz, és meg kell adni Mounts:License=a tároló helyi fájlrendszerében lévő licencmappa helyét. Kimeneti csatlakoztatást is meg kell adni, hogy meg lehessen írni a számlázási használati rekordokat.

Helyőrző	Leírás
`{IMAGE}`	A használni kívánt tárolórendszerkép. Például: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{MEMORY_SIZE}`	A tárolóhoz lefoglalandó memória mérete. Például: `4g`
`{NUMBER_CPUS}`	A tárolóhoz lefoglalandó cpu-k megfelelő száma. Például: `4`
`{LICENSE_MOUNT}`	A licenc letöltési és csatlakoztatási útvonala. Például: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	A modell elérési útja. Például: `/host/models:/usr/local/models`
`{OUTPUT_PATH}`	A naplózás kimeneti elérési útja. Például: `/host/output:/path/to/output/directory` További információ: használati rekordok az Azure AI-szolgáltatások dokumentációjában.
`{ENDPOINT_URI}`	A szolgáltatáskérés hitelesítésének végpontja. Az erőforrás kulcs- és végpontoldalán , az Azure Portalon található. Például: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	A Speech-erőforrás kulcsa. Az erőforrás kulcs- és végpontoldalán , az Azure Portalon található.
`{CONTAINER_LICENSE_DIRECTORY}`	A licencmappa helye a tároló helyi fájlrendszerében. Például: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	A kimeneti mappa helye a tároló helyi fájlrendszerén. Például: `/path/to/output/directory`

Ehhez a lépéshez használjon egy Azure AI Speech-erőforrást, amely a "DC0 Commitment (Disconnected)" díjszabási csomag használatára van konfigurálva.

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Az egyéni beszéd-szövegtároló alapértelmezett könyvtárat biztosít a licencfájl és a számlázási napló futásidőben történő írásához. Az alapértelmezett könyvtárak a /license és a /output.

Amikor ezeket a címtárakat a paranccsal csatlakoztatja a docker run -v tárolóhoz, a tároló futtatása előtt győződjön meg arról, hogy user:group nonroot:nonroot a helyi gépkönyvtár tulajdonjoga meg van adva.

Az alábbiakban egy mintaparancs látható a fájl/címtár tulajdonjogának beállításához.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

A tároló használata

A Speech-tárolók websocket-alapú lekérdezésvégpont API-kat biztosítanak, amelyek a Speech SDK-n és a Speech CLI-n keresztül érhetők el. Alapértelmezés szerint a Speech SDK és a Speech CLI a nyilvános Speech szolgáltatást használja. A tároló használatához módosítania kell az inicializálási módszert.

Fontos

Ha tárolókkal használja a Speech szolgáltatást, mindenképpen használjon gazdagép-hitelesítést. Ha konfigurálja a kulcsot és a régiót, a kérések a nyilvános beszédszolgáltatáshoz kerülnek. Előfordulhat, hogy a Speech szolgáltatás eredményei nem a vártak. A leválasztott tárolókból érkező kérések sikertelenek lesznek.