Share via


Egyéni beszéd a szövegtárolókban a Dockerrel

A szövegtároló egyéni beszéde átír valós idejű beszéd- vagy kötegelt hangrögzítéseket köztes eredményekkel. Az egyéni beszédportálon létrehozott egyéni modellt használhatja. Ebből a cikkből megtudhatja, hogyan tölthet le, telepíthet és futtathat egyéni beszédet szövegtárolóba.

Az előfeltételekről, a tárolók futásának ellenőrzéséről, több tároló ugyanazon a gazdagépen való futtatásáról és a leválasztott tárolók futtatásáról további információt a Speech-tárolók telepítése és futtatása a Dockerrel című témakörben talál.

Tárolólemezképek

Az egyéni beszéd–szöveg tárolórendszerkép az összes támogatott verzióhoz és területi beállításhoz megtalálható a Microsoft Container Registry (MCR) szindikátumán. Az adattárban azure-cognitive-services/speechservices/ található, és neve custom-speech-to-text.

A screenshot of the search connectors and triggers dialog.

A teljes tárolórendszerkép neve: mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text. Egy adott verzió hozzáfűzése vagy hozzáfűzése :latest a legújabb verzió lekéréséhez.

Verzió Elérési út
Legutóbbi mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest
4.6.0 mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.6.0-amd64

A címkék kivételével latestminden címke a következő formátumban van, és megkülönbözteti a kis- és nagybetűket:

<major>.<minor>.<patch>-<platform>-<prerelease>

Feljegyzés

A locale szövegtárolókhoz való egyéni beszédet és voice az egyéni beszédet a tároló által betöltött egyéni modell határozza meg.

A címkék JSON formátumban is elérhetők az Ön kényelme érdekében. A törzs tartalmazza a tároló elérési útját és a címkék listáját. A címkék nem verzió szerint lesznek rendezve, de "latest" mindig a lista végén jelennek meg, ahogyan az ebben a kódrészletben látható:

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    "2.10.0-amd64",
    "2.11.0-amd64",
    "2.12.0-amd64",
    "2.12.1-amd64",
    <--redacted for brevity-->
    "latest"
  ]
}

Tárolórendszerkép lekérése Docker-lekéréssel

Szüksége van az előfeltételekre, beleértve a szükséges hardvert is. Tekintse meg az egyes Speech-tárolókhoz javasolt erőforrások lefoglalását is.

A Docker lekéréses parancsával letölthet egy tárolólemezképet a Microsoft Container Registryből:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

Feljegyzés

Az locale egyéni Speech-tárolókat és voice az egyéni beszédtárolókat a tároló által betöltött egyéni modell határozza meg.

A modellazonosító lekérése

A tároló futtatása előtt ismernie kell az egyéni modell modellazonosítóját vagy egy alapmodell-azonosítót. A tároló futtatásakor meg kell adnia a letöltendő és használandó modellazonosítók egyikét.

Az egyéni modellt a Speech Studióval kell betaníteni. A modellazonosító lekéréséről további információt az egyéni beszédmodell életciklusában talál.

Screenshot that shows the custom speech training page.

Szerezze be a parancs paraméterének argumentumaként ModelId használni kívánt modellazonosítótdocker run.

Screenshot that shows custom speech model details.

Modell letöltésének megjelenítése

A tároló futtatása előtt igény szerint lekérheti a rendelkezésre álló megjelenítési modellek adatait, és kiválaszthatja, hogy letölti ezeket a modelleket a beszéd-szövegtárolóba, hogy a végső megjelenítési kimenet jelentősen javuljon. A megjelenítési modell letöltése a custom-speech-to-text tároló 3.1.0-s és újabb verziójával érhető el.

Feljegyzés

Bár a docker run parancsot használja, a tároló nem indul el a szolgáltatáshoz.

A következő megjelenítési modelltípusok bármelyikét lekérdezheti vagy letöltheti: Rescoring (Rescore), Írásjelek (Punct), resegmentation (Resegment) és wfstitn (Wfstitn). Ellenkező esetben a FullDisplay beállítással (a többi típussal vagy anélkül) lekérdezheti vagy letöltheti az összes megjelenítési modellt.

Állítsa be a BaseModelLocale legújabb elérhető megjelenítési modell lekérdezéséhez a cél területi beállításon. Ha több megjelenítési modelltípust is tartalmaz, a parancs minden típushoz a legújabb elérhető megjelenítési modelleket adja vissza. Példa:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Állítsa be a DisplayLocale legújabb elérhető megjelenítési modell letöltését a cél területi beállításhoz. Ha be van állítva DisplayLocale, meg kell adnia FullDisplay a megjelenítési modellek szóközzel elválasztott részhalmazát is. A parancs letölti a legújabb elérhető megjelenítési modellt az egyes megadott típusokhoz. Példa:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Állítson be egy modellazonosító paramétert egy adott megjelenítési modell letöltéséhez: Rescoring (RescoreId), Írásjel (PunctId), resegmentation (ResegmentId) vagy wfstitn (WfstitnId). Ez hasonló ahhoz, ahogyan egy alapmodellt letöltene a ModelId paraméteren keresztül. Ha például le szeretne tölteni egy újraszerkesztési megjelenítési modellt, a következő parancsot használhatja a RescoreId paraméterrel:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Feljegyzés

Ha egynél több lekérdezési vagy letöltési paramétert állít be, a parancs ebben a sorrendben rangsorolja a következő sorrendet: BaseModelLocale, modellazonosító, majd DisplayLocale (csak megjelenítési modellek esetén alkalmazható).

A tároló futtatása docker-futtatással

A docker-futtatási paranccsal futtassa a tárolót a szolgáltatás számára.

Az alábbi táblázat a különböző docker run paramétereket és azok leírását jelöli:

Paraméter Leírás
{VOLUME_MOUNT} A gazdaszámítógép kötet csatlakoztatása, amelyet a Docker az egyéni modell megőrzésére használ. Ilyen például a c:\CustomSpeechc:\ meghajtó helye a gazdagépen.
{MODEL_ID} Az egyéni beszéd vagy az alapmodell azonosítója. További információ: A modellazonosító lekérése.
{ENDPOINT_URI} A végpont szükséges a méréshez és a számlázáshoz. További információ: számlázási argumentumok.
{API_KEY} Az API-kulcs megadása kötelező. További információ: számlázási argumentumok.

Amikor az egyéni beszédet szövegtárolóba futtatja, konfigurálja a portot, a memóriát és a PROCESSZORt az egyéni beszédnek megfelelően a szövegtároló követelményeinek és javaslatainak megfelelően.

Íme egy példaparancs docker run helyőrző értékekkel. Meg kell adnia a VOLUME_MOUNT, MODEL_ID, ENDPOINT_URIés API_KEY az értékeket:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

A parancs a következőket hajtja végre:

  • Egyéni beszédet futtat a tárolórendszerképből a szövegtárolóba.
  • 4 processzormagot és 8 GB memóriát foglal le.
  • Betölti az egyéni beszédet a szövegmodellbe a kötetbemeneti csatlakoztatásból, például C:\CustomSpeech.
  • Az 5000-s TCP-portot teszi elérhetővé, és egy pszeudo-TTY-t foglal le a tárolóhoz.
  • Letölti a modellt a ModelId megadott (ha nem található a kötet csatlakoztatásán).
  • Ha az egyéni modellt korábban letöltötte, a ModelId rendszer figyelmen kívül hagyja.
  • A tárolót a kilépés után automatikusan eltávolítja. A tárolólemezkép továbbra is elérhető a gazdaszámítógépen.

A Speech-tárolókkal kapcsolatos docker run további információkért lásd : Speech-tárolók telepítése és futtatása a Dockerrel.

A tároló használata

A Speech-tárolók websocket-alapú lekérdezésvégpont API-kat biztosítanak, amelyek a Speech SDK-n és a Speech CLI-n keresztül érhetők el. Alapértelmezés szerint a Speech SDK és a Speech CLI a nyilvános Speech szolgáltatást használja. A tároló használatához módosítania kell az inicializálási módszert.

Fontos

Ha tárolókkal használja a Speech szolgáltatást, mindenképpen használjon gazdagép-hitelesítést. Ha konfigurálja a kulcsot és a régiót, a kérések a nyilvános beszédszolgáltatáshoz kerülnek. Előfordulhat, hogy a Speech szolgáltatás eredményei nem a vártak. A leválasztott tárolókból érkező kérések sikertelenek lesznek.

Az Azure-felhő inicializálási konfigurációjának használata helyett:

var config = SpeechConfig.FromSubscription(...);

Használja ezt a konfigurációt a tároló gazdagépével:

var config = SpeechConfig.FromHost(
    new Uri("ws://localhost:5000"));

Az Azure-felhő inicializálási konfigurációjának használata helyett:

auto speechConfig = SpeechConfig::FromSubscription(...);

Használja ezt a konfigurációt a tároló gazdagépével:

auto speechConfig = SpeechConfig::FromHost("ws://localhost:5000");

Az Azure-felhő inicializálási konfigurációjának használata helyett:

speechConfig, err := speech.NewSpeechConfigFromSubscription(...)

Használja ezt a konfigurációt a tároló gazdagépével:

speechConfig, err := speech.NewSpeechConfigFromHost("ws://localhost:5000")

Az Azure-felhő inicializálási konfigurációjának használata helyett:

SpeechConfig speechConfig = SpeechConfig.fromSubscription(...);

Használja ezt a konfigurációt a tároló gazdagépével:

SpeechConfig speechConfig = SpeechConfig.fromHost("ws://localhost:5000");

Az Azure-felhő inicializálási konfigurációjának használata helyett:

const speechConfig = sdk.SpeechConfig.fromSubscription(...);

Használja ezt a konfigurációt a tároló gazdagépével:

const speechConfig = sdk.SpeechConfig.fromHost("ws://localhost:5000");

Az Azure-felhő inicializálási konfigurációjának használata helyett:

SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:...];

Használja ezt a konfigurációt a tároló gazdagépével:

SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithHost:"ws://localhost:5000"];

Az Azure-felhő inicializálási konfigurációjának használata helyett:

let speechConfig = SPXSpeechConfiguration(subscription: "", region: "");

Használja ezt a konfigurációt a tároló gazdagépével:

let speechConfig = SPXSpeechConfiguration(host: "ws://localhost:5000");

Az Azure-felhő inicializálási konfigurációjának használata helyett:

speech_config = speechsdk.SpeechConfig(
    subscription=speech_key, region=service_region)

Használja ezt a konfigurációt a tárolóvégponttal:

speech_config = speechsdk.SpeechConfig(
    host="ws://localhost:5000")

Ha a Speech CLI-t egy tárolóban használja, adja meg a --host ws://localhost:5000/ lehetőséget. Azt is meg kell adnia --key none , hogy a parancssori felület ne használjon beszédkulcsot a hitelesítéshez. A Speech CLI konfigurálásáról további információt az Azure AI Speech CLI használatának első lépései című témakörben talál.

Próbálja ki a beszédszöveg gyorsútmutatóját a kulcs és a régió helyett gazdahitelesítés használatával.

Következő lépések