Egyéni beszéd a szövegtárolókban a Dockerrel
A szövegtároló egyéni beszéde átír valós idejű beszéd- vagy kötegelt hangrögzítéseket köztes eredményekkel. Az egyéni beszédportálon létrehozott egyéni modellt használhatja. Ebből a cikkből megtudhatja, hogyan tölthet le, telepíthet és futtathat egyéni beszédet szövegtárolóba.
Az előfeltételekről, a tárolók futásának ellenőrzéséről, több tároló ugyanazon a gazdagépen való futtatásáról és a leválasztott tárolók futtatásáról további információt a Speech-tárolók telepítése és futtatása a Dockerrel című témakörben talál.
Tárolólemezképek
Az egyéni beszéd–szöveg tárolórendszerkép az összes támogatott verzióhoz és területi beállításhoz megtalálható a Microsoft Container Registry (MCR) szindikátumán. Az adattárban azure-cognitive-services/speechservices/
található, és neve custom-speech-to-text
.
A teljes tárolórendszerkép neve: mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text
. Egy adott verzió hozzáfűzése vagy hozzáfűzése :latest
a legújabb verzió lekéréséhez.
Verzió | Elérési út |
---|---|
Legutóbbi | mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest |
4.6.0 | mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.6.0-amd64 |
A címkék kivételével latest
minden címke a következő formátumban van, és megkülönbözteti a kis- és nagybetűket:
<major>.<minor>.<patch>-<platform>-<prerelease>
Feljegyzés
A locale
szövegtárolókhoz való egyéni beszédet és voice
az egyéni beszédet a tároló által betöltött egyéni modell határozza meg.
A címkék JSON formátumban is elérhetők az Ön kényelme érdekében. A törzs tartalmazza a tároló elérési útját és a címkék listáját. A címkék nem verzió szerint lesznek rendezve, de "latest"
mindig a lista végén jelennek meg, ahogyan az ebben a kódrészletben látható:
{
"name": "azure-cognitive-services/speechservices/custom-speech-to-text",
"tags": [
"2.10.0-amd64",
"2.11.0-amd64",
"2.12.0-amd64",
"2.12.1-amd64",
<--redacted for brevity-->
"latest"
]
}
Tárolórendszerkép lekérése Docker-lekéréssel
Szüksége van az előfeltételekre, beleértve a szükséges hardvert is. Tekintse meg az egyes Speech-tárolókhoz javasolt erőforrások lefoglalását is.
A Docker lekéréses parancsával letölthet egy tárolólemezképet a Microsoft Container Registryből:
docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest
Feljegyzés
Az locale
egyéni Speech-tárolókat és voice
az egyéni beszédtárolókat a tároló által betöltött egyéni modell határozza meg.
A modellazonosító lekérése
A tároló futtatása előtt ismernie kell az egyéni modell modellazonosítóját vagy egy alapmodell-azonosítót. A tároló futtatásakor meg kell adnia a letöltendő és használandó modellazonosítók egyikét.
Az egyéni modellt a Speech Studióval kell betaníteni. A modellazonosító lekéréséről további információt az egyéni beszédmodell életciklusában talál.
Szerezze be a parancs paraméterének argumentumaként ModelId
használni kívánt modellazonosítótdocker run
.
Modell letöltésének megjelenítése
A tároló futtatása előtt igény szerint lekérheti a rendelkezésre álló megjelenítési modellek adatait, és kiválaszthatja, hogy letölti ezeket a modelleket a beszéd-szövegtárolóba, hogy a végső megjelenítési kimenet jelentősen javuljon. A megjelenítési modell letöltése a custom-speech-to-text tároló 3.1.0-s és újabb verziójával érhető el.
Feljegyzés
Bár a docker run
parancsot használja, a tároló nem indul el a szolgáltatáshoz.
A következő megjelenítési modelltípusok bármelyikét lekérdezheti vagy letöltheti: Rescoring (Rescore
), Írásjelek (Punct
), resegmentation (Resegment
) és wfstitn (Wfstitn
). Ellenkező esetben a FullDisplay
beállítással (a többi típussal vagy anélkül) lekérdezheti vagy letöltheti az összes megjelenítési modellt.
Állítsa be a BaseModelLocale
legújabb elérhető megjelenítési modell lekérdezéséhez a cél területi beállításon. Ha több megjelenítési modelltípust is tartalmaz, a parancs minden típushoz a legújabb elérhető megjelenítési modelleket adja vissza. Példa:
docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \ # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}
Állítsa be a DisplayLocale
legújabb elérhető megjelenítési modell letöltését a cél területi beállításhoz. Ha be van állítva DisplayLocale
, meg kell adnia FullDisplay
a megjelenítési modellek szóközzel elválasztott részhalmazát is. A parancs letölti a legújabb elérhető megjelenítési modellt az egyes megadott típusokhoz. Példa:
docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \ # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}
Állítson be egy modellazonosító paramétert egy adott megjelenítési modell letöltéséhez: Rescoring (RescoreId
), Írásjel (PunctId
), resegmentation (ResegmentId
) vagy wfstitn (WfstitnId
). Ez hasonló ahhoz, ahogyan egy alapmodellt letöltene a ModelId
paraméteren keresztül. Ha például le szeretne tölteni egy újraszerkesztési megjelenítési modellt, a következő parancsot használhatja a RescoreId
paraméterrel:
docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}
Feljegyzés
Ha egynél több lekérdezési vagy letöltési paramétert állít be, a parancs ebben a sorrendben rangsorolja a következő sorrendet: BaseModelLocale
, modellazonosító, majd DisplayLocale
(csak megjelenítési modellek esetén alkalmazható).
A tároló futtatása docker-futtatással
A docker-futtatási paranccsal futtassa a tárolót a szolgáltatás számára.
Az alábbi táblázat a különböző docker run
paramétereket és azok leírását jelöli:
Paraméter | Leírás |
---|---|
{VOLUME_MOUNT} |
A gazdaszámítógép kötet csatlakoztatása, amelyet a Docker az egyéni modell megőrzésére használ. Ilyen például a c:\CustomSpeech c:\ meghajtó helye a gazdagépen. |
{MODEL_ID} |
Az egyéni beszéd vagy az alapmodell azonosítója. További információ: A modellazonosító lekérése. |
{ENDPOINT_URI} |
A végpont szükséges a méréshez és a számlázáshoz. További információ: számlázási argumentumok. |
{API_KEY} |
Az API-kulcs megadása kötelező. További információ: számlázási argumentumok. |
Amikor az egyéni beszédet szövegtárolóba futtatja, konfigurálja a portot, a memóriát és a PROCESSZORt az egyéni beszédnek megfelelően a szövegtároló követelményeinek és javaslatainak megfelelően.
Íme egy példaparancs docker run
helyőrző értékekkel. Meg kell adnia a VOLUME_MOUNT
, MODEL_ID
, ENDPOINT_URI
és API_KEY
az értékeket:
docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}
A parancs a következőket hajtja végre:
- Egyéni beszédet futtat a tárolórendszerképből a szövegtárolóba.
- 4 processzormagot és 8 GB memóriát foglal le.
- Betölti az egyéni beszédet a szövegmodellbe a kötetbemeneti csatlakoztatásból, például C:\CustomSpeech.
- Az 5000-s TCP-portot teszi elérhetővé, és egy pszeudo-TTY-t foglal le a tárolóhoz.
- Letölti a modellt a
ModelId
megadott (ha nem található a kötet csatlakoztatásán). - Ha az egyéni modellt korábban letöltötte, a
ModelId
rendszer figyelmen kívül hagyja. - A tárolót a kilépés után automatikusan eltávolítja. A tárolólemezkép továbbra is elérhető a gazdaszámítógépen.
A Speech-tárolókkal kapcsolatos docker run
további információkért lásd : Speech-tárolók telepítése és futtatása a Dockerrel.
A tároló használata
A Speech-tárolók websocket-alapú lekérdezésvégpont API-kat biztosítanak, amelyek a Speech SDK-n és a Speech CLI-n keresztül érhetők el. Alapértelmezés szerint a Speech SDK és a Speech CLI a nyilvános Speech szolgáltatást használja. A tároló használatához módosítania kell az inicializálási módszert.
Fontos
Ha tárolókkal használja a Speech szolgáltatást, mindenképpen használjon gazdagép-hitelesítést. Ha konfigurálja a kulcsot és a régiót, a kérések a nyilvános beszédszolgáltatáshoz kerülnek. Előfordulhat, hogy a Speech szolgáltatás eredményei nem a vártak. A leválasztott tárolókból érkező kérések sikertelenek lesznek.
Az Azure-felhő inicializálási konfigurációjának használata helyett:
var config = SpeechConfig.FromSubscription(...);
Használja ezt a konfigurációt a tároló gazdagépével:
var config = SpeechConfig.FromHost(
new Uri("ws://localhost:5000"));
Az Azure-felhő inicializálási konfigurációjának használata helyett:
auto speechConfig = SpeechConfig::FromSubscription(...);
Használja ezt a konfigurációt a tároló gazdagépével:
auto speechConfig = SpeechConfig::FromHost("ws://localhost:5000");
Az Azure-felhő inicializálási konfigurációjának használata helyett:
speechConfig, err := speech.NewSpeechConfigFromSubscription(...)
Használja ezt a konfigurációt a tároló gazdagépével:
speechConfig, err := speech.NewSpeechConfigFromHost("ws://localhost:5000")
Az Azure-felhő inicializálási konfigurációjának használata helyett:
SpeechConfig speechConfig = SpeechConfig.fromSubscription(...);
Használja ezt a konfigurációt a tároló gazdagépével:
SpeechConfig speechConfig = SpeechConfig.fromHost("ws://localhost:5000");
Az Azure-felhő inicializálási konfigurációjának használata helyett:
const speechConfig = sdk.SpeechConfig.fromSubscription(...);
Használja ezt a konfigurációt a tároló gazdagépével:
const speechConfig = sdk.SpeechConfig.fromHost("ws://localhost:5000");
Az Azure-felhő inicializálási konfigurációjának használata helyett:
SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:...];
Használja ezt a konfigurációt a tároló gazdagépével:
SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithHost:"ws://localhost:5000"];
Az Azure-felhő inicializálási konfigurációjának használata helyett:
let speechConfig = SPXSpeechConfiguration(subscription: "", region: "");
Használja ezt a konfigurációt a tároló gazdagépével:
let speechConfig = SPXSpeechConfiguration(host: "ws://localhost:5000");
Az Azure-felhő inicializálási konfigurációjának használata helyett:
speech_config = speechsdk.SpeechConfig(
subscription=speech_key, region=service_region)
Használja ezt a konfigurációt a tárolóvégponttal:
speech_config = speechsdk.SpeechConfig(
host="ws://localhost:5000")
Ha a Speech CLI-t egy tárolóban használja, adja meg a --host ws://localhost:5000/
lehetőséget. Azt is meg kell adnia --key none
, hogy a parancssori felület ne használjon beszédkulcsot a hitelesítéshez. A Speech CLI konfigurálásáról további információt az Azure AI Speech CLI használatának első lépései című témakörben talál.
Próbálja ki a beszédszöveg gyorsútmutatóját a kulcs és a régió helyett gazdahitelesítés használatával.
Következő lépések
- A Speech-tárolók áttekintése
- Tárolók konfigurálása konfigurációs beállításokhoz
- További Azure AI-tárolók használata