Mi az egyéni beszéd?
Az egyéni beszéd segítségével kiértékelheti és javíthatja az alkalmazások és termékek beszédfelismerésének pontosságát. Egyéni beszédmodell használható valós idejű szövegfelolvasáshoz, beszédfordításhoz és kötegelt átíráshoz.
A beszédfelismerés alapmodellként univerzális nyelvi modellt használ, amely a Microsoft tulajdonában lévő adatokkal van betanítve, és a gyakran használt beszélt nyelvet tükrözi. Az alapmodellt előre betanítottuk a különböző közös tartományokat képviselő dialektusokkal és fonetikusokkal. Beszédfelismerési kérések esetén alapértelmezés szerint az egyes támogatott nyelvekhez tartozó legújabb alapmodellt használja a rendszer. Az alapmodell a legtöbb beszédfelismerési forgatókönyvben jól működik.
Az egyéni modell az alapmodell kiegészítésére használható az alkalmazásra jellemző tartományspecifikus szókincsek felismerésének javítására a modell betanításához szükséges szöveges adatok biztosításával. Az alkalmazás adott hangfeltételei alapján a felismerés javítására is használható, ha referencia-átiratokat ad meg a hangadatoknak.
A modelleket strukturált szöveggel is betaníthatja, ha az adatok követnek egy mintát, egyéni kiejtéseket adhat meg, és testre szabhatja a megjelenített szövegformázást egyéni inverz szöveg normalizálásával, egyéni átírással és egyéni trágárságszűréssel.
Hogyan működik?
Az egyéni beszéddel feltöltheti a saját adatait, tesztelheti és betanítheti az egyéni modelleket, összehasonlíthatja a modellek közötti pontosságot, és üzembe helyezhet egy modellt egy egyéni végponton.
Az előző ábrán látható lépések sorrendjéről az alábbi további információk találhatók:
- Hozzon létre egy projektet , és válasszon egy modellt. Használja az Azure Portalon létrehozott Speech-erőforrást . Ha hangadatokkal tanít be egyéni modellt, válasszon egy beszéderőforrás-régiót dedikált hardverrel a hangadatok betanításához. További információ: lábjegyzetek a régiók táblában.
- Tesztadatok feltöltése. Töltse fel a tesztadatokat, hogy kiértékelje a beszédet az alkalmazások, eszközök és termékek szövegajánlatának kiértékeléséhez.
- A felismerés minőségének tesztelése. A Speech Studióval lejátszhatja a feltöltött hangokat, és megvizsgálhatja a tesztadatok beszédfelismerési minőségét.
- Modell mennyiségi tesztelése. A beszéd és a szövegmodell pontosságának kiértékelése és javítása. A Speech szolgáltatás mennyiségi szóhibaarányt (WER) biztosít, amellyel megállapíthatja, hogy szükség van-e további betanításra.
- Modell betanítása. Adjon meg írásos átiratokat és kapcsolódó szöveget a megfelelő hangadatokkal együtt. A modell tesztelése a betanítás előtt és után nem kötelező, de ajánlott.
Feljegyzés
Az egyéni beszédmodellek használatáért és a végpontok üzemeltetéséért fizetnie kell. Ha az alapmodell 2023. október 1-jén és később jött létre, az egyéni beszédmodell betanításáért is díjat számítunk fel. A betanításért nem kell fizetnie, ha az alapmodell 2023 októbere előtt lett létrehozva. További információ: Az Azure AI Speech díjszabása és a Speech to Text 3.2 migrálási útmutatójának adaptálási díja című szakasza.
- Modell üzembe helyezése. Ha elégedett a teszteredményekkel, helyezze üzembe a modellt egy egyéni végponton. A kötegelt átírás kivételével egyéni végpontot kell üzembe helyeznie egy egyéni beszédmodell használatához.
Tipp.
A Batch átírási API-val való egyéni beszéd használatához nincs szükség üzemeltetett üzembehelyezési végpontra. Ha az egyéni beszédmodellt csak kötegelt átíráshoz használják, az erőforrásokat meg lehet takarékoskodni. További információkért lásd a Speech service díjszabását.
Felelős AI
Az AI-rendszerek nem csak a technológiát, hanem az azt használó személyeket, az érintett személyeket és az üzembe helyezett környezetet is magukban foglalják. Az átláthatósági megjegyzésekből megtudhatja, hogyan használhatja a mesterséges intelligenciát és üzembe helyezést a rendszerekben.
- Átláthatósági megjegyzés és használati esetek
- Jellemzők és korlátozások
- Integráció és felelősségteljes használat
- Adatok, adatvédelem és biztonság