Ismerkedés a Speech szolgáltatással az Azure-ban
A Microsoft Azure beszédfelismerési és beszédszintézisi képességeket is kínál az Azure AI Speech szolgáltatáson keresztül, amely az alábbi alkalmazásprogramozási felületeket (API-kat) tartalmazza:
- A Speech to text API
- A Szöveg a beszédhez API
Azure-erőforrások az Azure AI Speechhez
Az Azure AI Speech alkalmazásbeli használatához létre kell hoznia egy megfelelő erőforrást az Azure-előfizetésben. Az alábbi típusú erőforrásokat hozhatja létre:
- Speech-erőforrás – ezt az erőforrástípust akkor válassza ki, ha csak az Azure AI Speechet szeretné használni, vagy ha az erőforráshoz való hozzáférést és számlázást a többi szolgáltatástól elkülönítve szeretné kezelni.
- Azure AI-szolgáltatási erőforrás – ezt az erőforrástípust akkor válassza ki, ha az Azure AI Speechet más Azure AI-szolgáltatásokkal együtt szeretné használni, és együtt szeretné kezelni ezeknek a szolgáltatásoknak a hozzáférését és számlázását.
A Speech to text API
Az Azure AI Speech használatával szöveges API-val valós idejű vagy kötegelt hangátirat-átírást végezhet szöveges formátumban. Az átírás hangforrása lehet valós idejű hangbevitel egy mikrofonból vagy hangfájlból.
A Speech to text API által használt modell a Microsoft által betanított univerzális nyelvi modellen alapul. A modell adatainak a Microsoft a tulajdonosa, és ezeket a Microsoft Azure-ban használja. A modell két forgatókönyvhöz van optimalizálva: társalgáshoz és diktáláshoz. Emellett saját egyéni modelleket is készíthet és betaníthat, így akusztikai, nyelvi és kiejtési modelleket, amennyiben a Microsoft modelljei nem felelnek meg az igényeinek.
Valós idejű átírás
A valós idejű szövegfelolvasás lehetővé teszi a szöveg átírását hangstreamekben. A valós idejű átírást prezentációkhoz, bemutatókhoz vagy bármilyen olyan forgatókönyvhöz használhatja, ahol beszélnie kell egy személynek.
A valós idejű átírás akkor működik, ha az alkalmazás egy mikrofonból vagy más bemeneti forrásból (például hangfájlból) érkező hangokra figyel. Az alkalmazáskód továbbítja a hangot a szolgáltatásnak, amely visszaadja az átírt szöveget.
Kötegelt átírás
Nem minden szöveges beszédforgatókönyv valós idejű. Előfordulhat, hogy a hangrögzítések fájlmegosztáson, távoli kiszolgálón vagy akár az Azure Storage-on vannak tárolva. A hangfájlokra egy közös hozzáférésű jogosultságkód (SAS) URI-jával mutathat rá, és aszinkron módon megkaphatja az átírás eredményét.
A kötegelt átírást aszinkron módon kell futtatni, mert a kötegelt munkákat a rendszer eredményesség alapján ütemezi. Egy feladat általában a kérést követő percekben elindul, azonban nincs becslés arra vonatkozóan, hogy mikor vált futó állapotba.
A szöveg–beszéd API
A szövegfelolvasási API lehetővé teszi, hogy a szövegbevitelt hallható beszédgé alakítsa, amely közvetlenül a számítógép hangszóróján keresztül lejátszható, vagy hangfájlba írható.
A beszédszintézis hangjai
Amikor a szövegfelolvasási API-t használja, megadhatja a szöveg hangjának énekléséhez használt hangot. Ezzel a funkcióval testreszabhatja és személyesebbé teheti a beszédszintézis-megoldást.
A szolgáltatás több előre definiált hangot tartalmaz több nyelv és regionális kiejtés támogatásával, beleértve a neurális hangokat is, amelyek a neurális hálózatokat használják a beszédszintézis intonációval kapcsolatos gyakori korlátainak leküzdésére, ami természetesebb hangzást eredményez. Egyéni hangokat is fejleszthet, és használhatja őket a szövegfelolvasási API-val
Támogatott nyelvek
A szöveghez való beszéd és a beszédhez használható API-k számos nyelvet támogatnak. Az alábbi hivatkozásokra kattintva megismerkedhet a támogatott nyelvekkel:
- Beszéd szövegnyelvek számára.
- Szöveg és beszédnyelvek.