Ismerkedés a Speech szolgáltatással az Azure-ban

3 perc

A Microsoft Azure beszédfelismerési és beszédszintézisi képességeket is kínál az Azure AI Speech szolgáltatáson keresztül, amely az alábbi alkalmazásprogramozási felületeket (API-kat) tartalmazza:

A Speech to text API
A Szöveg a beszédhez API

Azure-erőforrások az Azure AI Speechhez

Az Azure AI Speech alkalmazásbeli használatához létre kell hoznia egy megfelelő erőforrást az Azure-előfizetésben. Az alábbi típusú erőforrásokat hozhatja létre:

Speech-erőforrás – ezt az erőforrástípust akkor válassza ki, ha csak az Azure AI Speechet szeretné használni, vagy ha az erőforráshoz való hozzáférést és számlázást a többi szolgáltatástól elkülönítve szeretné kezelni.
Azure AI-szolgáltatási erőforrás – ezt az erőforrástípust akkor válassza ki, ha az Azure AI Speechet más Azure AI-szolgáltatásokkal együtt szeretné használni, és együtt szeretné kezelni ezeknek a szolgáltatásoknak a hozzáférését és számlázását.

A Speech to text API

Az Azure AI Speech használatával szöveges API-val valós idejű vagy kötegelt hangátirat-átírást végezhet szöveges formátumban. Az átírás hangforrása lehet valós idejű hangbevitel egy mikrofonból vagy hangfájlból.

A Speech to text API által használt modell a Microsoft által betanított univerzális nyelvi modellen alapul. A modell adatainak a Microsoft a tulajdonosa, és ezeket a Microsoft Azure-ban használja. A modell két forgatókönyvhöz van optimalizálva: társalgáshoz és diktáláshoz. Emellett saját egyéni modelleket is készíthet és betaníthat, így akusztikai, nyelvi és kiejtési modelleket, amennyiben a Microsoft modelljei nem felelnek meg az igényeinek.

Valós idejű átírás

A valós idejű szövegfelolvasás lehetővé teszi a szöveg átírását hangstreamekben. A valós idejű átírást prezentációkhoz, bemutatókhoz vagy bármilyen olyan forgatókönyvhöz használhatja, ahol beszélnie kell egy személynek.

A valós idejű átírás akkor működik, ha az alkalmazás egy mikrofonból vagy más bemeneti forrásból (például hangfájlból) érkező hangokra figyel. Az alkalmazáskód továbbítja a hangot a szolgáltatásnak, amely visszaadja az átírt szöveget.

Kötegelt átírás

Nem minden szöveges beszédforgatókönyv valós idejű. Előfordulhat, hogy a hangrögzítések fájlmegosztáson, távoli kiszolgálón vagy akár az Azure Storage-on vannak tárolva. A hangfájlokra egy közös hozzáférésű jogosultságkód (SAS) URI-jával mutathat rá, és aszinkron módon megkaphatja az átírás eredményét.

A kötegelt átírást aszinkron módon kell futtatni, mert a kötegelt munkákat a rendszer eredményesség alapján ütemezi. Egy feladat általában a kérést követő percekben elindul, azonban nincs becslés arra vonatkozóan, hogy mikor vált futó állapotba.

A szöveg–beszéd API

A szövegfelolvasási API lehetővé teszi, hogy a szövegbevitelt hallható beszédgé alakítsa, amely közvetlenül a számítógép hangszóróján keresztül lejátszható, vagy hangfájlba írható.

A beszédszintézis hangjai

Amikor a szövegfelolvasási API-t használja, megadhatja a szöveg hangjának énekléséhez használt hangot. Ezzel a funkcióval testreszabhatja és személyesebbé teheti a beszédszintézis-megoldást.

A szolgáltatás több előre definiált hangot tartalmaz több nyelv és regionális kiejtés támogatásával, beleértve a neurális hangokat is, amelyek a neurális hálózatokat használják a beszédszintézis intonációval kapcsolatos gyakori korlátainak leküzdésére, ami természetesebb hangzást eredményez. Egyéni hangokat is fejleszthet, és használhatja őket a szövegfelolvasási API-val

Támogatott nyelvek

A szöveghez való beszéd és a beszédhez használható API-k számos nyelvet támogatnak. Az alábbi hivatkozásokra kattintva megismerkedhet a támogatott nyelvekkel:

Beszéd szövegnyelvek számára.
Szöveg és beszédnyelvek.

Folytatás