Mi az a beszédszolgáltatás?

Cikk
01/23/2024

A Speech szolgáltatás beszéd- és szövegfelolvasási képességeket biztosít egy Speech-erőforrással. Nagy pontossággal átírhatja a beszédet a szövegre, természetes hangzású szöveget készíthet beszédhangokra, lefordíthatja a beszélt hangot, és beszédfelismerést használhat beszélgetések során.

Image of tiles that highlight some Speech service features.

Egyéni hangokat hozhat létre, és az alapszókincshez egyedi szavakat is hozzáadhat, de létrehozhatja a saját modelljeit is. A beszédszolgáltatásokat bárhol futtathatja – a felhőben vagy a peremhálózati tárolókban egyaránt. A Beszéd parancssori felülettel, a Speech SDK-val , a Speech Studióval vagy a REST API-kkal egyszerűen beszédessé teheti alkalmazásait, eszközeit és eszközeit.

A beszéd számos nyelvhez, régióhoz és árponthoz érhető el.

Beszédforgatókönyvek

A beszéd gyakori forgatókönyvei a következők:

Feliratozás: Megtudhatja, hogyan szinkronizálhat képaláírás a bemeneti hanggal, alkalmazhat trágár szűrőket, kaphat részleges eredményeket, alkalmazhat testreszabásokat, és azonosíthat beszélt nyelveket többnyelvű forgatókönyvek esetén.
Hangtartalmak létrehozása: Neurális hangokkal természetesebbé és vonzóbbá teheti a csevegőrobotokkal és a hangsegédekkel folytatott interakciókat, digitális szövegeket, például e-könyveket alakíthat át hangoskönyvekké, és javíthatja az autón belüli navigációs rendszereket.
Call Center: Hívások átírása valós időben vagy egy köteg hívás feldolgozása, személyes azonosítási adatok újraírása és elemzések, például hangulat kinyerése a hívásközpont használati esetének segítése érdekében.
Nyelvtanulás: Kiejtésértékelési visszajelzést adhat a nyelvtanulóknak, támogathatja a távtanulási beszélgetések valós idejű átírását, és neurális hangokkal felhangosíthatja a hangos tananyagokat.
Hangsegédek: Természetes, emberi jellegű beszélgetési felületek létrehozása alkalmazásaikhoz és élményeikhez. A hangsegéd funkció gyors és megbízható interakciót biztosít az eszköz és az asszisztens implementációja között.

A Microsoft számos forgatókönyvhöz használja a Speechet, például a Teamsben való képaláírás, az Office 365 diktálását és a Felolvasás funkciót a Microsoft Edge böngészőben.

Image showing logos of Microsoft products where Speech service is used.

Beszédképességek

Ezek a szakaszok további információkért hivatkozásokkal összefoglalják a Speech funkcióit.

Diktálás

A beszéd használatával szöveggé alakíthatja a hangokat valós időben vagy aszinkron módon kötegelt átírással.

Tipp.

A Speech Studióban valós idejű szövegfelolvasást is kipróbálhat anélkül, hogy regisztrálná vagy írná a kódot.

Számos különböző forrásból származó hangot szöveggé konvertálhat, használhat például mikrofonokat, hangfájlokat és blobtárolót is. Az előadói diarizálással meghatározhatja, hogy ki mit és mikor mondott. Olvasható átiratok automatikus formázással és írásjelekkel.

Előfordulhat, hogy az alapmodell nem elegendő, ha a hang környezeti zajt tartalmaz, vagy számos iparági és tartományspecifikus zsargont tartalmaz. Ezekben az esetekben egyéni beszédmodelleket hozhat létre és taníthat be akusztikai, nyelvi és kiejtési adatokkal. Az egyéni beszédmodellek privátak, és versenyelőnyt jelenthetnek.

Valós idejű szövegfelolvasás

Valós idejű szövegfelolvasás esetén a hang át lesz írva, mivel a beszéd felismerhető egy mikrofonból vagy fájlból. Valós idejű beszéd használata olyan alkalmazások szövegéhez, amelyeknek valós időben kell átírni a hangokat, például:

Átiratok, képaláírás vagy feliratok élő értekezletekhez
Diarizáció
Kiejtés értékelése
Contact center ügynökök segítsége
Diktálás
Hangügynökök

Kötegelt átírás

A batch-átírás nagy mennyiségű hang átírására szolgál a tárolóban. A hangfájlokra egy közös hozzáférésű jogosultságkód (SAS) URI-jával mutathat rá, és aszinkron módon megkaphatja az átírás eredményét. Használjon kötegelt átírást olyan alkalmazásokhoz, amelyeknek tömegesen kell átírni a hangokat, például:

Átiratok, képaláírás vagy feliratok előre rögzített hanghoz
Contact center post-call analytics
Diarizáció

Szövegfelolvasás

Szövegről beszédre átalakíthatja a bemeneti szöveget emberivé, például szintetizált beszédgé. Használjon olyan neurális hangokat, amelyek emberiek, mint a mély neurális hálózatok által működtetett hangok. A beszédszintézis korrektúranyelvével (SSML) finomhangolhatja a hangmagasságot, a kiejtést, a beszédsebességet, a hangerőt és egyebeket.

Előre összeállított neurális hang: Rendkívül természetes, beépített hangok. Ellenőrizze az előre összeállított neurális hangmintákat a Voice Galleryben , és határozza meg az üzleti igényeinek megfelelő hangot.
Egyéni neurális hang: A dobozból előbukkanó előre összeállított neurális hangok mellett létrehozhat egy egyéni neurális hangot is, amely felismerhető és egyedi a márka vagy termék számára. Az egyéni neurális hangok privátak, és versenyelőnyt jelenthetnek. Itt megtekintheti az egyéni neurális hangmintákat.

Beszédfordítás

A beszédfordítás lehetővé teszi a beszéd valós idejű, többnyelvű fordítását az alkalmazásokra, eszközökre és eszközökre. Ez a funkció beszéd- és beszédfordításhoz használható.

Nyelvi azonosítás

A nyelvi azonosítás a hangban beszélt nyelvek azonosítására szolgál a támogatott nyelvek listájával összehasonlítva. Használjon nyelvi azonosítást önmagában, beszédfelismerővel vagy beszédfordítással.

Beszélőfelismerés

A beszélőfelismerés olyan algoritmusokat biztosít, amelyek egyedi hangtulajdonságuk alapján ellenőrzik és azonosítják a beszélőket. A beszélőfelismerés a "Ki beszél?" kérdés megválaszolására szolgál.

Kiejtés értékelése

A kiejtési értékelés kiértékeli a beszéd kiejtését, és visszajelzést ad a beszélőknek a beszélt hang pontosságáról és folyékonyságáról. A kiejtésértékeléssel a nyelvtanulók gyakorolhatnak, azonnali visszajelzést kaphatnak és fejleszthetik a kiejtésüket, így magabiztosabban beszélhetnek és tarthatnak előadásokat.

Szándékfelismerés

Szándékfelismerés: Beszéddel szöveggé alakíthatja a társalgási nyelv megértését a felhasználói szándékok átírt beszédből való származtatásához és a hangparancsok végrehajtásához.

Kézbesítés és jelenlét

Az Azure AI Speech funkcióit a felhőben vagy a helyszínen is üzembe helyezheti.

A tárolók használatával megfelelőségi, biztonsági vagy egyéb működési okokból közelebb hozhatja a szolgáltatást az adataihoz.

A beszédszolgáltatás szuverén felhőkben való üzembe helyezése egyes kormányzati entitások és partnereik számára érhető el. Az Azure Government-felhő például elérhető az egyesült államokbeli kormányzati entitások és partnereik számára. A 21Vianet-felhő által üzemeltetett Microsoft Azure a Kínában üzleti jelenléttel rendelkező szervezetek számára érhető el. További információ: szuverén felhők.

Diagram showing where Speech service can be deployed and accessed.

A Speech használata az alkalmazásban

A Speech Studio olyan felhasználói felületi eszközök készlete, amelyek az Azure AI Speech szolgáltatás funkcióit építik ki és integrálják az alkalmazásokban. A Speech Studióban kód nélküli megközelítéssel hozhat létre projekteket, majd a Speech SDK, a Speech CLI vagy a REST API-k használatával hivatkozhat az alkalmazásokban lévő eszközökre.

A Speech CLI egy parancssori eszköz a Speech szolgáltatás használatához anélkül, hogy kódokat kellene írnia. A Speech SDK legtöbb funkciója elérhető a Speech parancssori felületen, és egyes speciális funkciók és testreszabások le vannak benne egyszerűsítve.

A Speech SDK számos beszédalapú alkalmazás fejlesztéséhez használható Beszédszolgáltatás-képességet tesz elérhetővé. A Speech SDK számos programozási nyelven és minden platformon elérhető.

Bizonyos esetekben nem használhatja a Speech SDK-t. Ezekben az esetekben REST API-k használatával érheti el a Speech szolgáltatást. Használhatja például a REST API-kat a kötegátíráshoz és a beszélőfelismerési REST API-khoz.

Első lépések

Számos népszerű programozási nyelven kínálunk rövid útmutatókat. Az egyes rövid útmutatók célja, hogy alapszintű tervezési mintákat tanítsanak meg, és kevesebb mint 10 perc alatt futtathassa a kódot. Az egyes funkciók rövid útmutatóját az alábbi listában találja:

Kódminták

A Speech szolgáltatás mintakódja elérhető a GitHubon. Ezek a minták olyan gyakori forgatókönyveket fednek le, mint a hangfájlból vagy streamből való olvasás, a folyamatos és egyetlen lövéses felismerés, valamint az egyéni modellek használata. Az alábbi hivatkozások segítségével megtekintheti az SDK- és REST-mintákat:

Felelős AI

Az AI-rendszerek nem csak a technológiát, hanem az azt használó személyeket, az érintett személyeket és az üzembe helyezett környezetet is magukban foglalják. Az átláthatósági megjegyzésekből megtudhatja, hogyan használhatja a mesterséges intelligenciát és üzembe helyezést a rendszerekben.

Mi az a beszédszolgáltatás?

Beszédforgatókönyvek

Beszédképességek

Diktálás

Valós idejű szövegfelolvasás

Kötegelt átírás

Szövegfelolvasás

Beszédfordítás

Nyelvi azonosítás

Beszélőfelismerés

Kiejtés értékelése

Szándékfelismerés

Kézbesítés és jelenlét

A Speech használata az alkalmazásban

Első lépések

Kódminták

Felelős AI

Diktálás

Kiejtés értékelése

Egyéni neurális hang

Beszélőfelismerés

Következő lépések

További források