Mi az egyéni beszéd?

Az egyéni beszéd segítségével kiértékelheti és javíthatja az alkalmazások és termékek beszédfelismerésének pontosságát. Egyéni beszédmodell használható valós idejű szövegfelolvasáshoz, beszédfordításhoz és kötegelt átíráshoz.

A beszédfelismerés alapmodellként univerzális nyelvi modellt használ, amely a Microsoft tulajdonában lévő adatokkal van betanítve, és a gyakran használt beszélt nyelvet tükrözi. Az alapmodellt előre betanítottuk a különböző közös tartományokat képviselő dialektusokkal és fonetikusokkal. Beszédfelismerési kérések esetén alapértelmezés szerint az egyes támogatott nyelvekhez tartozó legújabb alapmodellt használja a rendszer. Az alapmodell a legtöbb beszédfelismerési forgatókönyvben jól működik.

Az egyéni modell az alapmodell kiegészítésére használható az alkalmazásra jellemző tartományspecifikus szókincsek felismerésének javítására a modell betanításához szükséges szöveges adatok biztosításával. Az alkalmazás adott hangfeltételei alapján a felismerés javítására is használható, ha referencia-átiratokat ad meg a hangadatoknak.

A modelleket strukturált szöveggel is betaníthatja, ha az adatok követnek egy mintát, egyéni kiejtéseket adhat meg, és testre szabhatja a megjelenített szövegformázást egyéni inverz szöveg normalizálásával, egyéni átírással és egyéni trágárságszűréssel.

Hogyan működik?

Az egyéni beszéddel feltöltheti a saját adatait, tesztelheti és betanítheti az egyéni modelleket, összehasonlíthatja a modellek közötti pontosságot, és üzembe helyezhet egy modellt egy egyéni végponton.

Diagram that highlights the components that make up the custom speech area of the Speech Studio.

Az előző ábrán látható lépések sorrendjéről az alábbi további információk találhatók:

  1. Hozzon létre egy projektet , és válasszon egy modellt. Használja az Azure Portalon létrehozott Speech-erőforrást . Ha hangadatokkal tanít be egyéni modellt, válasszon egy beszéderőforrás-régiót dedikált hardverrel a hangadatok betanításához. További információ: lábjegyzetek a régiók táblában.
  2. Tesztadatok feltöltése. Töltse fel a tesztadatokat, hogy kiértékelje a beszédet az alkalmazások, eszközök és termékek szövegajánlatának kiértékeléséhez.
  3. A felismerés minőségének tesztelése. A Speech Studióval lejátszhatja a feltöltött hangokat, és megvizsgálhatja a tesztadatok beszédfelismerési minőségét.
  4. Modell mennyiségi tesztelése. A beszéd és a szövegmodell pontosságának kiértékelése és javítása. A Speech szolgáltatás mennyiségi szóhibaarányt (WER) biztosít, amellyel megállapíthatja, hogy szükség van-e további betanításra.
  5. Modell betanítása. Adjon meg írásos átiratokat és kapcsolódó szöveget a megfelelő hangadatokkal együtt. A modell tesztelése a betanítás előtt és után nem kötelező, de ajánlott.

    Feljegyzés

    Az egyéni beszédmodellek használatáért és a végpontok üzemeltetéséért fizetnie kell. Ha az alapmodell 2023. október 1-jén és később jött létre, az egyéni beszédmodell betanításáért is díjat számítunk fel. A betanításért nem kell fizetnie, ha az alapmodell 2023 októbere előtt lett létrehozva. További információ: Az Azure AI Speech díjszabása és a Speech to Text 3.2 migrálási útmutatójának adaptálási díja című szakasza.

  6. Modell üzembe helyezése. Ha elégedett a teszteredményekkel, helyezze üzembe a modellt egy egyéni végponton. A kötegelt átírás kivételével egyéni végpontot kell üzembe helyeznie egy egyéni beszédmodell használatához.

    Tipp.

    A Batch átírási API-val való egyéni beszéd használatához nincs szükség üzemeltetett üzembehelyezési végpontra. Ha az egyéni beszédmodellt csak kötegelt átíráshoz használják, az erőforrásokat meg lehet takarékoskodni. További információkért lásd a Speech service díjszabását.

Felelős AI

Az AI-rendszerek nem csak a technológiát, hanem az azt használó személyeket, az érintett személyeket és az üzembe helyezett környezetet is magukban foglalják. Az átláthatósági megjegyzésekből megtudhatja, hogyan használhatja a mesterséges intelligenciát és üzembe helyezést a rendszerekben.

Következő lépések