Feliratozás szövegfelolvasással

Cikk
02/16/2024

Ebben az útmutatóban megtudhatja, hogyan hozhat létre képaláírás szövegfelolvasással. A feliratozás a televíziós közvetítés, a webes közvetítés, a film, a videó, az élő esemény vagy más éles környezet hangtartalmának szöveggé alakítása, majd a szöveg képernyőn, monitoron vagy más vizuális megjelenítési rendszeren való megjelenítésének folyamata.

Az alapfogalmak közé tartozik a képaláírás szinkronizálása a bemeneti hanggal, a trágár szűrők alkalmazása, a részleges eredmények lekérése, a testreszabások alkalmazása és a beszélt nyelvek azonosítása többnyelvű forgatókönyvekhez. Ez az útmutató a beszédhez való képaláírás ismerteti, de nem tartalmaz beszélőazonosítót vagy hangeffektusokat, például harangok csengetését.

Íme néhány gyakori képaláírás forgatókönyv:

Online tanfolyamok és oktatóvideó
Sportesemények
Hang- és videohívások

A képaláírás használata során az alábbi szempontokat érdemes figyelembe venni:

Tájékoztassa a közönséget, hogy a képaláírás egy automatizált szolgáltatás hozza létre.
Középre képaláírás vízszintesen a képernyőn, nagy és jól látható betűtípussal.
Fontolja meg, hogy használjon-e részleges eredményeket, mikor jelenjenek meg képaláírás, és hány szót jelenítsen meg egyszerre.
További információ az olyan protokollok képaláírás, mint az SMPTE-TT.
Fontolja meg az olyan kimeneti formátumokat, mint az SRT (SubRip Text) és a WebVTT (webes videószöveg-sávok). Ezek betölthetők a legtöbb video lejátszóra, például a VLC-be, automatikusan hozzáadva a képaláírás a videóhoz.

Tipp.

Próbálja ki a Speech Studiót, és válasszon egy minta videoklipet a valós idejű vagy offline feldolgozású képaláírás eredményeinek megtekintéséhez.

Próbálja ki az Azure AI Video Indexert, amely bemutatja, hogyan szerezhet be képaláírás a feltöltött videókhoz.

A feliratozás valós idejű vagy előre rögzített beszédet is tartalmazhat. Akár valós időben, akár felvétellel jeleníti meg a képaláírás, a Speech SDK-val vagy a Speech CLI-vel felismerheti a beszédet, és átiratokat kérhet le. Az előre rögzített videókhoz a Batch átírási API-t is használhatja.

Felirat kimeneti formátuma

A Speech szolgáltatás támogatja az olyan kimeneti formátumokat, mint az SRT (SubRip Text) és a WebVTT (webes videószöveg-sávok). Ezek betölthetők a legtöbb video lejátszóra, például a VLC-be, automatikusan hozzáadva a képaláírás a videóhoz.

Tipp.

A Speech szolgáltatás profanitásszűrő lehetőségeket biztosít. Megadhatja, hogy maszkolást, eltávolítást vagy trágárságot jelenítsen meg.

Az SRT (SubRip Text) időtartomány kimeneti formátuma .hh:mm:ss,fff

1
00:00:00,180 --> 00:00:03,230
Welcome to applied Mathematics course 201.

A WebVTT (webvideószöveg-sávok) időbélyegének kimeneti formátuma a következő hh:mm:ss.fff: .

WEBVTT

00:00:00.180 --> 00:00:03.230
Welcome to applied Mathematics course 201.
{
  "ResultId": "8e89437b4b9349088a933f8db4ccc263",
  "Duration": "00:00:03.0500000"
}

Hang bevitele a Speech szolgáltatásba

Valós idejű képaláírás a fájlbemenet helyett használjon mikrofon- vagy hangbemeneti streamet. A mikrofonból származó beszéd felismerésére példaként tekintse meg a Beszéd szöveggé rövid útmutatót és a Beszédfelismerés dokumentációját. A streamelésről további információt a hangbemeneti stream használata című témakörben talál.

Az előre rögzített adatok képaláírás fájlbemenetet küldhet a Speech szolgáltatásnak. További információ: A tömörített bemeneti hang használata.

Felirat- és beszédszinkronizálás

Szinkronizálni szeretné a képaláírás a hangsávmal, akár valós időben, akár előre rögzített adatokkal.

A Speech szolgáltatás a felismert beszéd eltolását és időtartamát adja vissza.

Eltolás: Az eltolás a felismert hangstreambe, időtartamként kifejezve. Az eltolást az SDK által feldolgozott első hang bájthoz tartozó (nulla) osztásjelekkel 0 kell mérni. Az eltolás például a felismerés megkezdésekor kezdődik, mivel az SDK ekkor kezdi el a hangstream feldolgozását. Egy pipa száz nanoszekundumot vagy egy tizedmásodpercet jelöl.
Időtartam: A felismert kimondott szöveg időtartama. A kullancsok időtartama nem tartalmazza a záró vagy a vezető csendet.

További információ: Beszédfelismerési eredmények lekérése.

Részleges eredmények lekérése

Fontolja meg, hogy mikor jelenjenek meg képaláírás, és hány szót jelenítsen meg egyszerre. A beszédfelismerési eredmények változhatnak, miközben a kimondott szöveg továbbra is felismerhető. A rendszer az egyes Recognizing eseményekkel részleges eredményeket ad vissza. Az egyes szavak feldolgozása során a Speech szolgáltatás újra kiértékel egy kimondott szöveget az új környezetben, és ismét a legjobb eredményt adja vissza. Az új eredmény nem garantáltan megegyezik az előző eredményével. Egy kimondott szöveg teljes és végleges átirata az eseményhez lesz Recognized visszaadva.

Feljegyzés

A részleges eredmények írásjele nem érhető el.

Az előre felvett beszéd képaláírás, vagy ha a késés nem okoz problémát, megvárhatja az egyes kimondott szövegek teljes átiratát, mielőtt bármilyen szót megjelenítenének. Figyelembe véve az egyes szavak végső eltolását és időtartamát egy kimondott szövegben, tudja, mikor jelenjenek meg a következő szavak a hangsávban.

A valós idejű képaláírás a késés és a pontosság tekintetében kompromisszumokat jelentenek. Az egyes Recognizing események szövegét a lehető leghamarabb megjelenítheti. Ha azonban el tud fogadni némi késést, az esemény szövegének Recognized megjelenítésével javíthatja a képaláírás pontosságát. Van egy középső terület is, amelyet "stabil részleges eredményeknek" neveznek.

Kérheti, hogy a Speech szolgáltatás kevesebb Recognizing , pontosabb eseményt adjon vissza. Ez úgy történik, hogy a SpeechServiceResponse_StablePartialResultThreshold tulajdonságot egy és egy közötti 21474836470 értékre állítja be. A beállított érték az a szám, amikor egy szót fel kell ismerni, mielőtt a Speech szolgáltatás eseményt Recognizing ad vissza. Ha például a SpeechServiceResponse_StablePartialResultThreshold tulajdonság értékét 5állítja be, a Speech szolgáltatás legalább ötször megerősíti egy szó felismerését, mielőtt a részleges eredményeket egy Recognizing eseménysel visszaadja Önnek.

speechConfig.SetProperty(PropertyId.SpeechServiceResponse_StablePartialResultThreshold, 5);

speechConfig->SetProperty(PropertyId::SpeechServiceResponse_StablePartialResultThreshold, 5);

speechConfig.SetProperty(common.SpeechServiceResponseStablePartialResultThreshold, 5)

speechConfig.setProperty(PropertyId.SpeechServiceResponse_StablePartialResultThreshold, 5);

speechConfig.setProperty(sdk.PropertyId.SpeechServiceResponse_StablePartialResultThreshold, 5);

[self.speechConfig setPropertyTo:5 byId:SPXSpeechServiceResponseStablePartialResultThreshold];

self.speechConfig!.setPropertyTo(5, by: SPXPropertyId.speechServiceResponseStablePartialResultThreshold)

speech_config.set_property(property_id = speechsdk.PropertyId.SpeechServiceResponse_StablePartialResultThreshold, value = 5)

spx recognize --file caption.this.mp4 --format any --property SpeechServiceResponse_StablePartialResultThreshold=5 --output vtt file - --output srt file -

A stabilabb részleges eredmények kérése csökkenti a "villódzást" vagy a szöveg módosítását, de növelheti a késést, amikor nagyobb megbízhatósági eredményekre vár.

Példa stabil részleges küszöbértékre

A következő, stabil részleges küszöbérték beállítása nélküli felismerési sorozatban a "matematika" szóként van felismerve, de a végső szöveg a "matematika". Egy másik ponton a "2. kurzus" felismerhető, de a végső szöveg a "course 201".

RECOGNIZING: Text=welcome to
RECOGNIZING: Text=welcome to applied math
RECOGNIZING: Text=welcome to applied mathematics
RECOGNIZING: Text=welcome to applied mathematics course 2
RECOGNIZING: Text=welcome to applied mathematics course 201
RECOGNIZED: Text=Welcome to applied Mathematics course 201.

Az előző példában az átiratok additívak voltak, és nem vontak vissza szöveget. Máskor azonban előfordulhat, hogy a részleges eredmények pontatlanok voltak. Mindkét esetben az instabil részleges eredmények "villódzásnak" tekinthetők a megjelenítéskor.

Ebben a példában, ha a stabil részleges eredmény küszöbértéke értékre 5van állítva, a rendszer nem módosítja vagy nem vonja vissza a szavakat.

RECOGNIZING: Text=welcome to
RECOGNIZING: Text=welcome to applied
RECOGNIZING: Text=welcome to applied mathematics
RECOGNIZED: Text=Welcome to applied Mathematics course 201.

Nyelvi azonosítás

Ha a hangnyelv megváltozhat, használjon folyamatos nyelvazonosítást. A nyelvi azonosítás a hangban beszélt nyelvek azonosítására szolgál a támogatott nyelvek listájával összehasonlítva. Legfeljebb 10 nyelvet kell megadnia, amelyek közül legalább egy a hanganyagban várható. A Speech szolgáltatás a hang legvalószínűbb nyelvét adja vissza.

Testreszabások a pontosság javítása érdekében

A kifejezéslista azoknak a szavaknak vagy kifejezéseknek a listája, amelyeket közvetlenül a beszédfelismerés megkezdése előtt ad meg. Ha egy kifejezést hozzáad egy kifejezéslistához, az növeli annak fontosságát, így nagyobb valószínűséggel lesz felismerve.

Példák a kifejezésekre:

Nevek
Földrajzi helyek
Azonos alakú szavak
Az iparág vagy a szervezet számára egyedi szavak vagy mozaikszavak

Vannak olyan helyzetek, amikor az egyéni modellek betanítása valószínűleg a legjobb megoldás a pontosság javítására. Ha például fogszabályozási előadásokat képaláírás, érdemes lehet betaníteni egy egyéni modellt a megfelelő tartományadatokkal.