Automatická identifikace a přepis vícejazyčného obsahu

Článek
03/25/2024

Důležité

Vzhledem k oznámení o vyřazení služby Azure Media Services vám Azure AI Video Indexer oznámí úpravy funkcí Azure AI Video Indexeru. Informace o tom, co to znamená pro váš účet Azure AI Video Indexer, najdete v tématu Změny související s vyřazením služby Azure Media Service (AMS). Podívejte se na průvodce přípravou na vyřazení AMS: Průvodce aktualizací VI a migrací.

Azure AI Video Indexer podporuje automatickou identifikaci jazyka a přepis v obsahu ve více jazycích. Tento proces zahrnuje automatickou identifikaci mluveného jazyka v různých segmentech od zvuku, odesílání každého segmentu mediálního souboru, který se má přepis přepisovat, a zkombinovat přepis zpět do jednoho sjednoceného přepisu.

Volba vícejazyčné identifikace při indexování pomocí portálu

Při nahrávání a indexování videa můžete zvolit detekci více jazyků. Alternativně můžete při přeindexování videa zvolit rozpoznávání více jazyků. Následující kroky popisují, jak přeindexovat:

Přejděte na web Azure AI Video Indexer a přihlaste se.
Přejděte na stránku Knihovna a najeďte myší na název videa, které chcete přeindexovat.
V pravém dolním rohu vyberte tlačítko Znovu indexovat video .
V dialogovém okně Znovu indexovat video v rozevíracím seznamu Jazyk videa zvolte rozpoznávání více jazyků.
- Když se video indexuje ve více jazycích, uživatel zobrazí segment, ve kterém jazyce se přepisuje.
- Překlad do všech jazyků je plně dostupný z přepisu ve více jazycích.
- Všechny ostatní přehledy se zobrazí v jazyce, který ve zvukovém přenosu detekoval nejvíce.
- Uzavřené popis na přehrávači je k dispozici i ve více jazycích.

Prostředí portálu

Volba vícejazyčné identifikace při indexování pomocí rozhraní API

Při indexování nebo přeindexování videa pomocí rozhraní API zvolte multi-language detection možnost v parametru sourceLanguage .

Výstup modelu

Model načte všechny jazyky zjištěné ve videu v jednom seznamu.

"sourceLanguage": null,
"sourceLanguages": [
    "es-ES",
    "en-US"
],

Kromě toho každá instance v části přepisu obsahuje jazyk, ve kterém byl přepisován.

{
  "id": 136,
  "text": "I remember well when my youth Minister took me to hear Doctor King I was a teenager.",
  "confidence": 0.9343,
  "speakerId": 1,
  "language": "en-US",
  "instances": [
    {
       "adjustedStart": "0:21:10.42",
       "adjustedEnd": "0:21:17.48",
       "start": "0:21:10.42",
       "end": "0:21:17.48"
    }
  ]
},

Řízení a omezení.

Zvuk, který obsahuje jiné jazyky než ty, které jste vybrali, způsobí neočekávané výsledky.
Minimální délka segmentu pro detekci jednotlivých jazyků je 15 sekund.
Posun detekce jazyka je v průměru 3 sekundy.
Očekává se, že řeč bude nepřetržitá. Časté alternace mezi jazyky můžou ovlivnit výkon modelu.
Řeč ne nativních mluvčích může ovlivnit výkon modelu (například když mluvčí používají svůj první jazyk a přepnou do jiného jazyka).
Model je navržený tak, aby rozpoznal spontánně konverzační řeč s rozumnou zvukovou akustikou (ne hlasovými příkazy, zpíváním atd.).
Vytváření a úpravy projektů nejsou k dispozici pro vícejazyčná videa.
Vlastní jazykové modely nejsou při použití detekce ve více jazycích dostupné.
Přidání klíčových slov se nepodporuje.
Označení jazyka není součástí exportovaného uzavřeného souboru popis.
Přepis aktualizace v rozhraní API nepodporuje soubory s více jazyky.

Sdílet prostřednictvím