Co je řeč na text?

Článek
01/23/2024

V tomto přehledu se dozvíte o výhodách a možnostech funkce řeči na text služby Speech, která je součástí služeb Azure AI. Převod řeči na text lze použít pro přepis zvukových proudů v reálném čase nebo dávkové přepisy do textu.

Poznámka:

Pokud chcete porovnat ceny dávkového přepisu v reálném čase, podívejte se na ceny služby Speech.

Úplný seznam dostupných jazyků pro převod řeči na text najdete v tématu Podpora jazyka a hlasu.

Převod řeči na text v reálném čase

Při převodu řeči na text v reálném čase se zvuk přepíše, protože řeč se rozpozná z mikrofonu nebo souboru. Použití řeči v reálném čase k textu pro aplikace, které potřebují přepis zvuku v reálném čase, například:

Přepisy, popis nebo titulky pro živé schůzky
Diarizace
Posouzení výslovnosti
Pomoc agentům kontaktního centra
Diktování
Hlasová agenti

Převod řeči na text v reálném čase je k dispozici prostřednictvím sady Speech SDK a rozhraní příkazového řádku služby Speech.

Dávkový přepis

Dávkový přepis se používá k přepisu velkého množství zvuku v úložišti. Na zvukové soubory můžete odkazovat pomocí identifikátoru URI sdíleného přístupového podpisu (SAS) a asynchronně přijímat výsledky přepisu. Dávkový přepis použijte pro aplikace, které potřebují hromadně přepisovat zvuk, například:

Přepisy, popis nebo titulky pro předem zaznamenaný zvuk
Analýza po volání v kontaktním centru
Diarizace

Dávkový přepis je k dispozici prostřednictvím:

Rozhraní REST API pro převod řeči na text: Pokud chcete začít, přečtěte si, jak používat dávkové přepisy a ukázky přepisu služby Batch (REST).
Rozhraní příkazového řádku služby Speech podporuje přepis v reálném čase i dávkový přepis. V případě nápovědy k rozhraní příkazového řádku služby Speech s dávkovým přepisem spusťte následující příkaz:
```
spx help batch transcription
```

Vlastní řeč

Pomocí vlastní řeči můžete vyhodnotit a zlepšit přesnost rozpoznávání řeči pro vaše aplikace a produkty. Vlastní model řeči se dá použít pro převod řeči v reálném čase na text, překlad řeči a dávkový přepis.

Tip

Koncový bod hostovaného nasazení není nutný k použití vlastní řeči s rozhraním API pro přepis služby Batch. Prostředky můžete ušetřit, pokud se vlastní model řeči používá jenom pro dávkový přepis. Další informace najdete v tématu Ceny služby Speech.

Rozpoznávání řeči využívá univerzální jazykový model jako základní model trénovaný s daty vlastněnými Microsoftem a odráží běžně používaný mluvený jazyk. Základní model je předem natrénovaný pomocí dialektů a fonetik představujících různé společné domény. Když provedete žádost o rozpoznávání řeči, použije se ve výchozím nastavení nejnovější základní model pro každý podporovaný jazyk . Základní model funguje dobře ve většině scénářů rozpoznávání řeči.

Vlastní model lze použít k rozšíření základního modelu za účelem zlepšení rozpoznávání slovníku specifického pro doménu specifickou pro aplikaci poskytnutím textových dat pro trénování modelu. Dá se také použít ke zlepšení rozpoznávání na základě konkrétních zvukových podmínek aplikace poskytnutím zvukových dat s referenčními přepisy. Další informace najdete v tématu vlastní řeč a převod řeči na text rozhraní REST API.

Možnosti přizpůsobení se liší podle jazyka nebo národního prostředí. Pokud chcete ověřit podporu, přečtěte si téma Podpora jazyka a hlasu pro službu Speech.

Zodpovědná AI

Systém AI zahrnuje nejen technologii, ale také uživatele, kteří ho používají, osoby, kterých se to týká, a prostředí, ve kterém je nasazené. Přečtěte si poznámky k transparentnosti a seznamte se s zodpovědným používáním a nasazením umělé inteligence ve vašich systémech.

Co je řeč na text?

Převod řeči na text v reálném čase

Dávkový přepis

Vlastní řeč

Zodpovědná AI

Další kroky

Další materiály