Pokud v tomto nejčastějším dotazování nenajdete odpovědi na své dotazy, podívejte se na další možnosti podpory.
Obecné
Jaký je rozdíl mezi základním modelem a vlastním modelem Převod řeči na text modelem?
Základní model byl vytrénován pomocí dat vlastněných Microsoftem a už je nasazený v cloudu. Pomocí vlastního modelu můžete model přizpůsobit tak, aby lépe vyhovoval konkrétnímu prostředí, které má specifický okolní šum nebo jazyk. Tovární podlaží, auta nebo ulice s šumem by vyžadovaly přizpůsobený akustický model. Témata jako biologie, fyzika, radiologie, názvy produktů a vlastní zkratky by vyžadovala upravený jazykový model. Při trénování vlastního modelu byste měli začít se souvisejícím textem, abyste zlepšili rozpoznávání speciálních termínů a frází.
Kde mám začít, když chci použít základní model?
Nejprve získejte klíč předplatného. Pokud chcete provádět volání REST do předem nasazených základních modelů, podívejte se na rozhraní REST API. Pokud chcete použít webSockety, stáhněte si sadu SDK.
Musím vždy vytvořit vlastní model řeči?
No. Pokud vaše aplikace používá obecný každodenní jazyk, nemusíte model přizpůsobovat. Pokud se vaše aplikace používá v prostředí s malým nebo žádným šumem na pozadí, nemusíte model přizpůsobovat.
Základní a přizpůsobené modely můžete nasadit na portálu a pak proti nim spouštět testy přesnosti. Tuto funkci můžete použít k měření přesnosti základního modelu a vlastního modelu.
Jak se po dokončení zpracování datové sady nebo modelu bude vědět?
V současné době je stav modelu nebo datové sady v tabulce jediným způsobem, jak to vědět. Po dokončení zpracování je stav Úspěšné.
Můžu vytvořit více než jeden model?
Počet modelů, které můžete mít ve své kolekci, není žádný limit.
Uvědomil jsem si, že jsem udělal chybu. Návody probíhajícího importu dat nebo vytváření modelu?
V současné době není možné vrátit zpět akustický proces nebo proces přizpůsobení jazyka. Importovaná data a modely můžete odstranit, když jsou v terminálových stavech.
Pro každou frázi se zobrazí několik výsledků s podrobným formátem výstupu. Kterou z nich mám použít?
Vždy vezměte první výsledek, i když jiný výsledek (N-Best) může mít vyšší hodnotu spolehlivosti. Služba Speech považuje první výsledek za nejlepší. Může to být také prázdný řetězec, pokud nebyla rozpoznána žádná řeč.
Další výsledky jsou pravděpodobně horší a nemusí se použít plná velká písmena a interpunkce. Tyto výsledky jsou nejužitečnější ve speciálních scénářích, jako je například poskytnutí možnosti vybrat opravy ze seznamu nebo zpracování nesprávně rozpoznaných příkazů.
Proč existují různé základní modely?
Ve službě Speech si můžete vybrat z více než jednoho základního modelu. Každý název modelu obsahuje datum, kdy byl přidán. Když začnete s trénováním vlastního modelu, použijte nejnovější model k získání nejlepší přesnosti. Starší základní modely jsou po nějakou dobu stále dostupné, když je k dispozici nový model. Model, se který jste dosud pracovali, můžete dál používat, dokud se nevyřazení (viz Životní cyklus modelu a koncového bodu). Pro lepší přesnost se stále doporučuje přepnout na nejnovější základní model.
Můžu aktualizovat stávající model (skládaný model)?
Existující model nemůžete aktualizovat. Jako řešení můžete zkombinovat starou datovou sadu s novou datovou sadou a číst.
Stará datová sada a nová datová sada se musí zkombinovat do jednoho souboru .zip (pro akustická data) nebo do souboru .txt (pro jazyková data). Po dokončení adaptace je potřeba nový aktualizovaný model znovu nasadit, abyste získali nový koncový bod.
Když je k dispozici nová verze základního modelu, aktualizuje se nasazení automaticky?
Nasazení NEBUDOU automaticky aktualizována.
Pokud jste model přizpůsobili a nasadili, zůstane toto nasazení tak, jak je. Nasazený model můžete vyřazen z provozu, můžete ho přečíst pomocí novější verze základního modelu a pro lepší přesnost ho znovu nasadit.
Základní i vlastní modely se po nějaké době vyřazeny (viz Životní cyklus modelu a koncového bodu).
Můžu si svůj model stáhnout a spustit místně?
Vlastní model můžete spustit místně v kontejneru Dockeru.
Můžu datové sady, modely a nasazení zkopírovat nebo přesunout do jiné oblasti nebo předplatného?
Vlastní model můžete REST API zkopírovat do jiné oblasti nebo předplatného. Datové sady nebo nasazení nelze zkopírovat. Datovou sadu můžete znovu importovat do jiného předplatného a vytvořit tam koncové body pomocí kopií modelu.
Jsou moje požadavky protokolované?
Ve výchozím nastavení se požadavky neprotokoluje (zvuk ani přepis). V případě potřeby můžete při vytváření vlastního koncového bodu vybrat možnost Protokolovat obsah z tohoto koncového bodu. Můžete také povolit protokolování zvuku v sadě Speech SDK pro každý požadavek bez vytvoření vlastního koncového bodu. V obou případech se zvukové výsledky a výsledky rozpoznávání požadavků uloží v zabezpečeném úložišti. Pro předplatná, která používají úložiště vlastněné Microsoftem, budou k dispozici po dobu 30 dnů.
Pokud používáte vlastní koncový bod s povoleným obsahem protokolu z tohoto koncového bodu, můžete protokolované soubory exportovat na stránce nasazení v nástroji Speech Studio. Pokud je protokolování zvuku povolené prostřednictvím sady SDK, zavolejte rozhraní API pro přístup k souborům.
Jsou moje požadavky stíněné?
Jak se mi účtují poplatky za zvuk s duálním kanálem?
Pokud každý kanál odešlete samostatně (každý kanál ve vlastním souboru), bude se vám účtovat po dobu trvání každého souboru. Pokud odešlete jeden soubor s multiplexingem každého kanálu, bude se vám účtovat po dobu trvání jednoho souboru. Podrobnosti o cenách najdete na stránce Azure Cognitive Services s cenami.
Důležité
Pokud máte další obavy ohledně ochrany osobních údajů, které vám zakazují používat vlastní službu Speech, obraťte se na jeden z kanálů podpory.
Zvýšení souběžnosti
Importing data
Jaký je limit velikosti datové sady a proč je to limit?
Toto omezení je způsobené omezením velikosti souboru pro nahrání HTTP. Informace o skutečném limitu najdete v tématu Kvóty a omezení služby Speech. Data můžete rozdělit do několika datových sad a vybrat je pro trénování modelu.
Můžu zazipovat textové soubory, aby bylo možné nahrát větší textový soubor?
No. V současné době jsou povoleny pouze nekomprimované textové soubory.
V sestavě dat se uvádí, že došlo k selhání promyšli. V čem je problém?
Neúspěšné nahrání 100 % protterance do souboru není problém. Pokud se úspěšně naimportuje převážná většina protterance v sadě akustických nebo jazykových dat (například více než 95 procent), může být datová sada použitelný. Doporučujeme ale, abyste se pokusili pochopit, proč proance selhaly, a opravit problémy. Nejběžnější problémy, jako jsou chyby formátování, se snadno opraví.
Vytvoření akustického modelu
Kolik akustických dat potřebuji?
Doporučujeme začít s akustickými daty za 30 minut až jednu hodinu.
Jaká data mám shromáždit?
Shromažďovat data, která se co nejvíce blíží scénáři aplikace a případu použití. Shromažďování dat by mělo odpovídat cílové aplikaci a uživatelům z hlediska zařízení nebo zařízení, prostředí a typů mluvčích. Obecně platí, že byste měli shromažďovat data od co nejširšího rozsahu mluvčích.
Jak mám shromažďovat akustická data?
Můžete vytvořit samostatnou aplikaci pro shromažďování dat nebo použít standardní software pro záznam zvuku. Můžete také vytvořit verzi aplikace, která zaznamená zvuková data a následně data použije.
Potřebuji přepisovat přizpůsobit data?
Ano. Můžete ji přepisovat sami nebo použít profesionální přepisovou službu. Někteří uživatelé upřednostňují profesionální transcribers a jiné používají crowdsourcingový nebo mají vlastní přepisy.
Jak dlouho bude trvat vlastní model se zvukovými daty?
Školení modelu se zvukovými daty může být zdlouhavý proces. V závislosti na množství dat může vytvoření vlastního modelu trvat několik dní. Pokud nemůže být dokončena do jednoho týdne, služba může přerušit operaci školení a ohlásit model jako neúspěšný.
Použijte jednu z oblastí , kde je k dispozici vyhrazený hardware pro školení. Služba řeči bude v těchto oblastech používat až 20 hodin zvukového školení. V jiných oblastech bude používat jenom až 8 hodin.
Obecně platí, že služba zpracovává přibližně 10 hodin zvukových dat za den v oblastech s vyhrazeným hardwarem. Může zpracovat pouze 1 hodinu zvukových dat za den v jiných oblastech. Plně vyškolený model můžete zkopírovat do jiné oblasti pomocí REST API. Školení s pouhým textem je mnohem rychlejší a obvykle se dokončí během několika minut.
Některé základní modely nejde přizpůsobit pomocí zvukových dat. V případě, že služba bude pouze používat text přepisu pro účely školení a ignorování zvukových dat. Školení se pak dokončí mnohem rychleji a výsledky budou stejné jako školení jenom s textem. Seznam základních modelů, které podporují školení se zvukovými daty, najdete v tématu jazyková podpora .
Testování přesnosti
Co je četnost chyb ve slovech (WER) a jak se počítá?
WER je metrika vyhodnocení pro rozpoznávání řeči. Služba WER se počítá jako celkový počet chyb, včetně vložení, odstranění a nahrazení, dělený celkovým počtem slov v přepisu odkazu. Další informace najdete v tématu vyhodnocení přesnosti Custom Speech.
Návody určit, zda jsou výsledky testu přesnosti dobré?
Ve výsledcích se zobrazí porovnání mezi směrným modelem a modelem, který jste přizpůsobili. Měli byste se zaměřit na přesměrovat základní model, aby bylo přizpůsobení vhodné.
Návody určete, jak se má základní model WER sledovat?
Výsledky offline testu ukazují přesnost směrného plánu vlastního modelu a zlepšení oproti směrnému plánu.
Vytvoření jazykového modelu
Kolik textových dat Potřebuji nahrávat?
Závisí na tom, jak se liší slovník a fráze používané ve vaší aplikaci od počátečních jazykových modelů. Pro všechna nová slova je vhodné zadat tolik příkladů, kolik jich může použití těchto slov. Pro běžné fráze, které jsou používány ve vaší aplikaci, včetně frází v jazykových datech, je také užitečné, protože systém oznamuje, že se tyto výrazy naslouchají. Je běžné mít minimálně 100 a obvykle několik stovek nebo více projevy v datové sadě jazyka. Pokud se očekává, že některé typy dotazů budou běžnější než jiné, můžete do datové sady vložit více kopií běžných dotazů.
Můžu nahrát jenom seznam slov?
Když se nahraje seznam slov, přidají se slova do slovníku, ale neprojeví se tak systém, jak se slova obvykle používají. Poskytnutím úplných nebo částečných projevy (vět nebo frází věcí, které uživatelé nejspíš říkají), se může jazykový model naučit nová slova a jejich použití. Vlastní jazykový model je dobrý, nejen pro přidávání nových slov do systému, ale také pro úpravu pravděpodobnosti známých slov pro vaši aplikaci. Poskytování úplných projevy pomáhá lépe se seznámit se systémem.
Model tenanta (Custom Speech s daty Microsoft 365)
Jaké informace jsou součástí modelu tenanta a jak se vytvoří?
Model tenanta se sestavuje pomocí e-mailů a dokumentů veřejných skupin , které může kdokoli ve vaší organizaci vidět.
Jaké prostředí pro rozpoznávání řeči vylepšuje model tenanta?
Když je model tenanta povolený, vytvořený a publikovaný, používá se ke zlepšení rozpoznávání pro všechny podnikové aplikace vytvořené pomocí služby Speech. Tím se také předá uživatelský token Azure AD, který indikuje členství v podniku.
prostředí pro rozpoznávání řeči, která jsou integrovaná do Microsoft 365, jako je například diktování a PowerPoint titulkování, se při vytváření modelu tenanta pro aplikace služby speech nemění.