Co je hlasový asistent?

Článek
01/22/2024

Pomocí hlasových asistentů se službou Speech můžou vývojáři vytvářet pro své aplikace a prostředí přirozené konverzační rozhraní podobné člověku. Služba hlasového asistenta poskytuje rychlou a spolehlivou interakci mezi zařízením a implementací asistenta.

Volba řešení pomocníka

Prvním krokem při vytváření hlasového asistenta je rozhodnout, co chcete udělat. Služba Speech poskytuje více doplňkových řešení pro interakce pomocníka pro vytváření. Můžete chtít, aby vaše aplikace podporovala otevřenou konverzaci s frázemi, jako je třeba "Potřebuji jít do Seattlu" nebo "Jaký druh pizzy si můžu objednat?" Kvůli flexibilitě a všestrannosti můžete do robota přidávat hlasové funkce a hlasy pomocí služby Azure AI Bot Service s kanálem Direct Line Speech .

Pokud si nejste jistí, co má váš asistent dělat, doporučujeme jako nejlepší možnost direct line speech . Nabízí integraci s bohatou sadou nástrojů a pomocníků pro tvorbu, jako je řešení virtuálních asistentů a podniková šablona a služba QnA Maker, která vychází z běžných vzorů a využívá stávající zdroje znalostí.

Referenční architektura pro vytvoření hlasového asistenta pomocí sady Speech SDK

Conceptual diagram of the voice assistant orchestration service flow.

Základní funkce

Bez ohledu na to, jestli zvolíte Direct Line Speech nebo jiné řešení pro vytváření interakcí asistenta, můžete použít bohatou sadu funkcí přizpůsobení k přizpůsobení asistenta vaší značce, produktu a osobnosti.

Kategorie	Funkce
Vlastní klíčové slovo	Uživatelé můžou s asistenty zahajovat konverzace pomocí vlastního klíčového slova, například "Hey Contoso". Aplikace to dělá s vlastním modulem klíčových slov v sadě Speech SDK, kterou můžete nakonfigurovat tak, že přejdete na Začínáme s vlastními klíčovými slovy. Hlasoví asistenti můžou použít ověření klíčových slov na straně služby ke zlepšení přesnosti aktivace klíčového slova (oproti použití samotného zařízení).
Převod řeči na text	Hlasové asistenty převádějí zvuk v reálném čase na rozpoznaný text pomocí řeči na text ze služby Speech. Tento text je k dispozici, protože se přepíše do implementace pomocníka i klientské aplikace.
Převod textu na řeč	Textové odpovědi od vašeho asistenta jsou syntetizovány prostřednictvím textu na řeč ze služby Speech. Tato syntéza se pak zpřístupní klientské aplikaci jako zvukový stream. Microsoft nabízí možnost vytvářet vlastní, vysoce kvalitní neurální text na řeč (neurální TTS), který dává vašemu značce hlas.

Začínáme s hlasovými asistenty

Nabízíme následující článek rychlého startu, který je navržený tak, abyste mohli spouštět kód za méně než 10 minut: Rychlý start: Vytvoření vlastního hlasového asistenta pomocí Direct Line Speech

Ukázkový kód a kurzy

Ukázkový kód pro vytvoření hlasového asistenta je k dispozici na GitHubu. Ukázky pokrývají klientskou aplikaci pro připojení k asistentovi v několika oblíbených programovacích jazycích.

Vlastní nastavení

Hlasové asistenty, které vytváříte pomocí služby Speech, můžou používat celou řadu možností přizpůsobení.

Poznámka:

Možnosti přizpůsobení se liší podle jazyka a národního prostředí. Další informace najdete v tématu Podporované jazyky.