Vad är röstassistent?

Artikel
01/22/2024

Genom att använda röstassistenter med Speech-tjänsten kan utvecklare skapa naturliga, människoliknande konversationsgränssnitt för sina program och upplevelser. Röstassistenttjänsten ger snabb och tillförlitlig interaktion mellan en enhet och en assistentimplementering.

Välj en assistentlösning

Det första steget i att skapa en röstassistent är att bestämma vad du vill att den ska göra. Speech Service tillhandahåller flera kompletterande lösningar för att skapa assistentinteraktioner. Du kanske vill att ditt program ska stödja en öppen konversation med fraser som "Jag måste åka till Seattle" eller "Vilken typ av pizza kan jag beställa?" För flexibilitet och mångsidighet kan du lägga till funktioner för röst in- och röströst i en robot med hjälp av Azure AI Bot Service med Direct Line Speech-kanalen .

Om du ännu inte är säker på vad du vill att assistenten ska göra rekommenderar vi Direct Line Speech som det bästa alternativet. Det erbjuder integrering med en omfattande uppsättning verktyg och redigeringshjälpmedel, till exempel virtual assistant-lösningen och företagsmallen och QnA Maker-tjänsten, för att bygga vidare på vanliga mönster och använda dina befintliga kunskapskällor.

Referensarkitektur för att skapa en röstassistent med hjälp av Speech SDK

Conceptual diagram of the voice assistant orchestration service flow.

Kärnfunktioner

Oavsett om du väljer Direct Line Speech eller en annan lösning för att skapa dina assistentinteraktioner kan du använda en omfattande uppsättning anpassningsfunktioner för att anpassa din assistent till ditt varumärke, din produkt och din personlighet.

Kategori	Funktioner
Anpassat nyckelord	Användare kan starta konversationer med assistenter med hjälp av ett anpassat nyckelord, till exempel "Hey Contoso". En app gör detta med en anpassad nyckelordsmotor i Speech SDK, som du kan konfigurera genom att gå till Kom igång med anpassade nyckelord. Röstassistenter kan använda nyckelordsverifiering på tjänstsidan för att förbättra noggrannheten för nyckelordsaktiveringen (jämfört med enbart enheten).
Tal till text	Röstassistenter konverterar realtidsljud till igenkänd text med hjälp av tal till text från Speech-tjänsten. Den här texten är tillgänglig, eftersom den transkriberas, för både din assistentimplementering och klientprogrammet.
Text till tal	Textsvar från assistenten syntetiseras via text till tal från taltjänsten. Den här syntesen görs sedan tillgänglig för klientprogrammet som en ljudström. Microsoft erbjuder möjligheten att skapa en egen anpassad neural text-till-tal-röst av hög kvalitet (Neural TTS) som ger ditt varumärke en röst.

Kom igång med röstassistenter

Vi erbjuder följande snabbstartsartikel som är utformad för att få dig att köra kod på mindre än 10 minuter: Snabbstart: Skapa en anpassad röstassistent med hjälp av Direct Line Speech

Exempelkod och självstudier

Exempelkod för att skapa en röstassistent finns på GitHub. Exemplen beskriver klientprogrammet för att ansluta till din assistent på flera populära programmeringsspråk.

Anpassning

Röstassistenter som du skapar med hjälp av Speech-tjänsten kan använda ett komplett utbud av anpassningsalternativ.

Kommentar

Anpassningsalternativen varierar beroende på språk och språk. Mer information finns i Språk som stöds.