Che cos'è un assistente vocale?

Articolo
01/22/2024

Usando gli assistenti vocali con il servizio Voce, gli sviluppatori possono creare interfacce di conversazione naturali e simili a quella umana per le applicazioni e le esperienze. Il servizio assistente vocale offre un'interazione rapida e affidabile tra un dispositivo e un'implementazione dell'assistente.

Scegliere una soluzione di assistente

Il primo passaggio per la creazione di un assistente vocale consiste nel decidere cosa si vuole fare. Il servizio Voce offre più soluzioni complementari per la creazione di interazioni con assistente. È possibile che l'applicazione supporti una conversazione aperta con frasi come "Devo andare a Seattle" o "Che tipo di pizza posso ordinare?" Per flessibilità e versatilità, è possibile aggiungere funzionalità vocali e voce a un bot usando Azure AI servizio Bot con il canale Direct Line Speech.

Se non si è ancora certi di cosa si vuole fare l'assistente, è consigliabile usare Direct Line Speech come opzione migliore. Offre l'integrazione con una vasta gamma di strumenti e strumenti di creazione, ad esempio la soluzione Assistente virtuale e il modello aziendale e il servizio QnA Maker, per creare modelli comuni e usare le origini conoscenze esistenti.

Architettura di riferimento per la creazione di un assistente vocale tramite Speech SDK

Conceptual diagram of the voice assistant orchestration service flow.

Funzionalità di base

Sia che si scelga Direct Line Speech o un'altra soluzione per creare le interazioni con gli assistenti, è possibile usare un set completo di funzionalità di personalizzazione per personalizzare l'assistente al marchio, al prodotto e alla personalità.

Category	Funzionalità
Parola chiave personalizzata	Gli utenti possono avviare conversazioni con assistenti usando una parola chiave personalizzata, ad esempio "Hey Contoso". Un'app esegue questa operazione con un motore di parole chiave personalizzato in Speech SDK, che è possibile configurare passando a Introduzione alle parole chiave personalizzate. Gli assistenti vocali possono usare la verifica delle parole chiave sul lato servizio per migliorare l'accuratezza dell'attivazione delle parole chiave (rispetto all'uso solo del dispositivo).
Riconoscimento vocale	Gli assistenti vocali converte l'audio in tempo reale in testo riconosciuto usando la sintesi vocale dal servizio Voce. Questo testo è disponibile, come viene trascritto, sia per l'implementazione dell'assistente che per l'applicazione client.
Sintesi vocale	Le risposte testuali dell'assistente vengono sintetizzate tramite testo per la voce dal servizio Voce. Questa sintesi viene quindi resa disponibile per l'applicazione client come flusso audio. Microsoft offre la possibilità di creare una voce personalizzata e di alta qualità per il riconoscimento vocale neurale (Neural TTS) che offre una voce al proprio marchio.

Introduzione agli assistenti vocali

L'articolo di avvio rapido seguente è progettato per l'esecuzione del codice in meno di 10 minuti: Guida introduttiva: Creare un assistente vocale personalizzato usando Direct Line Speech

Codice ed esercitazioni di esempio

Il codice di esempio per la creazione di un assistente vocale è disponibile in GitHub. Gli esempi riguardano l'applicazione client per la connessione all'assistente in diversi linguaggi di programmazione comuni.

Personalizzazione

Gli assistenti vocali compilati tramite il servizio Voce possono usare un'ampia gamma di opzioni di personalizzazione.

Nota

Le opzioni di personalizzazione variano in base alla lingua e alle impostazioni locali. Per altre informazioni, vedere Lingue supportate.