O que é um assistente de voz?

Artigo
01/22/2024

Usando assistentes de voz com o serviço de fala, os desenvolvedores podem criar interfaces de conversação naturais, semelhantes a seres humanos para seus aplicativos e experiências. O serviço de assistente de voz fornece interação rápida e confiável entre um dispositivo e uma implementação de assistente.

Escolha uma solução de assistente

O primeiro passo para criar um assistente de voz é decidir o que você quer que ele faça. O serviço de fala fornece várias soluções complementares para a criação de interações com assistentes. Você pode querer que seu aplicativo suporte uma conversa aberta com frases como "Preciso ir a Seattle" ou "Que tipo de pizza posso pedir?" Para flexibilidade e versatilidade, você pode adicionar recursos de entrada e saída de voz a um bot usando o Serviço de Bot do Azure AI com o canal de Fala de Linha Direta .

Se você ainda não tem certeza do que deseja que seu assistente faça, recomendamos o Direct Line Speech como a melhor opção. Ele oferece integração com um rico conjunto de ferramentas e auxílios de criação, como a solução de Assistente Virtual e o modelo empresarial e o serviço QnA Maker, para desenvolver padrões comuns e usar suas fontes de conhecimento existentes.

Arquitetura de referência para criar um assistente de voz usando o SDK de fala

Conceptual diagram of the voice assistant orchestration service flow.

Principais características

Quer escolha Direct Line Speech ou outra solução para criar as interações do seu assistente, pode utilizar um rico conjunto de funcionalidades de personalização para personalizar o seu assistente de acordo com a sua marca, produto e personalidade.

Category	Funcionalidades
Palavra-chave personalizada	Os usuários podem iniciar conversas com assistentes usando uma palavra-chave personalizada, como "Hey Contoso". Um aplicativo faz isso com um mecanismo de palavra-chave personalizado no SDK de fala, que você pode configurar indo para Introdução às palavras-chave personalizadas. Os assistentes de voz podem usar a verificação de palavras-chave do lado do serviço para melhorar a precisão da ativação da palavra-chave (em vez de usar apenas o dispositivo).
Conversão de fala em texto	Os assistentes de voz convertem áudio em tempo real em texto reconhecido usando fala em texto do serviço de fala. Este texto está disponível, tal como é transcrito, tanto para a implementação do assistente como para a aplicação cliente.
Conversão de texto em fala	As respostas textuais do seu assistente são sintetizadas através de conversão de texto em voz a partir do serviço de Voz. Esta síntese é então disponibilizada para o seu aplicativo cliente como um fluxo de áudio. A Microsoft oferece a capacidade de criar sua própria voz personalizada e de alta qualidade Neural Text to speech (Neural TTS) que dá voz à sua marca.

Introdução aos assistentes de voz

Oferecemos o seguinte artigo de início rápido projetado para que você execute o código em menos de 10 minutos: Guia de início rápido: criar um assistente de voz personalizado usando a fala de linha direta

Código de exemplo e tutoriais

O código de exemplo para criar um assistente de voz está disponível no GitHub. Os exemplos abrangem o aplicativo cliente para se conectar ao seu assistente em várias linguagens de programação populares.

Personalização

Os assistentes de voz criados usando o serviço de Fala podem usar uma gama completa de opções de personalização.

Nota

As opções de personalização variam de acordo com o idioma e a localidade. Para saber mais, consulte Idiomas suportados.