O que é um assistente de voz?

Artigo
01/22/2024

Assistentes de voz que usam o serviço de Fala capacitam os desenvolvedores a criarem interfaces de conversação natural, semelhante à humana, para seus aplicativos e suas experiências. O recurso de assistente de voz fornece uma interação rápida e confiável entre um dispositivo e uma implementação de assistente.

Escolher uma solução de assistente

A primeira etapa na criação de um assistente de voz é decidir o que você deseja que ele faça. O Serviço de Fala fornece várias soluções complementares para a criação de interações com o assistente. Talvez você queira que seu aplicativo seja compatível com uma conversa que incentive o diálogo, com frases como "Preciso ir a São Paulo" ou "Que tipo de pizza posso pedir?" Para maior flexibilidade e versatilidade, você pode adicionar a um bot os recursos de voz de entrada e de saída usando o Serviço de Bot de IA do Azure com o canal Direct Line Speech.

Se você ainda não tiver certeza do que deseja que seu assistente faça, recomendamos o Direct Line Speech como a melhor opção. Ele oferece integração com um conjunto avançado de ferramentas e auxílios de criação, como a Solução Assistente Virtual e o Modelo Enterprise e o serviço QnA Maker para criar padrões comuns e usar suas fontes de conhecimento existentes.

Arquitetura de referência para criar um assistente de voz usando o SDK de Fala

Conceptual diagram of the voice assistant orchestration service flow.

Principais recursos

Independentemente de escolher o Direct Line Speech ou qualquer outra solução para criar as interações com seu assistente, você pode usar um conjunto avançado de recursos de personalização para personalizar seu assistente para a sua marca, seu produto e sua personalidade.

Categoria	Recursos
Palavra-chave personalizada	Os usuários podem iniciar conversas com assistentes com uma palavra-chave personalizada como "Ei, Contoso!". Um aplicativo faz isso com um mecanismo de palavra-chave personalizado no SDK de Fala, que pode ser configurado com uma palavra-chave personalizada que você pode gerar aqui. Os assistentes de voz podem usar a verificação de palavra-chave do lado do serviço para melhorar a precisão da ativação da palavra-chave (versus apenas o dispositivo).
Conversão de fala em texto	Os assistentes de voz convertem áudio em tempo real em texto reconhecido usando a Conversão de fala em texto do Serviço de Fala. Esse texto está disponível, conforme transcrito, tanto para sua implementação de assistente quanto para seu aplicativo cliente.
Conversão de texto em fala	As respostas textuais de seu assistente são sintetizadas usando a conversão de texto em fala do Serviço de Fala. Essa síntese é disponibilizada para seu aplicativo cliente como um fluxo de áudio. A Microsoft permite criar sua própria voz de Conversão de texto em fala neural personalizada de alta qualidade (TTS Neural) que dá voz à sua marca.

Introdução aos assistentes de voz

Oferecemos o seguinte artigo de início rápido projetado para que você tenha seu código sendo executado em menos de 10 minutos: Início Rápido: criar um assistente de voz personalizado usando o Direct Line Speech

Exemplo de código e tutoriais

Código de exemplo para a criação de assistentes de voz está disponível no GitHub. Esses exemplos tratam do aplicativo cliente para se conectar ao assistente em várias linguagens de programação populares.

Personalização

Os assistentes de voz que você cria usando o Serviço de Fala podem usar uma variedade completa de opções de personalização.

Observação

As opções de personalização variam por idioma ou localidade. Para saber mais, consulte Idiomas com suporte.