O que é o reconhecimento de oradores?

Artigo
01/23/2024

O reconhecimento de alto-falantes pode ajudar a determinar quem está falando em um clipe de áudio. O serviço pode verificar e identificar os alto-falantes por suas características únicas de voz, usando a biometria de voz.

Você fornece dados de treinamento de áudio para um único alto-falante, o que cria um perfil de inscrição com base nas características exclusivas da voz do orador. Em seguida, você pode cruzar amostras de voz de áudio com esse perfil para verificar se o alto-falante é a mesma pessoa (verificação de alto-falante). Você também pode cruzar amostras de voz de áudio com um grupo de perfis de alto-falante inscritos para ver se ele corresponde a algum perfil no grupo (identificação do alto-falante).

Importante

A Microsoft limita o acesso ao reconhecimento de alto-falantes. Você pode solicitar acesso por meio da revisão de acesso limitado de reconhecimento de alto-falante dos serviços de IA do Azure. Para obter mais informações, consulte Acesso limitado para reconhecimento de alto-falantes.

Verificação de orador

A verificação do orador simplifica o processo de verificação da identidade de um orador inscrito com frases secretas ou entrada de voz de forma livre. Por exemplo, você pode usá-lo para verificação de identidade do cliente em call centers ou acesso a instalações sem contato.

Como funciona a verificação de oradores?

O fluxograma a seguir fornece um visual de como isso funciona:

Flowchart that shows how speaker verification works.

A verificação do alto-falante pode ser dependente de texto ou independente de texto. A verificação dependente de texto significa que os oradores precisam escolher a mesma senha para usar durante as fases de inscrição e verificação. A verificação independente de texto significa que os falantes podem falar na linguagem do dia a dia nas frases de inscrição e verificação.

Para verificação dependente de texto, a voz do orador é inscrita dizendo uma frase secreta a partir de um conjunto de frases predefinidas. Os recursos de voz são extraídos da gravação de áudio para formar uma assinatura de voz única, e a senha escolhida também é reconhecida. Juntas, a assinatura de voz e a frase secreta são usadas para verificar o orador.

A verificação independente de texto não tem restrições sobre o que o orador diz durante a inscrição, além da frase de ativação inicial quando a inscrição ativa está ativada. Ele não tem nenhuma restrição sobre a amostra de áudio a ser verificada, porque ele apenas extrai recursos de voz para marcar semelhança.

As APIs não se destinam a determinar se o áudio é de uma pessoa ao vivo ou de uma imitação ou gravação de um orador inscrito.

Identificação de orador

A identificação do orador ajuda-o a determinar a identidade de um orador desconhecido dentro de um grupo de oradores inscritos. A identificação de alto-falantes permite atribuir fala a alto-falantes individuais e desbloquear valor de cenários com vários alto-falantes, como:

Soluções de suporte para produtividade de reuniões remotas.
Criação de personalização de dispositivos multiusuário.

Como funciona a identificação de oradores?

A inscrição para identificação do orador é independente do texto. Não há restrições sobre o que o orador diz no áudio, além da frase de ativação inicial quando a inscrição ativa está ativada. Semelhante à verificação do alto-falante, a voz do alto-falante é gravada na fase de inscrição e os recursos de voz são extraídos para formar uma assinatura de voz exclusiva. Na fase de identificação, a amostra de voz de entrada é comparada a uma lista especificada de vozes inscritas (até 50 em cada solicitação).

Segurança e privacidade dos dados

Os dados de inscrição do orador são armazenados em um sistema seguro, incluindo o áudio de fala para inscrição e os recursos de assinatura de voz. O áudio de fala para inscrição só é usado quando o algoritmo é atualizado e os recursos precisam ser extraídos novamente. O serviço não retém a gravação de fala ou os recursos de voz extraídos que são enviados para o serviço durante a fase de reconhecimento.

Você controla por quanto tempo os dados devem ser retidos. Você pode criar, atualizar e excluir dados de registro para alto-falantes individuais por meio de chamadas de API. Quando a assinatura é excluída, todos os dados de inscrição do orador associados à assinatura também são excluídos.

Como acontece com todos os recursos de serviços de IA do Azure, os desenvolvedores que usam o recurso de reconhecimento de alto-falante devem estar cientes das políticas da Microsoft sobre dados do cliente. Você deve garantir que recebeu as permissões apropriadas dos usuários. Você pode encontrar mais detalhes em Dados e privacidade para reconhecimento de alto-falantes. Para obter mais informações, consulte a página de serviços de IA do Azure na Central de Confiabilidade da Microsoft.

Questões e soluções comuns

Pergunta	Solution
Que situações tenho maior probabilidade de utilizar o reconhecimento de oradores?	Bons exemplos incluem verificação de clientes de call center, check-in de pacientes baseado em voz, transcrição de reuniões e personalização de dispositivos multiusuário.
Qual é a diferença entre identificação e verificação?	A identificação é o processo de detetar qual membro de um grupo de falantes está falando. A verificação é o ato de confirmar que um orador corresponde a uma voz conhecida e inscrita .
Que idiomas são suportados?	Consulte Suporte ao idioma de reconhecimento de alto-falante.
Quais regiões do Azure são suportadas?	Consulte Suporte à região de reconhecimento de oradores.
Que formatos de áudio são suportados?	Mono 16 bit, 16 kHz PCM codificado WAV.
É possível inscrever um orador várias vezes?	Sim, para verificação dependente de texto, você pode inscrever um alto-falante até 50 vezes. Para verificação independente de texto ou identificação de alto-falante, você pode se inscrever com até 300 segundos de áudio.
Que dados são armazenados no Azure?	O áudio de inscrição é armazenado no serviço até que o perfil de voz seja excluído. As amostras de áudio de reconhecimento não são retidas ou armazenadas.

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, as pessoas que são afetadas por ela e o ambiente em que é implantado. Leia as notas de transparência para saber mais sobre o uso e a implantação responsáveis da IA em seus sistemas.

Próximos passos

Guia de início rápido de reconhecimento de alto-falante