O que é o reconhecimento de locutor?

Artigo
01/21/2024

O reconhecimento de locutor pode ajudar a determinar quem está falando em um clipe de áudio. O serviço pode verificar e identificar os falantes por suas características de voz únicas, usando a biometria de voz.

Você fornece dados de treinamento de áudio de um locutor, o que cria um perfil de registro com base nas características exclusivas da voz do locutor. Em seguida, você pode verificar amostras de voz de áudio em relação a esse perfil para verificar se o locutor é a mesma pessoa (verificação do locutor). Você também pode verificar amostras de voz de áudio em um grupo de perfis de locutor inscritos para ver se ele corresponde a qualquer perfil no grupo (identificação do locutor).

Importante

A Microsoft limita o acesso ao reconhecimento de locutor. Você pode solicitar acesso através da Revisão de acesso limitada do reconhecimento de locutor dos Serviços de IA do Azure. Para saber mais, consulte Acesso limitado ao reconhecimento de locutor.

Verificação do locutor

A verificação do locutor simplifica o processo de verificar a identidade de um locutor registrado com frases secretas ou entrada de voz com forma livre. Por exemplo, você pode usá-lo para verificação de identidade do cliente em call centers ou acesso a instalações sem contato.

Como funciona a verificação do locutor?

O fluxograma a seguir fornece um visual de como isso funciona:

Flowchart that shows how speaker verification works.

A verificação do locutor pode ser dependente de texto ou independente de texto. A verificação dependente de texto significa que os locutores precisam escolher a mesma frase secreta para uso durante as fases de registro e de verificação. A verificação independente de texto significa que os locutores podem falar em uma linguagem casual nas frases de registro e verificação.

Na verificação dependente de texto, a voz do locutor é registrada dizendo uma frase secreta entre um conjunto de frases predefinidas. Os recursos de voz são extraídos da gravação de áudio para formar uma assinatura de voz exclusiva e a frase secreta escolhida também é reconhecida. Juntos, a assinatura de voz e a frase secreta são usadas para verificar o locutor.

A verificação independente de texto não tem restrições sobre o que o locutor diz durante o registro, além da frase de ativação inicial quando o registro ativo é habilitado. Não há nenhuma restrição quanto à amostra de áudio a ser verificada, porque apenas os recursos de voz são extraídos para pontuar a similaridade.

As APIs não têm como objetivo determinar se o áudio é de uma pessoa ao vivo ou de uma imitação ou gravação de um locutor registrado.

Identificação do locutor

A identificação de locutor ajuda a determinar a identidade de um locutor desconhecido em um grupo de locutores registrados. A identificação de locutor permite que você atribua a fala a locutores individuais e obtenha valor de cenários com vários locutores, como:

Soluções de suporte para produtividade de reunião remota.
Criação de personalização de dispositivos de vários usuários.

Como funciona a identificação de locutor?

O registro para identificação do locutor é independente de texto. Não há restrições sobre o que o locutor diz no áudio, além da frase de ativação inicial quando o registro ativo é habilitado. De modo semelhante ao que ocorre na identificação do locutor, na fase de registro, a voz do locutor é gravada e os recursos de voz são extraídos para formar uma assinatura de voz exclusiva. Na fase de identificação, o exemplo de voz de entrada é comparado a uma lista especificada de vozes registradas (até 50 em cada solicitação).

Privacidade e segurança de dados

Os dados de registro do locutor são armazenados em um sistema protegido, incluindo o áudio de fala para o registro e os recursos de assinatura de voz. O áudio de fala para registro é usado somente quando o algoritmo é atualizado e os recursos precisam ser extraídos novamente. O serviço não guarda a gravação de fala nem os recursos de voz extraídos que são enviados ao serviço durante a fase de reconhecimento.

Você controla por quanto tempo os dados devem ser retidos. Você pode criar, atualizar e excluir dados de registro de locutores específicos por meio de chamadas à API. Quando a assinatura é excluída, todos os dados de registro do locutor associados à assinatura também são excluídos.

Assim como ocorre com todos os recursos dos Serviços de IA do Azure, os desenvolvedores que usam o recurso de reconhecimento de locutor precisam estar cientes das políticas da Microsoft em relação aos dados do cliente. Verifique se você recebeu as permissões apropriadas dos usuários. Veja mais detalhes em Dados e privacidade para reconhecimento de locutor. Para saber mais, consulte a página dos Serviços Cde IA do Azure na Central de Confiabilidade da Microsoft.

Perguntas frequentes e soluções

Pergunta	Solução
Quais situações tenho maior probabilidade de usar o reconhecimento do locutor?	Bons exemplos incluem verificação do cliente do call center, check-in do paciente baseado em voz, transcrição de reunião e personalização de dispositivo multiusuário.
Qual é a diferença entre identificação e verificação?	A identificação é o processo de detectar qual membro de um grupo de locutores está falando. A verificação é o ato de confirmar que um locutor corresponde a uma voz conhecida, registrada.
Quais são os idiomas com suporte?	Consulte Suporte ao idioma do reconhecimento de locutor.
Quais regiões do Azure são compatíveis?	Consulte Suporte à região do reconhecimento de locutor.
Quais formatos de áudio são compatíveis?	Mono de 16 bits, WAV codificado por PCM de 16kHz.
Você pode registrar um locutor várias vezes?	Sim, na verificação dependente de texto você pode registrar um locutor até 50 vezes. Na verificação independente de texto ou na identificação de locutor, você pode registrá-lo com até 300 segundos de áudio.
Quais dados são armazenados no Azure?	O áudio do registro é armazenado no serviço até que o perfil de voz seja excluído. Os exemplos de áudio de reconhecimento não são mantidos nem armazenados.

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, que serão afetadas por ela e o ambiente em que ela foi implantada. Leia as notas de transparência para saber mais sobre o uso e a implantação de IA responsável em seus sistemas.

Próximas etapas

Início rápido do reconhecimento de locutor