Reconhecimento de Orador

Artigo
08/04/2023

Os Serviços de IA do Azure – reconhecimento de orador do Serviço de Voz fornecem algoritmos que verificam e identificam os altifalantes pelas respetivas características de voz exclusivas. O Reconhecimento de Orador é utilizado para responder à pergunta "quem está a falar?". Saiba mais.

A voz tem características únicas que podem ser associadas a um indivíduo. Fornecemos APIs de Verificação de Orador e APIs de Identificação de Orador para duas aplicações principais de tecnologias de Reconhecimento de Orador.

Verificação de Orador

A verificação de orador pode ser dependente de texto ou independente de texto. A verificação dependente de texto significa que os oradores têm de escolher a mesma frase de acesso a utilizar durante as fases de inscrição e verificação. A verificação do conteúdo de voz e da assinatura de voz facilita um cenário de verificação multifator; A verificação independente de texto significa que os oradores podem falar no idioma do dia-a-dia nas expressões de inscrição e verificação.

Verificação de Orador Dependente de Texto

Na fase de inscrição de orador, a voz do orador é gravada ao dizer uma frase de acesso de um conjunto de expressões predefinidas. As funcionalidades de voz são extraídas da gravação de áudio para formar uma assinatura de voz exclusiva enquanto a frase de acesso escolhida é reconhecida. Em conjunto, a assinatura de voz e a frase de acesso seriam utilizadas para verificar o altifalante.

Na fase de verificação, o ID associado ao indivíduo a verificar é enviado para a API de verificação de orador. O serviço de verificação de orador extrai as funcionalidades de voz e a frase de acesso da gravação de voz de entrada. Em seguida, compara as funcionalidades de voz e a frase de acesso com o perfil de inscrição do orador correspondente.

A resposta devolve "Aceitar" ou "Rejeitar" com uma classificação de semelhança entre 0 e 1. A resposta "Aceitar" ou "Rejeitar" é um resultado que combina o resultado da verificação do orador e o resultado do reconhecimento de voz, enquanto a classificação de semelhança mede apenas a semelhança de voz. Devolvemos "Aceitar" quando o resultado do reconhecimento de voz corresponde à expressão de inscrição e a classificação de semelhança de voz é maior ou igual a 0,5. No entanto, o resultado deve ser determinado com base no cenário e noutros fatores de verificação que estão a ser utilizados. Recomendamos que experimente os seus próprios dados e determine o seu limiar para substituir as respostas "Aceitar" ou "Rejeitar", conforme adequado.

Na versão atual da API de verificação de orador dependente de texto, fornecemos 10 expressões em inglês para os oradores escolherem.

Vou fazer-lhe uma oferta que não pode recusar.
Houston, tivemos um problema.
A minha voz é o meu passaporte, verifique-me.
O sumo de maçã tem um sabor engraçado depois da pasta de dentes.
Pode entrar sem a sua palavra-passe.
Agora pode ativar o sistema de segurança.
A minha voz é mais forte que palavras-passe.
A minha palavra-passe não é da sua conta.
O meu nome é desconhecido para si.
Seja você mesmo todos os outros já está tomado"

Pode criar as suas próprias frases de acesso ao enviar pedidos separados para a API de verificação de orador independente de texto e a API de conversão de voz em texto. Ao combinar o resultado da verificação do orador e o resultado do reconhecimento de voz, pode determinar a identidade do orador.

As APIs não se destinam a determinar se o áudio é de uma pessoa em direto, de uma imitação ou de uma gravação de um orador inscrito. Gerar expressões aleatórias para o orador ler é considerado eficaz para impedir ataques de repetição.

Verificação de Orador Independente de Texto

A Verificação de Orador também pode ser independente de texto, o que significa que não existem restrições ao que o orador diz no áudio.

Na fase de inscrição, as funcionalidades de voz são extraídas do áudio de um orador para formar uma assinatura de voz exclusiva.

Na fase de verificação, o áudio e o ID associados ao indivíduo a verificar são enviados para a API de verificação de orador. O serviço de verificação de orador extrai as funcionalidades de voz da gravação de voz de entrada. Em seguida, compara as funcionalidades de voz com a assinatura de voz no perfil de inscrição do orador correspondente.

A resposta devolve "Aceitar" ou "Rejeitar" com uma classificação de semelhança entre 0 e 1. A resposta "Aceitar" é devolvida quando a classificação de semelhança é maior ou igual a 0,5. No entanto, o resultado deve ser determinado com base no cenário e noutros fatores de verificação que estão a ser utilizados. Recomendamos que experimente os seus próprios dados e determine o seu limiar para substituir a resposta "Aceitar" ou "Rejeitar", conforme adequado.

As APIs não se destinam a determinar se o áudio é de uma pessoa em direto, de uma imitação ou de uma gravação de um orador inscrito.

Identificação de Orador

A identificação de orador é a tarefa de determinar a identidade de uma voz desconhecida entre um conjunto de oradores candidatos. A API de Identificação de Orador devolve uma lista de "melhores correspondências" com base nas pontuações de semelhança numa lista fornecida de IDs. A API de Identificação de Orador é independente de texto, uma vez que não compara o que foi dito na inscrição e no reconhecimento.

Identificação de Orador Independente de Texto

A inscrição na identificação de orador é independente de texto, o que significa que não existem restrições ao que o orador diz no áudio. Não é necessária nenhuma frase de acesso. Na fase de inscrição, a voz do orador é gravada e as funcionalidades de voz são extraídas para formar uma assinatura de voz exclusiva.

Na fase de identificação, o serviço de identificação de orador extrai as funcionalidades de voz da gravação de voz de entrada. Em seguida, compara as funcionalidades com as assinaturas de voz nos dados de inscrição de uma lista especificada de oradores (até 50 oradores candidatos em cada pedido). A resposta incluía um ID identificado e cinco IDs com classificações de semelhanças entre 0 e 1. O ID identificado é determinado com base na classificação de semelhança do orador mais adequado. Se nenhum dos oradores candidatos devolver uma classificação de semelhança superior ou igual a 0,5, a resposta devolve uma cadeia de zero para representar "não foi encontrada nenhuma correspondência". No entanto, o resultado deve ser determinado com base no seu cenário e noutros fatores que estão a ser utilizados. Recomendamos que experimente os seus dados e determine o limiar para substituir a predefinição "correspondência ou nenhuma correspondência", conforme adequado.