O que é o serviço de Reconhecimento do Locutor do Azure?What is the Azure Speaker Recognition service?

O serviço de Reconhecimento do Locutor fornece algoritmos que verificam e identificam os locutores por suas características de voz exclusivas.The Speaker Recognition service provides algorithms that verify and identify speakers by their unique voice characteristics. O Reconhecimento do Locutor é usado para responder à pergunta "quem está falando?".Speaker Recognition is used to answer the question “who is speaking?”. Você fornece dados de treinamento de áudio para um único palestrante, que cria um perfil de registro com base nas características exclusivas da voz do orador.You provide audio training data for a single speaker, which creates an enrollment profile based on the unique characteristics of the speaker's voice. Em seguida, você pode fazer uma verificação cruzada das amostras de voz de áudio em relação a esse perfil para verificar se o orador é a mesma pessoa (verificação do orador) ou fazer uma verificação cruzada de exemplos de voz de áudio em um grupo de perfis de palestrantes registrados, para ver se ele corresponde a qualquer perfil no grupo (identificação do orador).You can then cross-check audio voice samples against this profile to verify that the speaker is the same person (speaker verification), or cross-check audio voice samples against a group of enrolled speaker profiles, to see if it matches any profile in the group (speaker identification). Por outro lado, o Diarization do orador agrupa segmentos de áudio por palestrante em uma operação em lote.In contrast, Speaker Diarization groups segments of audio by speaker in a batch operation.

Verificação do locutorSpeaker Verification

Verificação do Locutor simplifica o processo de verificar a identidade de um palestrante registrado com senhas ou entrada de voz de forma livre.Speaker Verification streamlines the process of verifying an enrolled speaker identity with either passphrases or free-form voice input. Ele pode ser usado para verificar pessoas de compromissos de clientes seguros e sem interrupções em uma ampla gama de soluções, desde a verificação de identidade do cliente em call centers até o acesso a recursos sem contato.It can be used to verify individuals for secure, frictionless customer engagements in a wide range of solutions, from customer identity verification in call centers to contact-less facility access.

Como funciona Verificação do Locutor?How does Speaker Verification work?

Verificação do Locutor fluxograma.

A verificação do orador pode ser dependente de texto ou independente de texto.Speaker verification can be either text-dependent or text-independent. A verificação dependente de texto significa que os alto-falantes precisam escolher a mesma senha a ser usada durante as fases de registro e de verificação.Text-dependent verification means speakers need to choose the same passphrase to use during both enrollment and verification phases. A verificação independente de texto significa que os alto-falantes podem falar em idioma diário nas frases de registro e verificação.Text-independent verification means speakers can speak in everyday language in the enrollment and verification phrases.

Para a verificação dependente de texto , a voz do orador é registrada dizendo uma frase secreta de um conjunto de frases predefinidas.For text-dependent verification, the speaker's voice is enrolled by saying a passphrase from a set of predefined phrases. Os recursos de voz são extraídos da gravação de áudio para formar uma assinatura de voz exclusiva, enquanto a frase secreta escolhida também é reconhecida.Voice features are extracted from the audio recording to form a unique voice signature, while the chosen passphrase is also recognized. Juntos, a assinatura de voz e a frase secreta são usadas para verificar o orador.Together, the voice signature and the passphrase are used to verify the speaker.

A verificação independente de texto não tem restrições sobre o que o orador diz durante o registro ou na amostra de áudio a ser verificada, pois ele só extrai recursos de voz para pontuar a similaridade.Text-independent verification has no restrictions on what the speaker says during enrollment or in the audio sample to be verified, as it only extracts voice features to score similarity.

As APIs não se destinam a determinar se o áudio é de uma pessoa em tempo real ou de um imitação/gravação de um palestrante registrado.The APIs are not intended to determine whether the audio is from a live person or an imitation/recording of an enrolled speaker.

Identificação do locutorSpeaker Identification

Identificação do Locutor é usado para determinar a identidade de um orador desconhecido dentro de um grupo de alto-falantes registrados.Speaker Identification is used to determine an unknown speaker’s identity within a group of enrolled speakers. Identificação do Locutor permite que você Informate a fala para palestrantes individuais e desbloqueie o valor de cenários com vários alto-falantes, como:Speaker Identification enables you to attribute speech to individual speakers, and unlock value from scenarios with multiple speakers, such as:

  • Soluções de suporte para produtividade de reunião remotaSupport solutions for remote meeting productivity
  • Criar a personalização de dispositivos de vários usuáriosBuild multi-user device personalization

Como funciona Identificação do Locutor?How does Speaker Identification work?

O registro para a identificação do orador é independente de texto, o que significa que não há restrições sobre o que o orador diz no áudio.Enrollment for speaker identification is text-independent, which means that there are no restrictions on what the speaker says in the audio. Semelhante à Verificação do Locutor, na fase de registro, a voz do orador é registrada e os recursos de voz são extraídos para formar uma assinatura de voz exclusiva.Similar to Speaker Verification, in the enrollment phase the speaker's voice is recorded, and voice features are extracted to form a unique voice signature. Na fase de identificação, o exemplo de voz de entrada é comparado a uma lista especificada de vozes registradas (até 50 em cada solicitação).In the identification phase, the input voice sample is compared to a specified list of enrolled voices (up to 50 in each request).

Segurança e privacidade de dadosData security and privacy

Os dados de registro do orador são armazenados em um sistema protegido, incluindo o áudio de fala para o registro e os recursos de assinatura de voz.Speaker enrollment data is stored in a secured system, including the speech audio for enrollment and the voice signature features. O áudio de fala para registro é usado somente quando o algoritmo é atualizado e os recursos precisam ser extraídos novamente.The speech audio for enrollment is only used when the algorithm is upgraded, and the features need to be extracted again. O serviço não retém a gravação de fala ou os recursos de voz extraídos que são enviados para o serviço durante a fase de reconhecimento.The service does not retain the speech recording or the extracted voice features that are sent to the service during the recognition phase.

Você controla por quanto tempo os dados devem ser retidos.You control how long data should be retained. Você pode criar, atualizar e excluir dados de registro para palestrantes individuais por meio de chamadas à API.You can create, update, and delete enrollment data for individual speakers through API calls. Quando a assinatura é excluída, todos os dados de registro do locutor associados à assinatura também são excluídos.When the subscription is deleted, all the speaker enrollment data associated with the subscription will also be deleted.

Assim como em todos os recursos de serviços cognitivas, os desenvolvedores que usam o serviço de Reconhecimento do Locutor devem estar cientes das políticas da Microsoft nos dados do cliente.As with all of the Cognitive Services resources, developers who use the Speaker Recognition service must be aware of Microsoft's policies on customer data. Você deve garantir que recebeu as permissões apropriadas dos usuários para Reconhecimento do Locutor.You should ensure that you have received the appropriate permissions from the users for Speaker Recognition. Para obter mais informações, consulte a página de serviços cognitivas   na central de confiabilidade da Microsoft.For more information, see the Cognitive Services page on the Microsoft Trust Center.

Perguntas e soluções comunsCommon questions and solutions

PerguntaQuestion SoluçãoSolution
Quais cenários podem Reconhecimento do Locutor ser usados?What scenarios can Speaker Recognition be used for? Verificação do cliente do Call Center, check-in do paciente baseado em voz, transcrição de reunião, personalização de dispositivo multiusuárioCall center customer verification, voice-based patient check-in, meeting transcription, multi-user device personalization
Qual é a diferença entre identificação e verificação?What is the difference between Identification and Verification? A identificação é o processo de detectar qual membro de um grupo de alto-falantes está falando.Identification is the process of detecting which member from a group of speakers is speaking. A verificação é o ato de confirmar que um orador corresponde a uma voz conhecida ou inscrita .Verification is the act of confirming that a speaker matches a known, or enrolled voice.
Qual é a diferença entre a verificação dependente de texto e independente de texto?What's the difference between text-dependent and text-independent verification? A verificação dependente de texto requer uma frase secreta específica para o registro e o reconhecimento.Text-dependent verification requires a specific pass-phrase for both enrollment and recognition. A verificação independente de texto requer um exemplo de voz maior para o registro, mas qualquer coisa pode ser falada, inclusive durante o reconhecimento.Text-independent verification requires a longer voice sample for enrollment, but anything can be spoken, including during recognition.
Quais são os idiomas com suporte?What languages are supported? Inglês, francês, espanhol, chinês, alemão, italiano, japonês e PortuguêsEnglish, French, Spanish, Chinese, German, Italian, Japanese and Portuguese
Quais regiões do Azure têm suporte?What Azure regions are supported? Reconhecimento do Locutor é um serviço de visualização e está disponível no momento apenas na região oeste dos EUA.Speaker Recognition is a preview service, and currently only available in the West US region.
Quais formatos de áudio têm suporte?What audio formats are supported? Mono 16 bits, 16kHz WAV codificados por PCMMono 16 bit, 16kHz PCM-encoded WAV
Aceitar e rejeitar respostas não são precisas, como você ajusta o limite?Accept and Reject responses aren't accurate, how do you tune the threshold? Como o limite ideal varia muito com os cenários, a API decide se deseja "aceitar" ou "rejeitar" simplesmente com base em um limite padrão de 0,5.Since the optimal threshold varies highly with scenarios, the API decides whether to “Accept” or “Reject” simply based on a default threshold of 0.5. Os usuários avançados são aconselhados a substituir a decisão padrão e ajustar o resultado com base em seu próprio cenário.Advanced users are advised to override the default decision and fine tune the result based on your own scenario.
Você pode registrar um alto-falante várias vezes?Can you enroll one speaker multiple times? Sim, para verificação dependente de texto, você pode registrar um palestrante até 50 vezes.Yes, for text-dependent verification, you can enroll a speaker up to 50 times. Para a verificação independente de texto ou a identificação do orador, você pode registrar com até 300 segundos de áudio.For text-independent verification or speaker identification, you can enroll with up to 300 seconds of audio.
Quais dados são armazenados no Azure?What data is stored in Azure? O áudio do registro é armazenado no serviço até que o perfil de voz seja excluído.Enrollment audio is stored in the service until the voice profile is deleted. Os exemplos de áudio de reconhecimento não são mantidos ou armazenados.Recognition audio samples are not retained or stored.

Próximas etapasNext steps