O que é o Reconhecimento de Oradores (Pré-visualização)?What is Speaker Recognition (Preview)?

O serviço de Reconhecimento de Altifalantes fornece algoritmos que verificam e identificam os altifalantes pelas suas características de voz únicas utilizando biometria de voz.The Speaker Recognition service provides algorithms that verify and identify speakers by their unique voice characteristics using voice biometry. O Reconhecimento dos Oradores é usado para responder à pergunta "quem está a falar?".Speaker Recognition is used to answer the question “who is speaking?”. Fornece dados de formação áudio para um único altifalante, o que cria um perfil de inscrição baseado nas características únicas da voz do orador.You provide audio training data for a single speaker, which creates an enrollment profile based on the unique characteristics of the speaker's voice. Em seguida, pode cruzar as amostras de voz áudio contra este perfil para verificar se o altifalante é a mesma pessoa (verificação do altifalante) ou cruzar amostras de voz áudio contra um grupo de perfis de altifalantes inscritos, para ver se corresponde a algum perfil do grupo (identificação do altifalante).You can then cross-check audio voice samples against this profile to verify that the speaker is the same person (speaker verification), or cross-check audio voice samples against a group of enrolled speaker profiles, to see if it matches any profile in the group (speaker identification). Em contraste, a diarização dos altifalantes agrupe segmentos de áudio por altifalante numa operação de lote.In contrast, Speaker Diarization groups segments of audio by speaker in a batch operation.

Verificação de OradorSpeaker Verification

A Verificação do Altifalante simplifica o processo de verificação da identidade de um altifalante inscrito com frases-passe ou entrada de voz em formato livre.Speaker Verification streamlines the process of verifying an enrolled speaker identity with either passphrases or free-form voice input. Pode ser usado para verificar indivíduos para compromissos seguros e sem atritos com clientes numa ampla gama de soluções, desde a verificação de identidade do cliente em call centers até ao acesso a instalações sem contacto.It can be used to verify individuals for secure, frictionless customer engagements in a wide range of solutions, from customer identity verification in call centers to contact-less facility access.

Como funciona a Verificação do Orador?How does Speaker Verification work?

Fluxograma de verificação do altifalante.

A verificação do altifalante pode ser dependente de texto ou independente de texto.Speaker verification can be either text-dependent or text-independent. A verificação dependente de texto significa que os altifalantes têm de escolher a mesma palavra-passe para utilizar durante as fases de inscrição e verificação.Text-dependent verification means speakers need to choose the same passphrase to use during both enrollment and verification phases. A verificação independente de textos significa que os falantes podem falar em linguagem quotidiana nas frases de inscrição e verificação.Text-independent verification means speakers can speak in everyday language in the enrollment and verification phrases.

Para a verificação dependente de texto, a voz do orador é inscrita dizendo uma palavra-passe a partir de um conjunto de frases predefinidas.For text-dependent verification, the speaker's voice is enrolled by saying a passphrase from a set of predefined phrases. As características de voz são extraídas da gravação áudio para formar uma assinatura de voz única, enquanto a frase de passe escolhida também é reconhecida.Voice features are extracted from the audio recording to form a unique voice signature, while the chosen passphrase is also recognized. Juntos, a assinatura de voz e a palavra-passe são usadas para verificar o altifalante.Together, the voice signature and the passphrase are used to verify the speaker.

A verificação independente por texto não tem restrições sobre o que o orador diz durante a inscrição ou na amostra de áudio a verificar, uma vez que apenas extrai características de voz para marcar semelhanças.Text-independent verification has no restrictions on what the speaker says during enrollment or in the audio sample to be verified, as it only extracts voice features to score similarity.

As APIs não se destinam a determinar se o áudio é de uma pessoa viva ou de uma imitação/gravação de um altifalante inscrito.The APIs are not intended to determine whether the audio is from a live person or an imitation/recording of an enrolled speaker.

Identificação de OradorSpeaker Identification

A identificação do altifalante é utilizada para determinar a identidade de um orador desconhecido dentro de um grupo de altifalantes inscritos.Speaker Identification is used to determine an unknown speaker’s identity within a group of enrolled speakers. A identificação dos altifalantes permite-lhe atribuir a fala a colunas individuais e desbloquear valor de cenários com vários altifalantes, tais como:Speaker Identification enables you to attribute speech to individual speakers, and unlock value from scenarios with multiple speakers, such as:

  • Soluções de apoio para a produtividade do encontro remotoSupport solutions for remote meeting productivity
  • Construa personalização de dispositivos multiutilizadoresBuild multi-user device personalization

Como funciona a Identificação do Orador?How does Speaker Identification work?

A inscrição para identificação de altifalantes é independente de texto, o que significa que não há restrições ao que o orador diz no áudio.Enrollment for speaker identification is text-independent, which means that there are no restrictions on what the speaker says in the audio. Semelhante à Verificação do Altifalante, na fase de inscrição a voz do orador é gravada e as características de voz são extraídas para formar uma assinatura de voz única.Similar to Speaker Verification, in the enrollment phase the speaker's voice is recorded, and voice features are extracted to form a unique voice signature. Na fase de identificação, a amostra de voz de entrada é comparada com uma lista especificada de vozes inscritas (até 50 em cada pedido).In the identification phase, the input voice sample is compared to a specified list of enrolled voices (up to 50 in each request).

Segurança e privacidade dos dadosData security and privacy

Os dados de inscrição dos altifalantes são armazenados num sistema seguro, incluindo o áudio de voz para inscrição e as funcionalidades de assinatura de voz.Speaker enrollment data is stored in a secured system, including the speech audio for enrollment and the voice signature features. O áudio de fala para a inscrição só é usado quando o algoritmo é atualizado, e as funcionalidades precisam de ser extraídas novamente.The speech audio for enrollment is only used when the algorithm is upgraded, and the features need to be extracted again. O serviço não mantém a gravação de voz ou as características de voz extraídas que são enviadas para o serviço durante a fase de reconhecimento.The service does not retain the speech recording or the extracted voice features that are sent to the service during the recognition phase.

Controla-se quanto tempo os dados devem ser retidos.You control how long data should be retained. Pode criar, atualizar e apagar dados de inscrição para colunas individuais através de chamadas API.You can create, update, and delete enrollment data for individual speakers through API calls. Quando a subscrição for eliminada, todos os dados de inscrição do orador associados à subscrição também serão eliminados.When the subscription is deleted, all the speaker enrollment data associated with the subscription will also be deleted.

Tal como acontece com todos os recursos dos Serviços Cognitivos, os desenvolvedores que utilizam o serviço de Reconhecimento de Altifalantes devem estar cientes das políticas da Microsoft sobre os dados dos clientes.As with all of the Cognitive Services resources, developers who use the Speaker Recognition service must be aware of Microsoft's policies on customer data. Deve certificar-se de que recebeu as permissões adequadas dos utilizadores para reconhecimento de altifalantes.You should ensure that you have received the appropriate permissions from the users for Speaker Recognition. Para mais informações, consulte a página de Serviços Cognitivos   no Microsoft Trust Center.For more information, see the Cognitive Services page on the Microsoft Trust Center.

Perguntas e soluções comunsCommon questions and solutions

PerguntaQuestion SoluçãoSolution
Para que cenários pode ser utilizado o Reconhecimento do Orador?What scenarios can Speaker Recognition be used for? Verificação do cliente de call center, check-in do paciente baseado em voz, transcrição de reunião, personalização de dispositivos multiutilizadoresCall center customer verification, voice-based patient check-in, meeting transcription, multi-user device personalization
Qual é a diferença entre Identificação e Verificação?What is the difference between Identification and Verification? A identificação é o processo de deteção de qual membro de um grupo de oradores está a falar.Identification is the process of detecting which member from a group of speakers is speaking. A verificação é o ato de confirmar que um orador corresponde a uma voz conhecida ou inscrita.Verification is the act of confirming that a speaker matches a known, or enrolled voice.
Qual é a diferença entre a verificação independente de texto e texto?What's the difference between text-dependent and text-independent verification? A verificação dependente de texto requer uma frase-passe específica tanto para a inscrição como para o reconhecimento.Text-dependent verification requires a specific pass-phrase for both enrollment and recognition. A verificação independente de texto requer uma amostra de voz mais longa para a inscrição, mas qualquer coisa pode ser falada, incluindo durante o reconhecimento.Text-independent verification requires a longer voice sample for enrollment, but anything can be spoken, including during recognition.
Que línguas são apoiadas?What languages are supported? Inglês, Francês, Espanhol, Chinês, Alemão, Italiano, Japonês e PortuguêsEnglish, French, Spanish, Chinese, German, Italian, Japanese and Portuguese
Que regiões de Azure são apoiadas?What Azure regions are supported? O Speaker Recognition é um serviço de pré-visualização, e atualmente apenas disponível na região oeste dos EUA.Speaker Recognition is a preview service, and currently only available in the West US region.
Que formatos de áudio são suportados?What audio formats are supported? Mono 16 bit, 16kHz PCM-codificado WAVMono 16 bit, 16kHz PCM-encoded WAV
Aceitar e Rejeitar respostas não são precisas, como é que se afina o limiar?Accept and Reject responses aren't accurate, how do you tune the threshold? Uma vez que o limiar ideal varia muito com cenários, a API decide se aceita ou "Rejeitar" simplesmente com base num limiar padrão de 0,5.Since the optimal threshold varies highly with scenarios, the API decides whether to “Accept” or “Reject” simply based on a default threshold of 0.5. Os utilizadores avançados são aconselhados a anular a decisão por defeito e a afinar o resultado com base no seu próprio cenário.Advanced users are advised to override the default decision and fine tune the result based on your own scenario.
Pode inscrever um orador várias vezes?Can you enroll one speaker multiple times? Sim, para verificação dependente de texto, pode inscrever um altifalante até 50 vezes.Yes, for text-dependent verification, you can enroll a speaker up to 50 times. Para verificação independente de texto ou identificação de altifalantes, pode inscrever-se com até 300 segundos de áudio.For text-independent verification or speaker identification, you can enroll with up to 300 seconds of audio.
Que dados são armazenados em Azure?What data is stored in Azure? O áudio de inscrição é armazenado no serviço até que o perfil de voz seja eliminado.Enrollment audio is stored in the service until the voice profile is deleted. As amostras de áudio de reconhecimento não são retidas ou armazenadas.Recognition audio samples are not retained or stored.

Passos seguintesNext steps

  • Preencha o artigo básico de reconhecimento de altifalantes para um ensaio de padrões de design comuns que pode usar nas suas aplicações.Complete the Speaker Recognition basics article for a run-through of common design patterns you can use in your applications.
  • Consulte o tutorial de vídeo para verificar o orador independente de texto.See the video tutorial for text-independent speaker verification.