Text Independent - Create Enrollment

Registrar Perfil
Adiciona um registro ao perfil existente. O primeiro registro deve ser uma frase de ativação predefinida que pode ser listada usando a API /phrases/{locale}. Se o número mínimo de áudios de registro solicitados for atingido, uma impressão de voz será criada. Qualquer registro adicional será usado para melhorar a impressão por voz.

Limitações:

  • O comprimento mínimo de entrada de áudio por solicitação é de 1 segundo

  • O comprimento máximo de entrada de áudio por solicitação é de 120 segundos

  • Comprimento mínimo total efetivo da fala (excluindo o silêncio e outros quadros que não são de fala) para criar uma impressão digital é de 20 segundos Essa limitação pode ser desabilitada definindo ignoreMinLength como true.

  • O comprimento máximo total de entrada de áudio permitido para criar uma impressão digital é de 300 segundos

  • A taxa mínima de sinal de áudio para ruído (SNR) é de 2dB

POST {endpoint}/speaker-recognition/identification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/identification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}

Parâmetros de URI

Nome Em Obrigatório Tipo Description
endpoint
path True

string

Pontos de extremidade dos Serviços Cognitivos com suporte (protocolo e nome do host, por exemplo: https://westus.api.cognitive.microsoft.com).

profileId
path True

string

uuid

Identificador exclusivo para id de perfil (guid).

api-version
query True

string

Especifica a versão da operação a ser usada para esta solicitação.

ignoreMinLength
query

boolean

Se for true, uma impressão de voz será criada imediatamente para esse perfil, independentemente da quantidade de fala fornecida ou armazenada. O padrão é false.

Cabeçalho da solicitação

Media Types: "audio/wav; codecs=audio/pcm"

Nome Obrigatório Tipo Description
Ocp-Apim-Subscription-Key True

string

Corpo da solicitação

Media Types: "audio/wav; codecs=audio/pcm"

Nome Tipo Description
audioData

object

Arquivo de áudio binário. Os formatos com suporte são áudio/wav; codecs=audio/pcm. Dá suporte a áudio de até 5 MB.

Respostas

Nome Tipo Description
201 Created

TiEnrollmentInfo

Criado

Other Status Codes

SpeakerErrorInfo

Falha

Headers

x-ms-error-code: string

Segurança

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

Exemplos

Successful Query

Sample Request

POST https://westus.api.cognitive.microsoft.com/speaker-recognition/identification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05


"{binary file date}"

Sample Response

Content-Type: application/json
{
  "profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
  "enrollmentStatus": "Enrolling",
  "enrollmentsCount": 1,
  "enrollmentsLengthInSec": 1.83,
  "enrollmentsSpeechLengthInSec": 1.35,
  "remainingEnrollmentsSpeechLengthInSec": 18.65,
  "audioLengthInSec": 1.83,
  "audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
  "error": {
    "code": "Error Code",
    "message": "Erro Messae"
  }
}

Definições

Nome Description
Error
SpeakerErrorInfo

Mensagem de erro do locutor

TiEnrollmentInfo

Informações de registro de perfil do locutor

TrainingStatusType

Status que representa o estado atual do registro de perfil. Os valores disponíveis são:

  • Registro: o perfil não tem impressão por voz e não está pronto para solicitações de reconhecimento.
  • Treinamento: a impressão de voz do perfil está sendo criada e não pode ser usada para reconhecimento no momento.
  • Registrado: o perfil tem uma impressão de voz e está pronto para solicitações de reconhecimento.

Error

Nome Tipo Description
code

string

message

string

SpeakerErrorInfo

Mensagem de erro do locutor

Nome Tipo Description
error

Error

TiEnrollmentInfo

Informações de registro de perfil do locutor

Nome Tipo Description
audioLengthInSec

number

Esse comprimento de áudio de registro em segundos.

audioSpeechLengthInSec

number

Essa fala pura de áudio de registro (que é a quantidade de áudio depois de remover o silêncio e segmentos de não fala) em segundos.

enrollmentStatus

TrainingStatusType

Status que representa o estado atual do registro de perfil. Os valores disponíveis são:

  • Registro: o perfil não tem impressão por voz e não está pronto para solicitações de reconhecimento.
  • Treinamento: a impressão de voz do perfil está sendo criada e não pode ser usada para reconhecimento no momento.
  • Registrado: o perfil tem uma impressão de voz e está pronto para solicitações de reconhecimento.
enrollmentsCount

integer

Número de áudios de registro aceitos para esse perfil.

enrollmentsLengthInSec

number

Tamanho total dos áudios de registro aceitos para esse perfil em segundos.

enrollmentsSpeechLengthInSec

number

Soma de fala pura (que é a quantidade de áudio depois de remover o silêncio e segmentos de não fala) em todos os registros de perfil em segundos.

profileId

string

Identificador exclusivo para id de perfil (guid).

remainingEnrollmentsSpeechLengthInSec

number

Quantidade de fala pura (que é a quantidade de áudio depois de remover o silêncio e segmentos que não são de fala) necessária para concluir o registro de perfil em segundos.

TrainingStatusType

Status que representa o estado atual do registro de perfil. Os valores disponíveis são:

  • Registro: o perfil não tem impressão por voz e não está pronto para solicitações de reconhecimento.
  • Treinamento: a impressão de voz do perfil está sendo criada e não pode ser usada para reconhecimento no momento.
  • Registrado: o perfil tem uma impressão de voz e está pronto para solicitações de reconhecimento.
Nome Tipo Description
Enrolled

string

Enrolling

string

Training

string