Text Independent - Create Enrollment
Registrar Perfil
Adiciona um registro ao perfil existente.
O primeiro registro deve ser uma frase de ativação predefinida que pode ser listada usando a API /phrases/{locale}.
Se o número mínimo de áudios de registro solicitados for atingido, uma impressão de voz será criada.
Qualquer registro adicional será usado para melhorar a impressão por voz.
Limitações:
O comprimento mínimo de entrada de áudio por solicitação é de 1 segundo
O comprimento máximo de entrada de áudio por solicitação é de 120 segundos
Comprimento mínimo total efetivo da fala (excluindo o silêncio e outros quadros que não são de fala) para criar uma impressão digital é de 20 segundos Essa limitação pode ser desabilitada definindo ignoreMinLength como true.
O comprimento máximo total de entrada de áudio permitido para criar uma impressão digital é de 300 segundos
A taxa mínima de sinal de áudio para ruído (SNR) é de 2dB
POST {endpoint}/speaker-recognition/identification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/identification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}
Parâmetros de URI
Nome | Em | Obrigatório | Tipo | Description |
---|---|---|---|---|
endpoint
|
path | True |
string |
Pontos de extremidade dos Serviços Cognitivos com suporte (protocolo e nome do host, por exemplo: https://westus.api.cognitive.microsoft.com). |
profile
|
path | True |
string uuid |
Identificador exclusivo para id de perfil (guid). |
api-version
|
query | True |
string |
Especifica a versão da operação a ser usada para esta solicitação. |
ignore
|
query |
boolean |
Se for true, uma impressão de voz será criada imediatamente para esse perfil, independentemente da quantidade de fala fornecida ou armazenada. O padrão é false. |
Cabeçalho da solicitação
Media Types: "audio/wav; codecs=audio/pcm"
Nome | Obrigatório | Tipo | Description |
---|---|---|---|
Ocp-Apim-Subscription-Key | True |
string |
Corpo da solicitação
Media Types: "audio/wav; codecs=audio/pcm"
Nome | Tipo | Description |
---|---|---|
audioData |
object |
Arquivo de áudio binário. Os formatos com suporte são áudio/wav; codecs=audio/pcm. Dá suporte a áudio de até 5 MB. |
Respostas
Nome | Tipo | Description |
---|---|---|
201 Created |
Criado |
|
Other Status Codes |
Falha Headers x-ms-error-code: string |
Segurança
Ocp-Apim-Subscription-Key
Type:
apiKey
In:
header
Exemplos
Successful Query
Sample Request
POST https://westus.api.cognitive.microsoft.com/speaker-recognition/identification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05
"{binary file date}"
Sample Response
Content-Type: application/json
{
"profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
"enrollmentStatus": "Enrolling",
"enrollmentsCount": 1,
"enrollmentsLengthInSec": 1.83,
"enrollmentsSpeechLengthInSec": 1.35,
"remainingEnrollmentsSpeechLengthInSec": 18.65,
"audioLengthInSec": 1.83,
"audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
"error": {
"code": "Error Code",
"message": "Erro Messae"
}
}
Definições
Nome | Description |
---|---|
Error | |
Speaker |
Mensagem de erro do locutor |
Ti |
Informações de registro de perfil do locutor |
Training |
Status que representa o estado atual do registro de perfil. Os valores disponíveis são:
|
Error
Nome | Tipo | Description |
---|---|---|
code |
string |
|
message |
string |
SpeakerErrorInfo
Mensagem de erro do locutor
Nome | Tipo | Description |
---|---|---|
error |
TiEnrollmentInfo
Informações de registro de perfil do locutor
Nome | Tipo | Description |
---|---|---|
audioLengthInSec |
number |
Esse comprimento de áudio de registro em segundos. |
audioSpeechLengthInSec |
number |
Essa fala pura de áudio de registro (que é a quantidade de áudio depois de remover o silêncio e segmentos de não fala) em segundos. |
enrollmentStatus |
Status que representa o estado atual do registro de perfil. Os valores disponíveis são:
|
|
enrollmentsCount |
integer |
Número de áudios de registro aceitos para esse perfil. |
enrollmentsLengthInSec |
number |
Tamanho total dos áudios de registro aceitos para esse perfil em segundos. |
enrollmentsSpeechLengthInSec |
number |
Soma de fala pura (que é a quantidade de áudio depois de remover o silêncio e segmentos de não fala) em todos os registros de perfil em segundos. |
profileId |
string |
Identificador exclusivo para id de perfil (guid). |
remainingEnrollmentsSpeechLengthInSec |
number |
Quantidade de fala pura (que é a quantidade de áudio depois de remover o silêncio e segmentos que não são de fala) necessária para concluir o registro de perfil em segundos. |
TrainingStatusType
Status que representa o estado atual do registro de perfil. Os valores disponíveis são:
- Registro: o perfil não tem impressão por voz e não está pronto para solicitações de reconhecimento.
- Treinamento: a impressão de voz do perfil está sendo criada e não pode ser usada para reconhecimento no momento.
- Registrado: o perfil tem uma impressão de voz e está pronto para solicitações de reconhecimento.
Nome | Tipo | Description |
---|---|---|
Enrolled |
string |
|
Enrolling |
string |
|
Training |
string |