Text Independent - Create Enrollment
Registra profilo
Aggiunge una registrazione al profilo esistente.
La prima registrazione deve essere una frase di attivazione predefinita che può essere elencata usando l'API /phrase/{locale}.
Se viene raggiunto il numero minimo di audio di registrazione richiesti, viene creata una stampa vocale.
Qualsiasi ulteriore registrazione verrà usata per migliorare la stampa vocale.
Limitazioni
La lunghezza minima dell'input audio per richiesta è di 1 secondo
La lunghezza massima dell'input audio per richiesta è di 120 secondi
La lunghezza totale minima del parlato effettivo (escluso il silenzio e altri fotogrammi non vocali) per la creazione di un'identificazione vocale è di 20 secondi Questa limitazione può essere disabilitata impostando "ignoreMinLength" su true.
La lunghezza massima di input audio totale consentita per la creazione di un'identificazione vocale è di 300 secondi
Il rapporto minimo tra segnale audio e rumore (SNR) è 2dB
POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}
Parametri dell'URI
Nome | In | Necessario | Tipo | Descrizione |
---|---|---|---|---|
endpoint
|
path | True |
string |
Endpoint di Servizi cognitivi supportati (protocollo e nome host, ad esempio: https://westus.api.cognitive.microsoft.com). |
profile
|
path | True |
string uuid |
Identificatore univoco per l'ID profilo (GUID). |
api-version
|
query | True |
string |
Specifica la versione dell'operazione da usare per questa richiesta. |
ignore
|
query |
boolean |
Se true, verrà creata immediatamente una stampa vocale per questo profilo indipendentemente dalla quantità di riconoscimento vocale fornita o archiviata. L'impostazione predefinita è false. |
Intestazione della richiesta
Media Types: "audio/wav; codecs=audio/pcm"
Nome | Necessario | Tipo | Descrizione |
---|---|---|---|
Ocp-Apim-Subscription-Key | True |
string |
Corpo della richiesta
Media Types: "audio/wav; codecs=audio/pcm"
Nome | Tipo | Descrizione |
---|---|---|
audioData |
object |
File audio binario. I formati supportati sono audio/wav; codecs=audio/pcm. Supporta l'audio fino a 5 MB. |
Risposte
Nome | Tipo | Descrizione |
---|---|---|
201 Created |
Data di creazione |
|
Other Status Codes |
Operazioni non riuscite Headers x-ms-error-code: string |
Sicurezza
Ocp-Apim-Subscription-Key
Type:
apiKey
In:
header
Esempio
Successful Query
Sample Request
POST https://westus.api.cognitive.microsoft.com/speaker-recognition/verification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05
"{binary file date}"
Sample Response
Content-Type: application/json
{
"profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
"enrollmentStatus": "Enrolling",
"enrollmentsCount": 1,
"enrollmentsLengthInSec": 1.83,
"enrollmentsSpeechLengthInSec": 1.35,
"remainingEnrollmentsSpeechLengthInSec": 18.65,
"audioLengthInSec": 1.83,
"audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
"error": {
"code": "Error Code",
"message": "Erro Messae"
}
}
Definizioni
Nome | Descrizione |
---|---|
Error | |
Speaker |
Messaggio di errore del parlante |
Ti |
Text-Independent informazioni di registrazione del profilo voce |
Training |
Stato che rappresenta lo stato corrente del profilo. I valori disponibili sono:
|
Error
Nome | Tipo | Descrizione |
---|---|---|
code |
string |
|
message |
string |
SpeakerErrorInfo
Messaggio di errore del parlante
Nome | Tipo | Descrizione |
---|---|---|
error |
TiEnrollmentInfo
Text-Independent informazioni di registrazione del profilo voce
Nome | Tipo | Descrizione |
---|---|---|
audioLengthInSec |
number |
Lunghezza audio della registrazione in secondi. |
audioSpeechLengthInSec |
number |
Questa registrazione audio puro voce (che corrisponde alla quantità di audio dopo la rimozione del silenzio e dei segmenti non vocali) in secondi. |
enrollmentStatus |
Stato che rappresenta lo stato corrente del profilo. I valori disponibili sono:
|
|
enrollmentsCount |
integer |
Numero di audio di registrazione accettati per questo profilo. |
enrollmentsLengthInSec |
number |
Lunghezza totale degli audio di registrazione accettati per questo profilo in secondi. |
enrollmentsSpeechLengthInSec |
number |
Somma del parlato puro (ovvero la quantità di audio dopo la rimozione del silenzio e dei segmenti non vocali) in tutte le registrazioni del profilo in pochi secondi. |
profileId |
string |
Identificatore univoco per l'ID profilo (GUID). |
remainingEnrollmentsSpeechLengthInSec |
number |
Quantità di voce pura (ovvero la quantità di audio dopo la rimozione del silenzio e dei segmenti non vocali) necessaria per completare la registrazione del profilo in pochi secondi. |
TrainingStatusType
Stato che rappresenta lo stato corrente del profilo. I valori disponibili sono:
- Registrazione: il profilo non ha stampa vocale e non è pronto per le richieste di riconoscimento.
- Training: la stampa vocale del profilo viene creata e non può essere usata per il riconoscimento al momento.
- Registrato: il profilo ha una stampa vocale e pronto per le richieste di riconoscimento.
Nome | Tipo | Descrizione |
---|---|---|
Enrolled |
string |
|
Enrolling |
string |
|
Training |
string |