Text Independent - Create Enrollment

Registra profilo
Aggiunge una registrazione al profilo esistente. La prima registrazione deve essere una frase di attivazione predefinita che può essere elencata usando l'API /phrase/{locale}. Se viene raggiunto il numero minimo di audio di registrazione richiesti, viene creata una stampa vocale. Qualsiasi ulteriore registrazione verrà usata per migliorare la stampa vocale.

Limitazioni

  • La lunghezza minima dell'input audio per richiesta è di 1 secondo

  • La lunghezza massima dell'input audio per richiesta è di 120 secondi

  • La lunghezza totale minima del parlato effettivo (escluso il silenzio e altri fotogrammi non vocali) per la creazione di un'identificazione vocale è di 20 secondi Questa limitazione può essere disabilitata impostando "ignoreMinLength" su true.

  • La lunghezza massima di input audio totale consentita per la creazione di un'identificazione vocale è di 300 secondi

  • Il rapporto minimo tra segnale audio e rumore (SNR) è 2dB

POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}

Parametri dell'URI

Nome In Necessario Tipo Descrizione
endpoint
path True

string

Endpoint di Servizi cognitivi supportati (protocollo e nome host, ad esempio: https://westus.api.cognitive.microsoft.com).

profileId
path True

string

uuid

Identificatore univoco per l'ID profilo (GUID).

api-version
query True

string

Specifica la versione dell'operazione da usare per questa richiesta.

ignoreMinLength
query

boolean

Se true, verrà creata immediatamente una stampa vocale per questo profilo indipendentemente dalla quantità di riconoscimento vocale fornita o archiviata. L'impostazione predefinita è false.

Intestazione della richiesta

Media Types: "audio/wav; codecs=audio/pcm"

Nome Necessario Tipo Descrizione
Ocp-Apim-Subscription-Key True

string

Corpo della richiesta

Media Types: "audio/wav; codecs=audio/pcm"

Nome Tipo Descrizione
audioData

object

File audio binario. I formati supportati sono audio/wav; codecs=audio/pcm. Supporta l'audio fino a 5 MB.

Risposte

Nome Tipo Descrizione
201 Created

TiEnrollmentInfo

Data di creazione

Other Status Codes

SpeakerErrorInfo

Operazioni non riuscite

Headers

x-ms-error-code: string

Sicurezza

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

Esempio

Successful Query

Sample Request

POST https://westus.api.cognitive.microsoft.com/speaker-recognition/verification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05


"{binary file date}"

Sample Response

Content-Type: application/json
{
  "profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
  "enrollmentStatus": "Enrolling",
  "enrollmentsCount": 1,
  "enrollmentsLengthInSec": 1.83,
  "enrollmentsSpeechLengthInSec": 1.35,
  "remainingEnrollmentsSpeechLengthInSec": 18.65,
  "audioLengthInSec": 1.83,
  "audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
  "error": {
    "code": "Error Code",
    "message": "Erro Messae"
  }
}

Definizioni

Nome Descrizione
Error
SpeakerErrorInfo

Messaggio di errore del parlante

TiEnrollmentInfo

Text-Independent informazioni di registrazione del profilo voce

TrainingStatusType

Stato che rappresenta lo stato corrente del profilo. I valori disponibili sono:

  • Registrazione: il profilo non ha stampa vocale e non è pronto per le richieste di riconoscimento.
  • Training: la stampa vocale del profilo viene creata e non può essere usata per il riconoscimento al momento.
  • Registrato: il profilo ha una stampa vocale e pronto per le richieste di riconoscimento.

Error

Nome Tipo Descrizione
code

string

message

string

SpeakerErrorInfo

Messaggio di errore del parlante

Nome Tipo Descrizione
error

Error

TiEnrollmentInfo

Text-Independent informazioni di registrazione del profilo voce

Nome Tipo Descrizione
audioLengthInSec

number

Lunghezza audio della registrazione in secondi.

audioSpeechLengthInSec

number

Questa registrazione audio puro voce (che corrisponde alla quantità di audio dopo la rimozione del silenzio e dei segmenti non vocali) in secondi.

enrollmentStatus

TrainingStatusType

Stato che rappresenta lo stato corrente del profilo. I valori disponibili sono:

  • Registrazione: il profilo non ha stampa vocale e non è pronto per le richieste di riconoscimento.
  • Training: la stampa vocale del profilo viene creata e non può essere usata per il riconoscimento al momento.
  • Registrato: il profilo ha una stampa vocale e pronto per le richieste di riconoscimento.
enrollmentsCount

integer

Numero di audio di registrazione accettati per questo profilo.

enrollmentsLengthInSec

number

Lunghezza totale degli audio di registrazione accettati per questo profilo in secondi.

enrollmentsSpeechLengthInSec

number

Somma del parlato puro (ovvero la quantità di audio dopo la rimozione del silenzio e dei segmenti non vocali) in tutte le registrazioni del profilo in pochi secondi.

profileId

string

Identificatore univoco per l'ID profilo (GUID).

remainingEnrollmentsSpeechLengthInSec

number

Quantità di voce pura (ovvero la quantità di audio dopo la rimozione del silenzio e dei segmenti non vocali) necessaria per completare la registrazione del profilo in pochi secondi.

TrainingStatusType

Stato che rappresenta lo stato corrente del profilo. I valori disponibili sono:

  • Registrazione: il profilo non ha stampa vocale e non è pronto per le richieste di riconoscimento.
  • Training: la stampa vocale del profilo viene creata e non può essere usata per il riconoscimento al momento.
  • Registrato: il profilo ha una stampa vocale e pronto per le richieste di riconoscimento.
Nome Tipo Descrizione
Enrolled

string

Enrolling

string

Training

string