Text Independent - Create Enrollment

Inscribir perfil
Agrega una inscripción al perfil existente. La primera inscripción debe ser una frase de activación predefinida que se puede enumerar mediante la API /phrase/{locale}. Si se alcanza el número mínimo de audios de inscripción solicitados, se crea una impresión de voz. Cualquier inscripción adicional se usará para mejorar la impresión de voz.

Limitaciones:

  • La longitud mínima de entrada de audio por solicitud es de 1 segundo

  • La longitud máxima de entrada de audio por solicitud es de 120 segundos

  • Longitud mínima de voz efectiva mínima (excepto el silencio y otros fotogramas que no son de voz) para crear una huella de voz es de 20 segundos . Esta limitación se puede deshabilitar estableciendo "ignoreMinLength" en true.

  • La longitud máxima de entrada de audio total permitida para crear una huella de voz es de 300 segundos.

  • La relación mínima de señal a ruido de audio (SNR) es 2dB

POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05
POST {endpoint}/speaker-recognition/verification/text-independent/profiles/{profileId}/enrollments?api-version=2021-09-05&ignoreMinLength={ignoreMinLength}

Parámetros de identificador URI

Nombre En Requerido Tipo Description
endpoint
path True

string

Puntos de conexión de Cognitive Services admitidos (protocolo y nombre de host, por ejemplo: https://westus.api.cognitive.microsoft.com).

profileId
path True

string

uuid

Identificador único del identificador de perfil (GUID).

api-version
query True

string

Especifica la versión de la operación que se utiliza para esta solicitud.

ignoreMinLength
query

boolean

Si es true, se creará una impresión de voz inmediatamente para este perfil, independientemente de la cantidad de voz proporcionada o almacenada. El valor predeterminado es False.

Encabezado de la solicitud

Media Types: "audio/wav; codecs=audio/pcm"

Nombre Requerido Tipo Description
Ocp-Apim-Subscription-Key True

string

Cuerpo de la solicitud

Media Types: "audio/wav; codecs=audio/pcm"

Nombre Tipo Description
audioData

object

Archivo de audio binario. Los formatos admitidos son audio/wav; codecs=audio/pcm. Admite audio de hasta 5 MB.

Respuestas

Nombre Tipo Description
201 Created

TiEnrollmentInfo

Creado

Other Status Codes

SpeakerErrorInfo

Error

Headers

x-ms-error-code: string

Seguridad

Ocp-Apim-Subscription-Key

Type: apiKey
In: header

Ejemplos

Successful Query

Sample Request

POST https://westus.api.cognitive.microsoft.com/speaker-recognition/verification/text-independent/profiles/49a36324-fc4b-4387-aa06-090cfbf0064f/enrollments?api-version=2021-09-05


"{binary file date}"

Sample Response

Content-Type: application/json
{
  "profileId": "49a36324-fc4b-4387-aa06-090cfbf0064f",
  "enrollmentStatus": "Enrolling",
  "enrollmentsCount": 1,
  "enrollmentsLengthInSec": 1.83,
  "enrollmentsSpeechLengthInSec": 1.35,
  "remainingEnrollmentsSpeechLengthInSec": 18.65,
  "audioLengthInSec": 1.83,
  "audioSpeechLengthInSec": 1.35
}
Content-Type: application/json
x-ms-error-code: Error Code
{
  "error": {
    "code": "Error Code",
    "message": "Erro Messae"
  }
}

Definiciones

Nombre Description
Error
SpeakerErrorInfo

Mensaje de error del hablante

TiEnrollmentInfo

Text-Independent información de inscripción del perfil de Speaker

TrainingStatusType

Estado que representa el estado actual del perfil. Valores disponibles:

  • Inscripción: el perfil no tiene impresión de voz y no está listo para las solicitudes de reconocimiento.
  • Entrenamiento: se está creando la impresión de voz del perfil y no se puede usar para el reconocimiento en este momento.
  • Inscrito: el perfil tiene una impresión de voz y está lista para las solicitudes de reconocimiento.

Error

Nombre Tipo Description
code

string

message

string

SpeakerErrorInfo

Mensaje de error del hablante

Nombre Tipo Description
error

Error

TiEnrollmentInfo

Text-Independent información de inscripción del perfil de Speaker

Nombre Tipo Description
audioLengthInSec

number

Esta longitud de audio de inscripción en segundos.

audioSpeechLengthInSec

number

Esta inscripción de voz pura de audio (que es la cantidad de audio después de quitar el silencio y los segmentos que no son de voz) dura en segundos.

enrollmentStatus

TrainingStatusType

Estado que representa el estado actual del perfil. Valores disponibles:

  • Inscripción: el perfil no tiene impresión de voz y no está listo para las solicitudes de reconocimiento.
  • Entrenamiento: se está creando la impresión de voz del perfil y no se puede usar para el reconocimiento en este momento.
  • Inscrito: el perfil tiene una impresión de voz y está lista para las solicitudes de reconocimiento.
enrollmentsCount

integer

Número de audios de inscripción aceptados para este perfil.

enrollmentsLengthInSec

number

Longitud total de los audios de inscripción aceptados para este perfil en segundos.

enrollmentsSpeechLengthInSec

number

Suma de voz pura (que es la cantidad de audio después de quitar el silencio y los segmentos que no son de voz) en todas las inscripciones de perfil en segundos.

profileId

string

Identificador único del identificador de perfil (GUID).

remainingEnrollmentsSpeechLengthInSec

number

Cantidad de voz pura (que es la cantidad de audio después de quitar el silencio y los segmentos que no son de voz) necesarios para completar la inscripción de perfiles en segundos.

TrainingStatusType

Estado que representa el estado actual del perfil. Valores disponibles:

  • Inscripción: el perfil no tiene impresión de voz y no está listo para las solicitudes de reconocimiento.
  • Entrenamiento: se está creando la impresión de voz del perfil y no se puede usar para el reconocimiento en este momento.
  • Inscrito: el perfil tiene una impresión de voz y está lista para las solicitudes de reconocimiento.
Nombre Tipo Description
Enrolled

string

Enrolling

string

Training

string