Preparación de los datos para crear una voz personalizadaPrepare data to create a custom voice

Cuando esté listo para crear un modelo personalizado de texto a voz para su aplicación, el primer paso es reunir las grabaciones de audio y los scripts asociados para empezar a entrenar el modelo de voz.When you're ready to create a custom text-to-speech voice for your application, the first step is to gather audio recordings and associated scripts to start training the voice model. El servicio de voz usan estos datos para crear una voz única optimizada para que coincida con la de las grabaciones.The Speech service uses this data to create a unique voice tuned to match the voice in the recordings. Cuando haya entrenado la voz, puede comenzar a sintetizarla en sus aplicaciones.After you've trained the voice, you can start synthesizing speech in your applications.

Puede comenzar con una pequeña cantidad de datos para crear una prueba de concepto.You can start with a small amount of data to create a proof of concept. Sin embargo, cuantos más datos proporcione, más natural sonará su voz personalizada.However, the more data that you provide, the more natural your custom voice will sound. Antes de entrenar su propio modelo de texto a voz, necesitará las grabaciones de audio y las transcripciones de texto asociadas.Before you can train your own text-to-speech voice model, you'll need audio recordings and the associated text transcriptions. En esta página, revisaremos los tipos de datos, cómo se usan y cómo administrar cada uno.On this page, we'll review data types, how they are used, and how to manage each.

Tipos de datosData types

Un conjunto de datos de entrenamiento de voz incluye grabaciones de audio y un archivo de texto con las transcripciones asociadas.A voice training dataset includes audio recordings, and a text file with the associated transcriptions. Cada archivo de audio debe contener una sola expresión (una frase única o un solo turno en un sistema de diálogo) y tener una duración de menos de 15 segundos.Each audio file should contain a single utterance (a single sentence or a single turn for a dialog system), and be less than 15 seconds long.

En algunos casos, puede que no tenga listo el conjunto de datos adecuado y quiera probar el entrenamiento de voz personalizada con los archivos de audio disponibles, cortos o largos, con o sin transcripciones.In some cases, you may not have the right dataset ready and will want to test the custom voice training with available audio files, short or long, with or without transcripts. Nosotros proporcionamos herramientas (beta) para ayudarle a segmentar el audio en expresiones y preparar las transcripciones mediante la API Batch Transcription.We provide tools (beta) to help you segment your audio into utterances and prepare transcripts using the Batch Transcription API.

En esta tabla se enumeran los tipos de datos y cómo se usa cada uno para crear un modelo personalizado de texto a voz.This table lists data types and how each is used to create a custom text-to-speech voice model.

Tipo de datosData type DESCRIPCIÓNDescription Cuándo se deben usarWhen to use Servicio adicional necesarioAdditional service required Cantidad para entrenar un modeloQuantity for training a model Configuraciones regionalesLocale(s)
Expresiones individuales + transcripción relacionadaIndividual utterances + matching transcript Una colección (.zip) de archivos de audio (.wav) como expresiones individuales.A collection (.zip) of audio files (.wav) as individual utterances. Cada archivo de audio debe tener una longitud de 15 segundos o menos y estar emparejado con una transcripción con formato (.txt).Each audio file should be 15 seconds or less in length, paired with a formatted transcript (.txt). Grabaciones profesionales con transcripciones relacionadasProfessional recordings with matching transcripts Listo para el entrenamiento.Ready for training. Sin requisitos fijos para en-US y zh-CN.No hard requirement for en-US and zh-CN. Más de 2000 expresiones diferentes para otras configuraciones regionales.More than 2,000+ distinct utterances for other locales. Todas las configuraciones regionales de voz personalizadaAll Custom Voice locales
Audio largo + transcripciones (beta)Long audio + transcript (beta) Una colección (.zip) de archivos de audio largos sin segmentar (más de 20 segundos), emparejados con una transcripción (.txt) que contiene todas las palabras habladas.A collection (.zip) of long, unsegmented audio files (longer than 20 seconds), paired with a transcript (.txt) that contains all spoken words. Tiene archivos de audio y transcripciones relacionadas, pero no están segmentados en expresiones.You have audio files and matching transcripts, but they are not segmented into utterances. Segmentación (mediante transcripción por lotes).Segmentation (using batch transcription).
Transformación del formato de audio cuando sea necesario.Audio format transformation where required.
Sin requisitos fijosNo hard requirement Todas las configuraciones regionales de voz personalizadaAll Custom Voice locales
Solo audio (beta)Audio only (beta) Una colección (.zip) de archivos de audio sin una transcripción.A collection (.zip) of audio files without a transcript. Solo dispone de archivos de audio, sin transcripciones.You only have audio files available, without transcripts. Segmentación + generación de transcripciones (mediante la transcripción por lotes).Segmentation + transcript generation (using batch transcription).
Transformación del formato de audio cuando sea necesario.Audio format transformation where required.
Sin requisitos fijosNo hard requirement Todas las configuraciones regionales de voz personalizadaAll Custom Voice locales

Los archivos deben agruparse por tipo en un conjunto de datos y cargarse como un archivo zip.Files should be grouped by type into a dataset and uploaded as a zip file. Cada conjunto de datos solo puede contener un tipo de datos.Each dataset can only contain a single data type.

Nota

El número máximo de conjuntos de datos que se pueden importar por suscripción es de 10 archivos ZIP para usuarios de la suscripción gratuita (F0) y 500 para usuarios para la suscripción estándar (S0).The maximum number of datasets allowed to be imported per subscription is 10 .zip files for free subscription (F0) users and 500 for standard subscription (S0) users.

Expresiones individuales + transcripción relacionadaIndividual utterances + matching transcript

Puede preparar las grabaciones de expresiones individuales y la transcripción relacionada de dos maneras.You can prepare recordings of individual utterances and the matching transcript in two ways. Escriba un guion y haga que lo lea un locutor, o bien use el audio disponible públicamente y transcríbalo a texto.Either write a script and have it read by a voice talent or use publicly available audio and transcribe it to text. En este último caso, deberá editar las disfluencias de los archivos de audio, como las muletillas ("em") y otros sonidos de relleno, tartamudeos, palabras entre dientes o pronunciaciones erróneas.If you do the latter, edit disfluencies from the audio files, such as "um" and other filler sounds, stutters, mumbled words, or mispronunciations.

Para crear una buena fuente de voz, realice las grabaciones en una sala silenciosa con un micrófono de alta calidad.To produce a good voice font, create the recordings in a quiet room with a high-quality microphone. El volumen constante, la velocidad de la conversación, el tono al hablar y las particularidades expresivas del habla son esenciales.Consistent volume, speaking rate, speaking pitch, and expressive mannerisms of speech are essential.

Sugerencia

Para crear una voz que se vaya a usar en una producción, le recomendamos que use un estudio de grabación profesional y un locutor.To create a voice for production use, we recommend you use a professional recording studio and voice talent. Para obtener más información, consulte Cómo grabar ejemplos de voz para una voz personalizada.For more information, see How to record voice samples for a custom voice.

Archivos de audioAudio files

Cada archivo de audio debe contener una sola expresión (una sola frase o un solo turno de un sistema de diálogo) y tener una duración inferior a 15 segundos.Each audio file should contain a single utterance (a single sentence or a single turn of a dialog system), less than 15 seconds long. Todos los archivos deben estar en el mismo idioma hablado.All files must be in the same spoken language. La transformación de texto a voz personalizada en varios idiomas no se admite, excepto en el caso del chino al inglés bilingüe.Multi-language custom text-to-speech voices are not supported, with the exception of the Chinese-English bi-lingual. Los archivos de audio deben tener un nombre de archivo numérico exclusivo con la extensión de nombre de archivo .wav.Each audio file must have a unique numeric filename with the filename extension .wav.

Al preparar el audio, siga estas directrices.Follow these guidelines when preparing audio.

PropiedadProperty ValorValue
Formato de archivoFile format RIFF (.wav), agrupado en un archivo ZIPRIFF (.wav), grouped into a .zip file
Frecuencia de muestreoSampling rate Al menos 16 000 HzAt least 16,000 Hz
Formato de ejemploSample format PCM, 16 bitsPCM, 16-bit
Nombre de archivoFile name Numérico, con la extensión. wav.Numeric, with .wav extension. No se permiten nombres de archivo duplicados.No duplicate file names allowed.
Longitud de audioAudio length Menor de 15 segundosShorter than 15 seconds
Formato de archivoArchive format .zip.zip
Tamaño de archivo máximoMaximum archive size 2048 MB2048 MB

Nota

Se rechazarán los archivos .wav con una frecuencia de muestreo inferior a 16 000 Hz..wav files with a sampling rate lower than 16,000 Hz will be rejected. Si un archivo ZIP contiene archivos .wav con distintas frecuencias de muestreo, solo se importarán las que sean iguales o superiores a 16 000 Hz.If a .zip file contains .wav files with different sample rates, only those equal to or higher than 16,000 Hz will be imported. Actualmente el portal importa archivos .zip de hasta 200 MB.The portal currently imports .zip archives up to 200 MB. Sin embargo, pueden cargarse varios archivos.However, multiple archives can be uploaded.

TranscripcionesTranscripts

El archivo de transcripción es un archivo de texto sin formato.The transcription file is a plain text file. Use estas directrices para preparar sus transcripciones.Use these guidelines to prepare your transcriptions.

PropiedadProperty ValorValue
Formato de archivoFile format Texto sin formato (.txt)Plain text (.txt)
Formato de codificaciónEncoding format ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE o UTF-16-BE.ANSI/ASCII, UTF-8, UTF-8-BOM, UTF-16-LE, or UTF-16-BE. Con zh-CN, no se admiten las codificaciones ANSI/ASCII y UTF-8.For zh-CN, ANSI/ASCII and UTF-8 encodings are not supported.
Número de expresiones por línea# of utterances per line Una: cada línea del archivo de transcripción debe contener el nombre de uno de los archivos de audio, seguido de la transcripción correspondiente.One - Each line of the transcription file should contain the name of one of the audio files, followed by the corresponding transcription. El nombre de archivo y la transcripción deben estar separados por un carácter de tabulación (\t).The file name and transcription should be separated by a tab (\t).
Tamaño de archivo máximoMaximum file size 2048 MB2048 MB

Este es un ejemplo de cómo las transcripciones se organizan en expresiones (de una en una) en un archivo txt:Below is an example of how the transcripts are organized utterance by utterance in one .txt file:

0000000001[tab] This is the waistline, and it's falling.
0000000002[tab] We have trouble scoring.
0000000003[tab] It was Janet Maslin.

Es importante que las transcripciones tengan una precisión del 100 % respecto al audio correspondiente.It’s important that the transcripts are 100% accurate transcriptions of the corresponding audio. Los errores en las transcripciones darán lugar a la pérdida de calidad durante el entrenamiento.Errors in the transcripts will introduce quality loss during the training.

Sugerencia

Al compilar las transformaciones de texto a voz en producción, seleccione aquellas expresiones (o scripts de escritura) que tengan en cuenta tanto la cobertura fonética como la eficiencia.When building production text-to-speech voices, select utterances (or write scripts) that take into account both phonetic coverage and efficiency. ¿Tiene problemas para obtener los resultados que desea?Having trouble getting the results you want? Póngase en contacto con el equipo de voz personalizada para averiguar más sobre nuestro asesoramiento.Contact the Custom Voice team to find out more about having us consult.

Audio largo + transcripciones (beta)Long audio + transcript (beta)

En algunos casos, puede que no disponga de audio segmentado.In some cases, you may not have segmented audio available. Nosotros proporcionamos un servicio (beta) a través del portal de voz personalizada para ayudarle a segmentar los archivos de audio largos y crear transcripciones.We provide a service (beta) through the custom voice portal to help you segment long audio files and create transcriptions. Tenga en cuenta que este servicio se cobrará en función de su uso de la suscripción de voz a texto.Keep in mind, this service will be charged toward your speech-to-text subscription usage.

Nota

El servicio de segmentación de audio largo aprovechará la característica de transcripción de voz a texto por lotes, que solo admite usuarios de la suscripción estándar (S0).The long-audio segmentation service will leverage the batch transcription feature of speech-to-text, which only supports standard subscription (S0) users. Durante el procesamiento de la segmentación, los archivos de audio y las transcripciones también se enviarán al servicio Custom Speech para refinar el modelo de reconocimiento y así pueda mejorar la precisión de los datos.During the processing of the segmentation, your audio files and the transcripts will also be sent to the Custom Speech service to refine the recognition model so the accuracy can be improved for your data. Durante este proceso no se conserva ningún dato.No data will be retained during this process. Después de realizar la segmentación, solo las expresiones segmentadas y sus transcripciones de asignación se almacenarán para su descarga y entrenamiento.After the segmentation is done, only the utterances segmented and their mapping transcripts will be stored for your downloading and training.

Archivos de audioAudio files

Al preparar el audio para la segmentación, siga estas directrices.Follow these guidelines when preparing audio for segmentation.

PropiedadProperty ValorValue
Formato de archivoFile format RIFF (.wav) con una frecuencia de muestreo de al menos 16 khz y 16 bits en PCM o .mp3 con una velocidad de bits de al menos 256 KBps, agrupado en un archivo ZIPRIFF (.wav) with a sampling rate of at least 16 khz-16-bit in PCM or .mp3 with a bit rate of at least 256 KBps, grouped into a .zip file
Nombre de archivoFile name Caracteres ASCII y Unicode admitidos.ASCII and Unicode characters supported. No se permiten nombres duplicados.No duplicate names allowed.
Longitud de audioAudio length Más de 20 segundosLonger than 20 seconds
Formato de archivoArchive format .zip.zip
Tamaño de archivo máximoMaximum archive size 2048 MB2048 MB

Todos los archivos de audio se deben agrupar en un archivo ZIP.All audio files should be grouped into a zip file. Puede poner archivos .wav y .mp3 en un archivo ZIP de audio.It’s OK to put .wav files and .mp3 files into one audio zip. Por ejemplo, puede cargar un archivo ZIP que contenga un archivo de audio llamado "kingstory.wav", que dure 45 segundos, y otro llamado "queenstory.mp3", que dure 200 segundos.For example, you can upload a zip file containing an audio file named ‘kingstory.wav’, 45-second-long, and another audio named ‘queenstory.mp3’, 200-second-long. Todos los archivos. mp3 se transformarán al formato .wav después del procesamiento.All .mp3 files will be transformed into the .wav format after processing.

TranscripcionesTranscripts

Las transcripciones deben estar preparadas de acuerdo con las especificaciones enumeradas en esta tabla.Transcripts must be prepared to the specifications listed in this table. Cada archivo de audio debe coincidir con una transcripción.Each audio file must be matched with a transcript.

PropiedadProperty ValorValue
Formato de archivoFile format Texto sin formato (.txt), agrupado en un archivo ZIPPlain text (.txt), grouped into a .zip
Nombre de archivoFile name Use el mismo nombre que el archivo de audio relacionado.Use the same name as the matching audio file
Formato de codificaciónEncoding format Solo UTF-8-BOMUTF-8-BOM only
Número de expresiones por línea# of utterances per line Sin límiteNo limit
Tamaño de archivo máximoMaximum file size 2048 MB2048 MB

Todos los archivos de transcripciones de este tipo de datos deben estar agrupados en un archivo ZIP.All transcripts files in this data type should be grouped into a zip file. Por ejemplo, ha cargado un archivo ZIP que contiene un archivo de audio llamado "kingstory.wav", que dura 45 segundos, y otro llamado "queenstory.mp3", que dura 200 segundos.For example, you have uploaded a zip file containing an audio file named ‘kingstory.wav’, 45 seconds long, and another one named ‘queenstory.mp3’, 200 seconds long. Deberá cargar otro archivo ZIP que contenga dos transcripciones, una llamada "kingstory.txt" y la otra "queenstory.txt".You will need to upload another zip file containing two transcripts, one named ‘kingstory.txt’, the other one ‘queenstory.txt’. Dentro de cada archivo de texto sin formato, proporcionará la transcripción completa correcta para el audio relacionado.Within each plain text file, you will provide the full correct transcription for the matching audio.

Después de que el conjunto de datos se ha cargado correctamente, le ayudaremos a segmentar el archivo de audio en expresiones según la transcripción proporcionada.After your dataset is successfully uploaded, we will help you segment the audio file into utterances based on the transcript provided. Para comprobar las expresiones segmentadas y las transcripciones relacionadas, descargue el conjunto de datos.You can check the segmented utterances and the matching transcripts by downloading the dataset. Se asignarán identificadores únicos a las expresiones segmentadas automáticamente.Unique IDs will be assigned to the segmented utterances automatically. Es importante asegurarse de que las transcripciones que proporciona tengan una precisión del 100 %.It’s important that you make sure the transcripts you provide are 100% accurate. Los errores en las transcripciones pueden reducir la precisión durante la segmentación del audio e introducir además pérdida de calidad en la fase de entrenamiento que viene más adelante.Errors in the transcripts can reduce the accuracy during the audio segmentation and further introduce quality loss in the training phase that comes later.

Solo audio (beta)Audio only (beta)

Si no tiene transcripciones para las grabaciones de audio, use la opción Solo audio para cargar los datos.If you don't have transcriptions for your audio recordings, use the Audio only option to upload your data. Nuestro sistema puede ayudarlo a segmentar y transcribir los archivos de audio.Our system can help you segment and transcribe your audio files. Tenga en cuenta que este servicio se tendrá en cuenta en su uso de la suscripción de voz a texto.Keep in mind, this service will count toward your speech-to-text subscription usage.

Al preparar el audio, siga estas directrices.Follow these guidelines when preparing audio.

Nota

El servicio de segmentación de audio largo aprovechará la característica de transcripción de voz a texto por lotes, que solo admite usuarios de la suscripción estándar (S0).The long-audio segmentation service will leverage the batch transcription feature of speech-to-text, which only supports standard subscription (S0) users.

PropiedadProperty ValorValue
Formato de archivoFile format RIFF (.wav) con una frecuencia de muestreo de al menos 16 khz y 16 bits en PCM o .mp3 con una velocidad de bits de al menos 256 KBps, agrupado en un archivo ZIPRIFF (.wav) with a sampling rate of at least 16 khz-16-bit in PCM or .mp3 with a bit rate of at least 256 KBps, grouped into a .zip file
Nombre de archivoFile name Caracteres ASCII y Unicode admitidos.ASCII and Unicode characters supported. No se permiten nombres duplicados.No duplicate name allowed.
Longitud de audioAudio length Más de 20 segundosLonger than 20 seconds
Formato de archivoArchive format .zip.zip
Tamaño de archivo máximoMaximum archive size 2048 MB2048 MB

Todos los archivos de audio se deben agrupar en un archivo ZIP.All audio files should be grouped into a zip file. Una vez que el conjunto de datos se ha cargado correctamente, le ayudaremos a segmentar el archivo de audio en expresiones en función de nuestro servicio de transcripción de voz por lotes.Once your dataset is successfully uploaded, we will help you segment the audio file into utterances based on our speech batch transcription service. Se asignarán identificadores únicos a las expresiones segmentadas automáticamente.Unique IDs will be assigned to the segmented utterances automatically. Las transcripciones relacionadas se generarán mediante el reconocimiento de voz.Matching transcripts will be generated through speech recognition. Todos los archivos. mp3 se transformarán al formato .wav después del procesamiento.All .mp3 files will be transformed into the .wav format after processing. Para comprobar las expresiones segmentadas y las transcripciones relacionadas, descargue el conjunto de datos.You can check the segmented utterances and the matching transcripts by downloading the dataset.

Pasos siguientesNext steps