Trainieren von Daten für „Benutzerdefinierte neuronale Stimme“

Wenn Sie bereit sind, für Ihre Anwendung eine benutzerdefinierte Stimme für die Sprachsynthese zu erstellen, besteht der erste Schritt darin, Audioaufnahmen und zugehörige Skripts für das Training des Stimmmodells zusammenzustellen. Der Speech-Dienst erstellt anhand dieser Daten eine einzigartige Stimme, die der Stimme in den Aufnahmen entspricht. Nachdem Sie die Stimme trainiert haben, können Sie mit dem Synthetisieren von Sprache in Ihren Anwendungen beginnen.

Tipp

Wenn Sie eine Stimme für eine Produktionsumgebung erstellen möchten, werden ein professioneller Sprecher und ein professionelles Tonstudio empfohlen. Weitere Informationen finden Sie unter Aufzeichnen von Stimmbeispielen zum Erstellen einer benutzerdefinierten neuronalen Stimme.

Typen von Trainingsdaten

Ein Dataset für das Stimmtraining enthält Audioaufnahmen und eine Textdatei mit den zugehörigen Transkriptionen. Jede Audiodatei sollte genau eine Äußerung enthalten (einen einzelnen Satz oder Turn eines Dialogsystems) und kürzer als 15 Sekunden sein.

In einigen Fällen haben Sie möglicherweise nicht das richtige Dataset zur Hand. Sie können das Training für benutzerdefinierte neuronale Stimmen mit verfügbaren (kurzen oder langen) Audiodateien mit oder ohne Transkripte testen.

In der folgenden Tabelle sind die Datentypen und ihre Verwendung zum Erstellen eines benutzerdefinierten Stimmmodells für die Sprachsynthese aufgeführt.

Datentyp BESCHREIBUNG Verwendung Zusätzliche Verarbeitung erforderlich
Einzelne Äußerungen und entsprechendes Transkript Eine Sammlung (.zip) von Audiodateien (.wav) als einzelne Äußerungen. Jede Audiodatei sollte maximal 15 Sekunden lang sein und über ein zugehöriges formatiertes Transkript (.txt) verfügen. Professionelle Aufnahmen mit entsprechenden Transkripten Bereit zum Training.
Lange Audiodatei + Transkript Eine Sammlung (ZIP) von langen, nicht segmentierten Audiodateien (WAV oder MP3, länger als 20 Sekunden, maximal 1.000 Audiodateien) mit einer Sammlung (ZIP) von Transkripts, die alle gesprochenen Wörter enthalten. Sie haben Audiodateien und entsprechende Transkripts, die aber nicht in Äußerungen segmentiert sind. Segmentierung (mithilfe der Batch-Transkription).
Transformation des Audioformats (sofern erforderlich).
Nur Audio (Vorschauversion) Eine Sammlung (ZIP) von Audiodateien (WAV oder MP3, maximal 1.000 Audiodateien) ohne Transkript. Sie haben nur Audiodateien ohne Transkripte. Segmentierung und Transkriptgenerierung (mithilfe der Batch-Transkription).
Transformation des Audioformats (sofern erforderlich).

Dateien sollten nach Typ in einem Dataset gruppiert und als ZIP-Datei hochgeladen werden. Jedes Dataset darf nur einen einzelnen Datentyp enthalten.

Hinweis

Die maximale Anzahl von Datasets, die pro Abonnement importiert werden können, beträgt 500 ZIP-Dateien für Benutzer des Standardabonnements (S0).

Einzelne Äußerungen und entsprechendes Transkript

Zum Vorbereiten der Aufnahmen von einzelnen Äußerungen und des zugehörigen Transkripts stehen zwei Methoden zur Auswahl. Entweder erstellen Sie zunächst das Skript, das dann von einem Sprecher eingesprochen wird, oder Sie nutzen eine öffentlich verfügbare Audiodatei und transkribieren diese in Text. Wenn Sie sich für Letzteres entscheiden, müssen Füllwörter wie „ähm“ sowie gestotterte, undeutlich gesprochene und falsch ausgesprochene Wörter entfernt werden.

Die Erstellung eines guten Stimmmodells setzt voraus, dass die Aufnahmen in einem ruhigen Raum mit einem qualitativ hochwertigen Mikrofon erstellt werden. Eine gleichmäßige Lautstärke, Geschwindigkeit und Tonhöhe sowie eine ausdrucksstarke Prosodie sind entscheidend.

Beispiele für das Datenformat finden Sie im Beispieltrainingssatz auf GitHub. Der Beispieltrainingssatz enthält das Beispielskript und die zugehörige Audio-Datei.

Audiodaten für einzelne Äußerungen und entsprechendes Transkript

Jede Audiodatei sollte genau eine Äußerung enthalten (einen einzelnen Satz oder Turn eines Dialogsystems) und kürzer als 15 Sekunden sein. Alle Dateien müssen in derselben gesprochenen Sprache vorliegen. Mehrsprachige benutzerdefinierte Stimmen für die Sprachsynthese werden nicht unterstützt, mit Ausnahme des zweisprachigen Chinesisch-Englisch. Jede Audiodatei muss über einen eindeutigen Dateinamen mit der Erweiterung „.wav“ verfügen.

Beachten Sie beim Vorbereiten der Audiodateien die folgenden Richtlinien.

Eigenschaft Wert
Dateiformat RIFF (.wav), in einer ZIP-Datei gruppiert
Dateiname Vom Windows-Betriebssystem unterstützte Zeichen für den Dateinamen mit der Erweiterung „.wav“
Die Zeichen \ / : * ? " < > \| sind nicht zulässig.
Der Name darf nicht mit einem Leerzeichen beginnen oder auf ein Leerzeichen enden, und er darf nicht mit einem Punkt beginnen.
Doppelte Dateinamen sind nicht zulässig.
Samplingrate Zum Erstellen einer benutzerdefinierten neuronalen Stimme sind 24.000 Hz erforderlich.
Beispielformat PCM, mindestens 16-Bit
Länge der Audiodatei Kürzer als 15 Sekunden
Archivierungsformat .zip
Maximale Archivgröße 2\.048MB

Hinweis

Die Standardsamplingrate für eine benutzerdefinierte neuronale Stimme beträgt 24.000 Hz. Audiodateien mit einer Samplingrate unter 16.000 Hz werden zurückgewiesen. Wenn eine ZIP-Datei WAV-Dateien mit unterschiedlichen Samplingraten enthält, werden nur die Dateien importiert, deren Rate mindestens 16.000 Hz beträgt. Für Ihre Audiodateien mit einer Samplingrate von mehr als 16.000 Hz und weniger als 24.000 Hz erfolgt ein Upsampling auf 24.000 Hz, um eine neuronale Stimme zu trainieren. Es wird empfohlen, eine Abtastrate von 24.000 Hz für Ihre Trainingsdaten zu verwenden.

Transkriptionsdaten für einzelne Äußerungen und entsprechendes Transkript

Die Transkriptionsdatei ist eine reine Textdatei. Beachten Sie beim Vorbereiten Ihrer Transkriptionen die folgenden Richtlinien.

Eigenschaft Wert
Dateiformat Nur-Text (.txt)
Codierungsformat ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE oder UTF-16-BE. Für zh-CN werden ANSI- und ASCII-Codierung nicht unterstützt.
Anzahl von Äußerungen pro Zeile Eine: Jede Zeile der Transkriptionsdatei muss den Namen einer der Audiodateien enthalten, gefolgt von der jeweiligen Transkription. Sie müssen ein Tabstoppzeichen (\t) verwenden, um den Dateinamen und die Transkription zu trennen.
Maximale Dateigröße 2\.048MB

Das folgende Beispiel zeigt, wie die Transkripte nach Äußerungen unterteilt in einer TXT-Datei organisiert werden:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

Entscheidend ist, dass die Transkripte zu 100 % mit den zugehörigen Audioaufnahmen übereinstimmen. Fehler in den Transkripten führen während des Trainings zu Qualitätsverlusten.

Lange Audiodatei und Transkript (Vorschauversion)

Hinweis

Für Lange Audiodatei und Transkript (Vorschauversion) werden nur die folgenden Sprachen unterstützt: Chinesisch (Mandarin, vereinfacht), Englisch (Indien), Englisch (Vereinigtes Königreich), Englisch (USA), Französisch (Frankreich), Deutsch (Deutschland), Italienisch (Italien), Japanisch (Japan), Portugiesisch (Brasilien) und Spanisch (Mexiko).

Es kann vorkommen, dass Sie nicht über segmentierte Audioaufnahmen verfügen. Mithilfe von Speech Studio können Sie lange Audiodateien segmentieren und Transkriptionen erstellen. Der Segmentierungsdienst für lange Audiodateien verwendet die Funktion für die Batchtranskriptions-API der Spracherkennung.

Bei der Verarbeitung der Segmentierung werden Ihre Audiodateien und die Transkripte auch an den Custom Speech Service gesendet, um das Erkennungsmodell zu optimieren und so die Genauigkeit Ihrer Daten zu verbessern. Während dieses Prozesses werden keine Daten beibehalten. Nach Abschluss der Segmentierung werden nur die segmentierten Äußerungen und die entsprechenden Transkripte zum Herunterladen und Trainieren gespeichert.

Hinweis

Für die Nutzung dieses Diensts fallen Gebühren an, die über Ihr Abonnement für die Spracherkennung abgerechnet werden. Der Segmentierungsdienst für lange Audiodateien wird nur mit Speech-Standardressourcen (S0) unterstützt.

Audiodaten für lange Audiodatei und Transkript

Beachten Sie beim Vorbereiten der Audiodateien für die Segmentierung die folgenden Richtlinien.

Eigenschaft Wert
Dateiformat RIFF (WAV) oder MP3, in einer ZIP-Datei gruppiert
Dateiname Vom Windows-Betriebssystem unterstützte Zeichen für den Dateinamen mit der Erweiterung „.wav“
Die Zeichen \ / : * ? " < > \| sind nicht zulässig.
Der Name darf nicht mit einem Leerzeichen beginnen oder auf ein Leerzeichen enden, und er darf nicht mit einem Punkt beginnen.
Doppelte Dateinamen sind nicht zulässig.
Samplingrate Zum Erstellen einer benutzerdefinierten neuronalen Stimme sind 24.000 Hz erforderlich.
Beispielformat RIFF (WAV): PCM, mindestens 16-Bit

MP3: Bitrate von mindestens 256 KBit/s
Länge der Audiodatei Länger als 20 Sekunden
Archivierungsformat .zip
Maximale Archivgröße 2048 MB, maximal 1.000 Audiodateien enthalten

Hinweis

Die Standardsamplingrate für eine benutzerdefinierte neuronale Stimme beträgt 24.000 Hz. Audiodateien mit einer Samplingrate unter 16.000 Hz werden zurückgewiesen. Für Ihre Audiodateien mit einer Samplingrate von mehr als 16.000 Hz und weniger als 24.000 Hz erfolgt ein Upsampling auf 24.000 Hz, um eine neuronale Stimme zu trainieren. Es wird empfohlen, eine Abtastrate von 24.000 Hz für Ihre Trainingsdaten zu verwenden.

Alle Audiodateien müssen in einer ZIP-Datei gruppiert werden. Das gemeinsame Speichern von WAV- und MP3-Dateien in derselben ZIP-Datei ist zulässig. Sie können z. B. eine 45 Sekunden lange Audiodatei mit dem Namen „kingstory.wav“ und eine 200 Sekunden lange Audiodatei mit dem Namen „queenstory.mp3“ in derselben ZIP-Datei hochladen. Alle MP3-Dateien werden nach der Verarbeitung in das WAV-Format transformiert.

Transkriptionsdaten für lange Audiodatei und Transkript

Transkripte müssen entsprechend den Spezifikationen in dieser Tabelle vorbereitet werden. Jede Audiodatei muss über ein entsprechendes Transkript verfügen.

Eigenschaft Wert
Dateiformat Nur-Text (.txt), in einer ZIP-Datei gruppiert
Dateiname Namen der entsprechenden Audiodatei verwenden
Codierungsformat ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE oder UTF-16-BE. Für zh-CN werden ANSI- und ASCII-Codierung nicht unterstützt.
Anzahl von Äußerungen pro Zeile Keine Begrenzung
Maximale Dateigröße 2\.048MB

Alle Transkriptdateien dieses Datentyps müssen in einer ZIP-Datei gruppiert werden. Sie können z. B. eine 45 Sekunden lange Audiodatei mit dem Namen „kingstory.wav“ und eine 200 Sekunden lange Audiodatei mit dem Namen „queenstory.mp3“ in derselben ZIP-Datei hochladen. Sie müssen eine weitere ZIP-Datei hochladen, die die beiden Transkripte enthält – eine mit dem Namen „kingstory.txt“ und eine mit dem Namen „queenstory.txt“. In jeder Nur-Text-Datei stellen Sie die richtige und vollständige Transkription für die entsprechende Audioaufnahme bereit.

Nachdem das Dataset erfolgreich hochgeladen wurde, helfen wir Ihnen dabei, die Audiodatei basierend auf dem bereitgestellten Transkript in Äußerungen zu segmentieren. Sie können die segmentierten Äußerungen und die entsprechenden Transkripte überprüfen, indem Sie das Dataset herunterladen. Den segmentierten Äußerungen werden automatisch eindeutige IDs zugewiesen. Sie müssen unbedingt sicherstellen, dass die von Ihnen bereitgestellten Transkripte zu 100 % genau sind. Fehler in den Transkripten können die Genauigkeit der Audiosegmentierung beeinträchtigen und später beim Training zu weiteren Qualitätsverlusten führen.

Nur Audio (Vorschauversion)

Hinweis

Für Nur Audio (Vorschauversion) werden nur die folgenden Sprachen unterstützt: Chinesisch (Mandarin, vereinfacht), Englisch (Indien), Englisch (Vereinigtes Königreich), Englisch (USA), Französisch (Frankreich), Deutsch (Deutschland), Italienisch (Italien), Japanisch (Japan), Portugiesisch (Brasilien) und Spanisch (Mexiko).

Wenn Sie keine Transkriptionen für Ihre Audioaufnahmen haben, verwenden Sie die Option Nur Audio zum Hochladen Ihrer Daten. Unser System unterstützt Sie beim Segmentieren und Transkribieren Ihrer Audiodateien. Für die Nutzung dieses Diensts fallen Gebühren an, die über Ihr Abonnement für die Spracherkennung abgerechnet werden.

Beachten Sie beim Vorbereiten der Audiodateien die folgenden Richtlinien.

Hinweis

Der Segmentierungsdienst für lange Audiodateien verwendet die Batchtranskriptionsfunktion der Spracherkennung, die nur für Benutzer mit einem Standardabonnement (S0) verfügbar ist.

Eigenschaft Wert
Dateiformat RIFF (WAV) oder MP3, in einer ZIP-Datei gruppiert
Dateiname Vom Windows-Betriebssystem unterstützte Zeichen für den Dateinamen mit der Erweiterung „.wav“
Die Zeichen \ / : * ? " < > \| sind nicht zulässig.
Der Name darf nicht mit einem Leerzeichen beginnen oder auf ein Leerzeichen enden, und er darf nicht mit einem Punkt beginnen.
Doppelte Dateinamen sind nicht zulässig.
Samplingrate Zum Erstellen einer benutzerdefinierten neuronalen Stimme sind 24.000 Hz erforderlich.
Beispielformat RIFF (WAV): PCM, mindestens 16-Bit
MP3: Bitrate von mindestens 256 KBit/s
Länge der Audiodatei Keine Begrenzung
Archivierungsformat .zip
Maximale Archivgröße 2048 MB, maximal 1.000 Audiodateien enthalten

Hinweis

Die Standardsamplingrate für eine benutzerdefinierte neuronale Stimme beträgt 24.000 Hz. Für Ihre Audiodateien mit einer Samplingrate von mehr als 16.000 Hz und weniger als 24.000 Hz erfolgt ein Upsampling auf 24.000 Hz, um eine neuronale Stimme zu trainieren. Es wird empfohlen, eine Abtastrate von 24.000 Hz für Ihre Trainingsdaten zu verwenden.

Alle Audiodateien müssen in einer ZIP-Datei gruppiert werden. Nachdem das Dataset erfolgreich hochgeladen wurde, hilft der Speech-Dienst Ihnen dabei, die Audiodatei mit unserem Dienst für die Batch-Sprachtranskription in Äußerungen zu segmentieren. Den segmentierten Äußerungen werden automatisch eindeutige IDs zugewiesen. Zugehörige Transkripte werden mittels Spracherkennung generiert. Alle MP3-Dateien werden nach der Verarbeitung in das WAV-Format transformiert. Sie können die segmentierten Äußerungen und die entsprechenden Transkripte überprüfen, indem Sie das Dataset herunterladen.

Nächste Schritte