Was ist das Whisper-Modell?

Artikel
04/12/2024

Das Whisper-Modell ist ein Spracherkennungsmodell von OpenAI, mit dem Sie Audiodateien transkribieren können. Das Modell wird mit einem umfangreichen Dataset aus englischsprachigen Audio- und Textdaten trainiert. Das Modell ist für das Transkribieren von Audiodateien in englischer Sprache optimiert. Das Modell kann auch zum Transkribieren von Audiodateien verwendet werden, die gesprochene Daten in anderen Sprachen enthalten. Die Ausgabe des Modells ist englischer Text.

Whisper-Modelle sind über Azure OpenAI Service oder über Azure KI Speech verfügbar. Die Features unterscheiden sich für diese Angebote. In Azure KI Speech ist Whisper nur eins von mehreren Spracherkennungsmodellen, die Sie verwenden können.

Sie können sich folgende Fragen stellen:

Ist das Whisper-Modell eine gute Wahl für mein Szenario, oder ist ein Azure KI Speech-Modell besser geeignet? Wie lassen sich die APIs der beiden Modelltypen vergleichen?
Wenn ich das Whisper-Modell verwenden möchte, sollte ich es über Azure OpenAI Service oder über Azure KI Speech verwenden? In welchen Szenarien sollte ich das eine bzw. das andere verwenden?

Whisper-Modell oder Azure KI Speech-Modelle

Je nach Szenario sind entweder das Whisper-Modell oder die Azure KI Speech-Modelle geeignet. Wenn Sie sich für die Verwendung von Azure KI Speech entscheiden, können Sie aus mehreren Modellen wählen, einschließlich des Whisper-Modells. In der folgenden Tabelle werden Optionen verglichen und Empfehlungen zum Einstieg bereitgestellt.

Szenario	Whisper-Modell	Azure KI Speech-Modelle
Echtzeittranskriptionen, Untertitel für Hörgeschädigte und Untertitel für Audio und Video.	Nicht verfügbar	Empfohlen
Transkriptionen, Untertitel für Hörgeschädigte und Untertitel für vorab aufgezeichnete Audio- und Videodaten.	Das Whisper-Modell über Azure OpenAI wird für die schnelle Verarbeitung einzelner Audiodateien empfohlen. Das Whisper-Modell über Azure KI Speech wird für die Batchverarbeitung großer Dateien empfohlen. Weitere Informationen finden Sie unter Whisper-Modell über Azure KI Speech oder über Azure OpenAI Service?	Empfohlen für die Batchverarbeitung großer Dateien, Diarisierung und Zeitstempel auf Wortebene.
Transkript von Telefonanrufaufzeichnungen und -analysen wie Anrufzusammenfassung, Stimmung, Schlüsselthemen und benutzerdefinierte Erkenntnisse.	Verfügbar	Empfohlen
Echtzeittranskription und -analyse zur Unterstützung von Callcenter-Sachbearbeiter*innen bei Kundenfragen.	Nicht verfügbar	Empfohlen
Transkript von Besprechungsaufzeichnungen und -analysen wie Besprechungszusammenfassung, Besprechungskapitel und Extraktion von Aktionselementen.	Verfügbar	Empfohlen
Texteingabe in Echtzeit und Dokumentgenerierung durch Sprachdiktat.	Nicht verfügbar	Empfohlen
Kontaktcenter-Sprach-Agent: Anrufrouting und interaktive Sprachantwort für Callcenter.	Verfügbar	Empfohlen
Sprach-Assistent: anwendungsspezifischer Sprach-Assistent für Set-Top-Boxen, mobile Apps, Fahrzeuge und andere Szenarien.	Verfügbar	Empfohlen
Aussprachebewertung: Bewerten der Aussprache der Stimme eines Sprechers oder einer Sprecherin.	Nicht verfügbar	Empfohlen
Übersetzen von Liveaudiodaten aus einer Sprache in eine andere.	Nicht verfügbar	Empfohlen über die Sprachübersetzungs-API
Übersetzen von vorab aufgezeichneten Audiodaten aus anderen Sprachen ins Englische.	Empfohlen	Verfügbar über die Sprachübersetzungs-API
Übersetzen von vorab aufgezeichneten Audiodaten in andere Sprachen als Englisch.	Nicht verfügbar	Empfohlen über die Sprachübersetzungs-API

Whisper-Modell über Azure KI Speech oder über Azure OpenAI Service?

Wenn Sie sich für die Verwendung des Whisper-Modells entscheiden, haben Sie zwei Optionen. Sie können wählen, ob Sie das Whisper-Modell über Azure OpenAI oder über Azure KI Speech verwenden möchten. In beiden Fällen ist der transkribierte Text gleichermaßen lesbar. Sie können Audiodaten in gemischten Sprachen eingeben, und die Ausgabe erfolgt in Englisch.

Das Whisper-Modell über Azure OpenAI Service eignet sich möglicherweise am besten für Folgendes:

Schnelles Transkribieren einzelner Audiodateien
Übersetzen von Audio aus anderen Sprachen ins Englische
Bereitstellen einer Äußerung für das Modell, um die Ausgabe zu steuern
Unterstützte Dateiformate: mp3, mp4, mpweg, mpga, m4a, wav und webm

Das Whisper-Modell über Azure KI Speech eignet sich möglicherweise am besten für Folgendes:

Transkribieren von Dateien über 25 MB (bis zu 1 GB). Die Dateigrößenbegrenzung für das Whisper-Modell in Azure OpenAI beträgt 25 MB.
Transkribieren großer Batches von Audiodateien.
Diarisierung zum Unterscheiden zwischen den verschiedenen Sprechern, die an der Unterhaltung teilnehmen. Der Speech-Dienst stellt Informationen darüber bereit, welcher Sprecher einen bestimmten Teil der transkribierten Sprache sprach. Das Whisper-Modell über Azure OpenAI unterstützt keine Diarisierung.
Zeitstempel auf Wortebene.
Unterstützte Dateiformate: mp3, wav und ogg.
Anpassung des Whisper-Basismodells zur Verbesserung der Genauigkeit für Ihr Szenario (in Kürze verfügbar).

Eine weitere Überlegung ist die regionale Unterstützung.

Das Whisper-Modell über Azure OpenAI Service ist in den folgenden Regionen verfügbar: „USA, Osten 2“, „Indien, Süden“, „Zentraler Norden“, „Norwegen, Osten“, „Schweden, Mitte“ und „Europa, Westen“.
Das Whisper-Modell über Azure KI Speech ist in den folgenden Regionen verfügbar: „Australien, Osten“, „USA, Osten“, „USA, Norden-Mitte“, „USA, Süden-Mitte“, „Asien, Südosten“, „Vereinigtes Königreich, Süden“ und „Europa, Westen“.

Share via

Was ist das Whisper-Modell?

Whisper-Modell oder Azure KI Speech-Modelle

Whisper-Modell über Azure KI Speech oder über Azure OpenAI Service?

Nächste Schritte

Zusätzliche Ressourcen