Erstellen einer Batch-Transkription

Artikel
04/15/2024

Mit Batchtranskriptionen übermitteln Sie Audiodaten in einem Batch. Der Dienst transkribiert die Audiodaten und speichert die Ergebnisse in einem Speichercontainer. Anschließend können Sie die Ergebnisse aus dem Speichercontainer abrufen.

Wichtig

Für die Batchtranskription mithilfe von REST-API v3.2 für die Spracherkennung gelten neue Preise. Weitere Informationen hierzu finden Sie in der Preisübersicht.

Voraussetzungen

Das Speech SDK wurde installiert.
Eine Standard-Sprachressource (S0). Kostenlose Ressourcen (F0) werden nicht unterstützt.

Erstellen eines Transkriptionsauftrags

Verwenden Sie zum Erstellen einer Transkription den Vorgang Transcriptions_Create der Spracherkennungs-REST-API. Erstellen Sie den Anforderungstext gemäß den folgenden Anweisungen:

Legen Sie entweder die Option contentContainerUrl oder contentUrls fest. Weitere Informationen zum Azure-Blobspeicher für die Batchtranskription finden Sie unter Suchen nach Audiodateien für die Batch-Transkription.
Legen Sie die erforderliche locale-Eigenschaft fest. Dieser Wert sollte mit dem erwarteten Gebietsschema der Audiodaten übereinstimmen, die Sie transkribieren möchten. Sie können das Gebietsschema später nicht ändern.
Legen Sie die erforderliche displayName-Eigenschaft fest. Wählen Sie einen Transkriptionsnamen aus, auf den Sie später verweisen können. Der Transkriptionsname muss nicht eindeutig sein und kann später noch geändert werden.
Wenn Sie ein anderes Modell als das Basismodell verwenden möchten, legen Sie die Eigenschaft model auf die Modell-ID fest. Weitere Informationen finden Sie unter Verwenden eines benutzerdefinierten Modells und Verwenden eines Whisper-Modells.
Legen Sie optional die Eigenschaft wordLevelTimestampsEnabled auf true fest, um Zeitstempel auf Wortebene in den Transkriptionsergebnissen zu aktivieren. Der Standardwert ist false. Legen Sie für Whisper-Modelle stattdessen die displayFormWordLevelTimestampsEnabled-Eigenschaft fest. Das Whisper-Modell ist ein reines Anzeigemodell, weshalb das lexikalische Feld in der Transkription nicht ausgefüllt wird.
Legen Sie optional die languageIdentification-Eigenschaft fest. Bei der Sprachidentifikation werden anhand einer Liste unterstützter Sprachen die in der Audioquelle gesprochenen Sprachen identifiziert. Wenn Sie die languageIdentification-Eigenschaft festlegen, müssen Sie auch languageIdentification.candidateLocales mit Kandidatengebietsschemas festlegen.

Weitere Informationen finden Sie unter Anfordern von Konfigurationsoptionen.

Erstellen Sie, wie im folgenden Beispiel mit Transcriptions_Create gezeigt, eine HTTP POST-Anforderung mithilfe des URI.

Ersetzen Sie YourSubscriptionKey durch Ihren Speech-Ressourcenschlüssel.
Ersetzen Sie YourServiceRegion durch Ihre Sprachressourcenregion.
Legen Sie die Eigenschaften des Anforderungstexts wie zuvor beschrieben fest.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "contentUrls": [
    "https://crbn.us/hello.wav",
    "https://crbn.us/whatstheweatherlike.wav"
  ],
  "locale": "en-US",
  "displayName": "My Transcription",
  "model": null,
  "properties": {
    "wordLevelTimestampsEnabled": true,
    "languageIdentification": {
      "candidateLocales": [
        "en-US", "de-DE", "es-ES"
      ],
    }
  },
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions"

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/db474955-ab85-4c6c-ba6e-3bfe63d041ba",
  "model": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/13fb305e-09ad-4bce-b3a1-938c9124dda3"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/db474955-ab85-4c6c-ba6e-3bfe63d041ba/files"
  },
  "properties": {
    "diarizationEnabled": false,
    "wordLevelTimestampsEnabled": true,
    "channels": [
      0,
      1
    ],
    "punctuationMode": "DictatedAndAutomatic",
    "profanityFilterMode": "Masked",
    "languageIdentification": {
      "candidateLocales": [
        "en-US",
        "de-DE",
        "es-ES"
      ]
    }
  },
  "lastActionDateTime": "2022-10-21T14:18:06Z",
  "status": "NotStarted",
  "createdDateTime": "2022-10-21T14:18:06Z",
  "locale": "en-US",
  "displayName": "My Transcription"
}

Die oberste self-Eigenschaft im Antworttext ist der URI der Transkription. Verwenden Sie diesen URI, um Details wie den URI der Transkriptions- und Transkriptionsberichtsdateien abzurufen. Mit diesem URI können Sie eine Transkription auch aktualisieren oder löschen.

Sie können den Status Ihrer Transkriptionen mit dem Vorgang Transcriptions_Get abfragen.

Rufen Sie Transcriptions_Delete regelmäßig aus dem Dienst auf, nachdem Sie die Ergebnisse abgerufen haben. Alternativ können Sie die timeToLive-Eigenschaft so festlegen, dass schließlich eine Löschung der Ergebnisse sichergestellt ist.

Verwenden Sie den Befehl spx batch transcription create, um eine Transkription zu erstellen. Erstellen Sie die Anforderungsparameter gemäß den folgenden Anweisungen:

Legen Sie den erforderlichen content-Parameter fest. Sie können eine durch Semikolons getrennte Liste der einzelnen Dateien oder die URL für einen ganzen Container angeben. Weitere Informationen zum Azure-Blobspeicher für die Batchtranskription finden Sie unter Suchen nach Audiodateien für die Batch-Transkription.
Legen Sie die erforderliche language-Eigenschaft fest. Dieser Wert sollte mit dem erwarteten Gebietsschema der Audiodaten übereinstimmen, die Sie transkribieren möchten. Sie können das Gebietsschema später nicht ändern. Der Parameter language der Speech-Befehlszeilenschnittstelle entspricht der locale-Eigenschaft in der JSON-Anforderung und -Antwort.
Legen Sie die erforderliche name-Eigenschaft fest. Wählen Sie einen Transkriptionsnamen aus, auf den Sie später verweisen können. Der Transkriptionsname muss nicht eindeutig sein und kann später noch geändert werden. Der Parameter name der Speech-Befehlszeilenschnittstelle entspricht der displayName-Eigenschaft in der JSON-Anforderung und -Antwort.

Mit dem folgenden Speech-CLI-Befehl können Sie beispielsweise einen Transkriptionsauftrag erstellen:

spx batch transcription create --name "My Transcription" --language "en-US" --content https://crbn.us/hello.wav;https://crbn.us/whatstheweatherlike.wav

Sie sollten einen Antworttext im folgenden Format erhalten:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/7f4232d5-9873-47a7-a6f7-4a3f00d00dc0",
  "model": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/13fb305e-09ad-4bce-b3a1-938c9124dda3"
  },
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions/7f4232d5-9873-47a7-a6f7-4a3f00d00dc0/files"
  },
  "properties": {
    "diarizationEnabled": false,
    "wordLevelTimestampsEnabled": false,
    "channels": [
      0,
      1
    ],
    "punctuationMode": "DictatedAndAutomatic",
    "profanityFilterMode": "Masked"
  },
  "lastActionDateTime": "2022-10-21T14:21:59Z",
  "status": "NotStarted",
  "createdDateTime": "2022-10-21T14:21:59Z",
  "locale": "en-US",
  "displayName": "My Transcription",
  "description": ""
}

Führen Sie den folgenden Befehl aus, um die Hilfe der Speech-CLI zu Transkriptionen anzuzeigen:

spx help batch transcription

Konfigurationsoptionen für Anforderungen

Die folgende Tabelle enthält einige Eigenschaften zur Konfiguration einer Transkription, wenn Sie den Vorgang Transcriptions_Create aufrufen.

Eigenschaft	BESCHREIBUNG
`channels`	Ein Array der zu verarbeitenden Kanalnummern. Die Kanäle `0` und `1` werden standardmäßig transkribiert.
`contentContainerUrl`	Sie können einzelne Audiodateien oder einen ganzen Speichercontainer übermitteln. Geben Sie den Speicherort der Audiodaten über die Eigenschaft `contentContainerUrl` oder `contentUrls` an. Weitere Informationen zum Azure-Blobspeicher für die Batchtranskription finden Sie unter Suchen nach Audiodateien für die Batch-Transkription. Diese Eigenschaft wird in der Antwort nicht zurückgegeben.
`contentUrls`	Sie können einzelne Audiodateien oder einen ganzen Speichercontainer übermitteln. Geben Sie den Speicherort der Audiodaten über die Eigenschaft `contentContainerUrl` oder `contentUrls` an. Weitere Informationen finden Sie unter Suchen nach Audiodateien für die Batch-Transkription. Diese Eigenschaft wird in der Antwort nicht zurückgegeben.
`destinationContainerUrl`	Das Ergebnis kann in einem Azure-Container gespeichert werden. Wenn Sie keinen Container angeben, speichert der Spracherkennungsdienst die Ergebnisse in einem von Microsoft verwalteten Container. Wird der Transkriptionsauftrag gelöscht, werden auch die Daten des Transkriptionsergebnisses gelöscht. Weitere Informationen wie die unterstützten Sicherheitsszenarien finden Sie unter Zielcontainer-URL.
`diarization`	Gibt an, dass der Sprachdienst eine Diarisierungsanalyse für die Eingabe ausführen soll, wobei erwartet wird, dass es sich um einen Monokanal handelt, der mehrere Stimmen enthält. Das Feature ist nicht für Stereoaufzeichnungen verfügbar. Diarisierung ist der Vorgang, bei dem Sprecherinnen in Audiodaten voneinander getrennt werden. Die Batchpipeline kann mehrere Sprecherinnen in Monokanalaufnahmen erkennen und trennen. Geben Sie die Mindest- und Höchstanzahl der möglichen Sprecherinnen an. Legen Sie zudem die Eigenschaft `diarizationEnabled` auf `true` fest. Die Transkriptionsdatei enthält einen `speaker`-Eintrag für jeden transkribierten Ausdruck. Diese Eigenschaft muss verwendet werden, wenn Sie mindestens drei Sprecher erwarten. Bei zwei Sprechern reicht es aus, die Eigenschaft `diarizationEnabled` auf `true` festzulegen. Ein Beispiel für die Eigenschaftsnutzung finden Sie unter Transcriptions_Create. Die maximale Anzahl von Sprechern für Diarisierung muss kleiner als 36 und größer als oder gleich der Eigenschaft `minSpeakers` sein. Ein Beispiel finden Sie unter Transcriptions_Create. Bei Verwendung dieser Eigenschaft darf das Quellaudio pro Datei maximal 240 Minuten lang sein. Hinweis*: Diese Eigenschaft ist erst ab Version 3.1 der Spracherkennungs-REST-API verfügbar. Wenn Sie diese Eigenschaft mit einer früheren Version, z. B. Version 3.0, festlegen, wird sie ignoriert, und nur zwei Sprecher werden identifiziert.
`diarizationEnabled`	Gibt an, dass der Sprachdienst eine Diarisierungsanalyse für die Eingabe ausführen soll. Hierbei wird erwartet, dass es sich um einen Monokanal handelt, der zwei Stimmen enthält. Der Standardwert ist `false`. Für drei oder mehr Stimmen müssen Sie auch die Eigenschaft `diarization` verwenden. Wird nur mit Spracherkennung für REST-API, Version 3.1 und höher, verwendet. Bei Verwendung dieser Eigenschaft darf das Quellaudio pro Datei maximal 240 Minuten lang sein.
`displayName`	Der Name der Batchtranskription. Wählen Sie einen Namen, auf den Sie später verweisen können. Der Anzeigename muss nicht eindeutig sein. Diese Eigenschaft ist obligatorisch.
`displayFormWordLevelTimestampsEnabled`	Gibt an, ob Zeitstempel auf Wortebene in die Anzeige der Transkriptionsergebnisse eingeschlossen werden sollen. Die Ergebnisse werden in der `displayWords`-Eigenschaft der Transkriptionsdatei zurückgegeben. Der Standardwert ist `false`. Hinweis: Diese Eigenschaft ist erst ab Version 3.1 der Spracherkennungs-REST-API verfügbar.
`languageIdentification`	Bei der Sprachidentifikation werden anhand einer Liste unterstützter Sprachen die in der Audioquelle gesprochenen Sprachen identifiziert. Wenn Sie die `languageIdentification`-Eigenschaft festlegen, müssen Sie auch die eingeschlossene `candidateLocales`-Eigenschaft festlegen.
`languageIdentification.candidateLocales`	Die Kandidatengebietsschemata für die Sprachidentifikation, z. B. `"properties": { "languageIdentification": { "candidateLocales": ["en-US", "de-DE", "es-ES"]}}`. Es werden mindestens zwei und maximal zehn Kandidatengebietsschemata unterstützt, einschließlich des Hauptgebietsschemas für die Transkription.
`locale`	Das Gebietsschema der Batchtranskription. Dieser Wert sollte mit dem erwarteten Gebietsschema der Audiodaten übereinstimmen, die Sie transkribieren möchten. Das Gebietsschema können Sie später nicht mehr ändern. Diese Eigenschaft ist obligatorisch.
`model`	Sie können die Eigenschaft `model` festlegen, um ein bestimmtes Basismodell oder ein Custom Speech-Modell zu verwenden. Wenn Sie das `model` nicht angeben, wird das Standardbasismodell für das Gebietsschema verwendet. Weitere Informationen finden Sie unter Verwenden eines benutzerdefinierten Modells und Verwenden eines Whisper-Modells.
`profanityFilterMode`	Gibt den Umgang mit Obszönitäten in Erkennungsergebnissen an. Zulässige Werte sind: `None` (deaktiviert den Obszönitätenfilter), `Masked` (Obszönitäten werden durch Sternchen ersetzt), `Removed` (Obszönitäten werden aus dem Ergebnis entfernt) und `Tags` (fügt Tags für Obszönitäten ein). Standardwert: `Masked`.
`punctuationMode`	Gibt den Umgang mit Satzzeichen in Erkennungsergebnissen an. Zulässige Werte sind: `None` (deaktiviert die Interpunktion), `Dictated` (impliziert explizite (gesprochene) Interpunktion), `Automatic` (überlässt dem Decoder die Interpunktion) oder `DictatedAndAutomatic` (verwendet diktierte und automatische Interpunktion). Der Standardwert ist `DictatedAndAutomatic`. Diese Eigenschaft ist nicht auf Whisper-Modelle anwendbar.
`timeToLive`	Es wird eine Dauer für das automatische Löschen der Transkriptionsergebnisse nach dem Transkriptionsauftrag erstellt. Der Wert ist eine gemäß ISO 8601 codierte Dauer. Geben Sie z. B. `PT12H` für 12 Stunden an. Alternativ können Sie regelmäßig den Vorgang Transcriptions_Delete aufrufen, nachdem Sie die Transkriptionsergebnisse abgerufen haben.
`wordLevelTimestampsEnabled`	Gibt an, ob die Ausgabe Zeitstempel auf Wortebene enthalten soll. Der Standardwert ist `false`. Diese Eigenschaft ist nicht auf Whisper-Modelle anwendbar. Das Whisper-Modell ist ein reines Anzeigemodell, weshalb das lexikalische Feld in der Transkription nicht ausgefüllt wird.

Führen Sie den folgenden Befehl aus, um die Hilfe der Speech-CLI zu Konfigurationsoptionen für Transkriptionen anzuzeigen:

spx help batch transcription create advanced

Verwenden eines benutzerdefinierten Modells

Für die Batchtranskription wird das Standardbasismodell für das von Ihnen angegebene Gebietsschema verwendet. Wenn Sie das Standardbasismodell nutzen möchten, müssen Sie keine Eigenschaften festlegen.

Optional können Sie das vorherige Beispiel für die Transkriptionserstellung ändern, indem Sie die Eigenschaft model so festlegen, dass ein bestimmtes Basismodell oder ein Custom Speech-Modell verwendet wird.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "contentUrls": [
    "https://crbn.us/hello.wav",
    "https://crbn.us/whatstheweatherlike.wav"
  ],
  "locale": "en-US",
  "displayName": "My Transcription",
  "model": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "properties": {
    "wordLevelTimestampsEnabled": true,
  },
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/transcriptions"

spx batch transcription create --name "My Transcription" --language "en-US" --content https://crbn.us/hello.wav;https://crbn.us/whatstheweatherlike.wav --model "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"

Wenn Sie für die Batchtranskription ein Custom Speech-Modell nutzen möchten, benötigen Sie den URI des Modells. Die oberste self-Eigenschaft im Antworttext ist der URI des Modells. Der Modellspeicherort lässt sich beim Erstellen oder Abrufen eines Modells ermitteln. Weitere Informationen finden Sie im JSON-Antwortbeispiel in Modell erstellen.

Tipp

Ein gehosteter Bereitstellungsendpunkt ist nicht erforderlich, um Custom Speech mit dem Batch-Transkriptionsdienst zu verwenden. Sie können Ressourcen sparen, wenn Sie das Custom Speech-Modell nur für die Batchtranskription verwenden.

Batch-Transkriptionsanforderungen für abgelaufene Modelle führen zu einem 4xx-Fehler. Legen Sie die model-Eigenschaft auf ein Basismodell oder ein benutzerdefiniertes Modell fest, das nicht abgelaufen ist. Schließen Sie andernfalls die model-Eigenschaft nicht ein, dann wird immer das neueste Basismodell verwendet. Weitere Informationen finden Sie unter Auswählen eines Modells und Lebenszyklus eines Custom Speech-Modells.

Verwenden eines Whisper-Modells

Azure KI Speech unterstützt das Whisper-Modell von OpenAI über die Batchtranskriptions-API. Sie können das Whisper-Modell für die Batchtranskription verwenden.

Hinweis

Azure OpenAI Service unterstützt mit einer synchronen REST-API ebenfalls das OpenAI-Whisper-Modell für die Spracherkennung. Weitere Informationen finden Sie unter Spracherkennung mit dem Azure OpenAI Whisper-Modell. Weitere Informationen zur Verwendung von Azure KI Speech vs. Azure OpenAI Service, finden Sie in Was ist das Whisper-Modell?

Um ein Whisper-Modell für die Batchtranskription zu verwenden, müssen Sie die model-Eigenschaft festlegen. Das Whisper-Modell ist ein reines Anzeigemodell, weshalb das lexikalische Feld in der Antwort nicht ausgefüllt wird.

Wichtig

Sie sollten immer die Version 3.2 der Spracherkennungs-API für Whisper-Modelle verwenden.

Whisper-Modelle nach Batchtranskription werde in den folgenden Regionen unterstützt: „Asien, Südosten“, „Australien, Osten“, „Europa, Westen“ „USA, Mitte“, „USA, Norden-Mitte“, „USA, Osten“, und „USA, Süden-Mitte“.

Sie können eine Models_ListBaseModels-Anforderung erstellen, um verfügbare Basismodelle für alle Gebietsschemas abzurufen.

Führen Sie eine HTTP GET-Anforderung aus, wie im folgenden Beispiel für die Region eastus gezeigt. Ersetzen Sie YourSubscriptionKey durch Ihren Speech-Ressourcenschlüssel. Ersetzen Sie eastus, wenn Sie eine andere Region verwenden.

curl -v -X GET "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/models/base" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

Standardmäßig werden nur die 100 ältesten Basismodelle zurückgegeben. Verwenden Sie die skip- und top-Abfrageparameter, um die Ergebnisse zu durchlaufen. Die folgende Anforderung gibt beispielsweise die nächsten 100 Basismodelle nach den ersten 100 zurück.

curl -v -X GET "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/models/base?skip=100&top=100" -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey"

Stellen Sie sicher, dass Sie die Konfigurationsvariablen für eine Speech-Ressource in einer der unterstützten Regionen festlegen. Sie können den Befehl spx csr list --base ausführen, um verfügbare Basismodelle für alle Gebietsschemas abzurufen.

spx csr list --base --api-version v3.2-preview.2

Die displayName-Eigenschaft eines Whisper-Modells enthält den Wert „Whisper“, wie in diesem Beispiel gezeigt. Das Whisper-Modell ist ein reines Anzeigemodell, weshalb das lexikalische Feld in der Transkription nicht ausgefüllt wird.

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/models/base/e418c4a9-9937-4db7-b2c9-8afbff72d950",
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/models/base/e418c4a9-9937-4db7-b2c9-8afbff72d950/manifest"
  },
  "properties": {
    "deprecationDates": {
      "adaptationDateTime": "2025-04-15T00:00:00Z",
      "transcriptionDateTime": "2026-04-15T00:00:00Z"
    },
    "features": {
      "supportsTranscriptions": true,
      "supportsEndpoints": false,
      "supportsTranscriptionsOnSpeechContainers": false,
      "supportsAdaptationsWith": [
        "Acoustic"
      ],
      "supportedOutputFormats": [
        "Display"
      ]
    },
    "chargeForAdaptation": true
  },
  "lastActionDateTime": "2024-02-29T15:53:28Z",
  "status": "Succeeded",
  "createdDateTime": "2024-02-29T15:46:07Z",
  "locale": "en-US",
  "displayName": "20240228 Whisper Large V2",
  "description": "OpenAI Whisper Model in Azure AI Speech (Whisper v2-large)"
},

Sie legen den vollständigen Modell-URI fest, wie in diesem Beispiel für die Region eastus gezeigt. Ersetzen Sie YourSubscriptionKey durch Ihren Speech-Ressourcenschlüssel. Ersetzen Sie eastus, wenn Sie eine andere Region verwenden.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "contentUrls": [
    "https://crbn.us/hello.wav",
    "https://crbn.us/whatstheweatherlike.wav"
  ],
  "locale": "en-US",
  "displayName": "My Transcription",
  "model": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/models/base/d9cbeee6-582b-47ad-b5c1-6226583c92b6"
  },
  "properties": {
    "wordLevelTimestampsEnabled": true,
  },
}'  "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/transcriptions"

spx batch transcription create --name "My Transcription" --language "en-US" --content https://crbn.us/hello.wav;https://crbn.us/whatstheweatherlike.wav --model "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.2-preview.2/models/base/d9cbeee6-582b-47ad-b5c1-6226583c92b6" --api-version v3.2-preview.2

Angeben einer Zielcontainer-URL

Das Transkriptionsergebnis kann in einem Azure-Container gespeichert werden. Wenn Sie keinen Container angeben, speichert der Spracherkennungsdienst die Ergebnisse in einem von Microsoft verwalteten Container. Wird der Transkriptionsauftrag gelöscht, werden in diesem Fall auch die Daten des Transkriptionsergebnisses gelöscht.

Sie können die Ergebnisse einer Batchtranskription in einen schreibbaren Azure Blob Storage-Container speichern, indem Sie die Option destinationContainerUrl in der Anforderung zur Erstellung einer Batchtranskription verwenden. Diese Option verwendet nur einen Ad-hoc-SAS-URI und unterstützt keinen Sicherheitsmechanismus für vertrauenswürdige Azure-Dienste. Diese Option unterstützt auch keine zugriffsrichtlinienbasierte SAS-Authentifizierung. Die Speicherkontoressource des Zielcontainers muss den gesamten externen Datenverkehr zulassen.

Wenn Sie die Transkription in einem Azure Blob Storage-Container speichern möchten, indem Sie den Sicherheitsmechanismus für vertrauenswürdige Azure-Dienste verwenden, sollten Sie Bring-your-own-Storage (BYOS) verwenden. Weitere Informationen finden Sie unter Verwenden der BYOS-Sprachressource für Spracherkennung.