Migrera kod från v3.0 till v3.1 i REST-API:et

Artikel
04/15/2024

REST API för tal till text används för Batch-transkription och anpassat tal. Ändringar från version 3.0 till 3.1 beskrivs i avsnitten nedan.

Viktigt!

Tal till text REST API v3.2 är tillgängligt i förhandsversionen. Tal till text REST API v3.1 är allmänt tillgängligt. Tal till text REST API v3.0 dras tillbaka den 1 april 2026. Mer information finns i migreringsguiderna Tal till text REST API v3.0 till v3.1 och v3.1 till v3.2 .

Bassökväg

Du måste uppdatera bassökvägen i koden från /speechtotext/v3.0 till /speechtotext/v3.1. Om du till exempel vill hämta basmodeller i eastus regionen använder du https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base i stället https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/baseför .

Observera följande andra ändringar:

Åtgärden /models/{id}/copyto (innehåller "/") i version 3.0 ersätts av /models/{id}:copyto åtgärden (innehåller :) i version 3.1.
Åtgärden /webhooks/{id}/ping (innehåller "/") i version 3.0 ersätts av /webhooks/{id}:ping åtgärden (innehåller :) i version 3.1.
Åtgärden /webhooks/{id}/test (innehåller "/") i version 3.0 ersätts av /webhooks/{id}:test åtgärden (innehåller :) i version 3.1.

Mer information finns i Åtgärds-ID senare i den här guiden.

Batch-transkription

Kommentar

Använd inte Speech to text REST API v3.0 för att hämta en transkription som skapats via Speech to text REST API v3.1. Ett felmeddelande visas, till exempel: "API-versionen kan inte användas för att komma åt den här transkriptionen. Använd API-version v3.1 eller senare."

I den Transcriptions_Create åtgärden läggs följande tre egenskaper till:

Egenskapen displayFormWordLevelTimestampsEnabled kan användas för att aktivera rapportering av tidsstämplar på ordnivå i visningsformen för transkriptionsresultatet. Resultaten returneras i displayWords egenskapen för transkriptionsfilen.
Egenskapen diarization kan användas för att ange tips för det minsta och högsta antal talaretiketter som ska genereras när du utför valfri diarisering (talarseparation). Med den här funktionen kan tjänsten nu generera talaretiketter för fler än två talare. Om du vill använda den här egenskapen måste du också ange diarizationEnabled egenskapen till true. Med v3.1-API:et har vi ökat antalet talare som kan identifieras genom diarisering från de två talare som stöds av v3.0-API:et. Vi rekommenderar att du håller antalet talare under 30 för bättre prestanda.
Egenskapen languageIdentification kan användas för att ange inställningar för språkidentifiering på indata före transkription. Upp till 10 kandidatspråk stöds för språkidentifiering. Den returnerade transkriptionen innehåller en ny locale egenskap för det identifierade språket eller det språk som du angav.

Egenskapen filter läggs till i åtgärderna Transcriptions_List, Transcriptions_ListFiles och Projects_ListTranscriptions . Uttrycket filter kan användas för att välja en delmängd av de tillgängliga resurserna. Du kan filtrera efter displayName, description, createdDateTime, lastActionDateTime, statusoch locale. Till exempel: filter=createdDateTime gt 2022-02-01T11:00:00Z

Om du använder webhook för att ta emot meddelanden om transkriptionsstatus bör du tänka på att webhooks som skapats via V3.0-API:et inte kan ta emot meddelanden för V3.1-transkriptionsbegäranden. Du måste skapa en ny webhook-slutpunkt via V3.1 API för att kunna ta emot meddelanden om V3.1-transkriptionsbegäranden.

Anpassat tal

Datauppsättningar

Följande åtgärder läggs till för att ladda upp och hantera flera datablock för en datauppsättning:

Datasets_UploadBlock – Ladda upp ett datablock för datauppsättningen. Blockets maximala storlek är 8MiB.
Datasets_GetBlocks – Hämta listan över uppladdade block för den här datauppsättningen.
Datasets_CommitBlocks – Checka in blockeringslista för att slutföra uppladdningen av datamängden.

För att stödja modellanpassning med strukturerad text i markdown-data stöder Datasets_Create-åtgärden nu datatypen LanguageMarkdown. Mer information finns i ladda upp datauppsättningar.

Modeller

Åtgärderna Models_ListBaseModels och Models_GetBaseModel returnerar information om vilken typ av anpassning som stöds av varje basmodell.

"features": {
    "supportsAdaptationsWith": [
        "Acoustic",
        "Language",
        "LanguageMarkdown",
        "Pronunciation"
    ]
}

Åtgärden Models_Create har en ny customModelWeightPercent egenskap där du kan ange den vikt som används när den anpassade språkmodellen (tränad från oformaterade eller strukturerade textdata) kombineras med basspråkmodellen. Giltiga värden är heltal mellan 1 och 100. Standardvärdet är för närvarande 30.

Egenskapen filter läggs till i följande åtgärder:

Uttrycket filter kan användas för att välja en delmängd av de tillgängliga resurserna. Du kan filtrera efter displayName, description, createdDateTime, lastActionDateTime, status, localeoch kind. Till exempel: filter=locale eq 'en-US'

Den Models_ListFiles åtgärden har lagts till för att hämta filerna i modellen som identifieras av det angivna ID:t.

Lade till Models_GetFile-åtgärden för att hämta en specifik fil (identifierad med fileId) från en modell (identifierad med ID). På så sätt kan du hämta en ModelReport-fil som innehåller information om de data som bearbetas under träningen.

Åtgärds-ID:t

Namnet på var och en operationId i version 3.1 är prefixet med objektnamnet. Till exempel operationId ändrades för "Skapa modell" från CreateModel i version 3.0 till Models_Create i version 3.1.

Åtgärden /models/{id}/copyto (innehåller "/") i version 3.0 ersätts av /models/{id}:copyto åtgärden (innehåller :) i version 3.1.

Åtgärden /webhooks/{id}/ping (innehåller "/") i version 3.0 ersätts av /webhooks/{id}:ping åtgärden (innehåller :) i version 3.1.

Åtgärden /webhooks/{id}/test (innehåller "/") i version 3.0 ersätts av /webhooks/{id}:test åtgärden (innehåller :) i version 3.1.