Udostępnij za pośrednictwem


Migrowanie kodu z wersji 3.0 do wersji 3.1 interfejsu API REST

Interfejs API REST zamiany mowy na tekst jest używany na potrzeby transkrypcji usługi Batch i mowy niestandardowej. Zmiany z wersji 3.0 do 3.1 zostały opisane w poniższych sekcjach.

Ważne

Interfejs API REST zamiany mowy na tekst w wersji 3.2 jest dostępny w wersji zapoznawczej. Interfejs API REST zamiany mowy na tekst w wersji 3.1 jest ogólnie dostępny. Interfejs API REST zamiany mowy na tekst w wersji 3.0 zostanie wycofany 1 kwietnia 2026 r. Aby uzyskać więcej informacji, zobacz przewodniki migracji interfejsu API REST zamiany mowy na tekst w wersji 3.0 do wersji 3.1 i 3.1 do wersji 3.2.

Ścieżka podstawowa

Musisz zaktualizować ścieżkę podstawową w kodzie z /speechtotext/v3.0 do /speechtotext/v3.1. Aby na przykład uzyskać modele podstawowe w eastus regionie, użyj polecenia https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base zamiast https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base.

Zanotuj inne zmiany:

  • Operacja /models/{id}/copyto (łącznie z elementem "/") w wersji 3.0 jest zastępowana przez operację /models/{id}:copyto (w tym ":") w wersji 3.1.
  • Operacja /webhooks/{id}/ping (łącznie z elementem "/") w wersji 3.0 jest zastępowana przez operację /webhooks/{id}:ping (w tym ":") w wersji 3.1.
  • Operacja /webhooks/{id}/test (łącznie z elementem "/") w wersji 3.0 jest zastępowana przez operację /webhooks/{id}:test (w tym ":") w wersji 3.1.

Aby uzyskać więcej informacji, zobacz Identyfikatory operacji w dalszej części tego przewodnika.

Transkrypcja wsadowa

Uwaga

Nie używaj mowy do tłumaczenia tekstu za pomocą interfejsu API REST w wersji 3.0, aby pobrać transkrypcję utworzoną za pomocą mowy na tekst interfejsu API REST w wersji 3.1. Zostanie wyświetlony komunikat o błędzie, taki jak: "Wersja interfejsu API nie może być używana do uzyskiwania dostępu do tej transkrypcji. Użyj interfejsu API w wersji 3.1 lub nowszej.

W operacji Transcriptions_Create są dodawane następujące trzy właściwości:

  • Właściwość displayFormWordLevelTimestampsEnabled może służyć do włączania raportowania sygnatur czasowych na poziomie wyrazów w formie wyświetlania wyników transkrypcji. Wyniki są zwracane we displayWords właściwości pliku transkrypcji.
  • Właściwość diarization może służyć do określania wskazówek dotyczących minimalnej i maksymalnej liczby etykiet osoby mówiącej do wygenerowania podczas wykonywania opcjonalnej diaryzacji (separacja głośnika). Dzięki tej funkcji usługa może teraz generować etykiety głośników dla więcej niż dwóch osób mówiących. Aby użyć tej właściwości, należy również ustawić diarizationEnabled właściwość na true. W interfejsie API w wersji 3.1 zwiększyliśmy liczbę prelegentów, które można zidentyfikować za pomocą diaryzacji z dwóch prelegentów obsługiwanych przez interfejs API w wersji 3.0. Zaleca się zachowanie liczby osób mówiących poniżej 30 w celu uzyskania lepszej wydajności.
  • Właściwość może służyć do określania languageIdentification ustawień identyfikacji języka na danych wejściowych przed transkrypcją. Do identyfikacji języka jest obsługiwanych maksymalnie 10 kandydatów regionalnych. Zwrócona transkrypcja zawiera nową locale właściwość rozpoznanego języka lub podanych ustawień regionalnych.

Właściwość filter jest dodawana do operacji Transcriptions_List, Transcriptions_ListFiles i Projects_ListTranscriptions . Wyrażenie filter może służyć do wybierania podzestawu dostępnych zasobów. Filtr można filtrować według displayName, , description, createdDateTimelastActionDateTime, status, i locale. Na przykład: filter=createdDateTime gt 2022-02-01T11:00:00Z.

Jeśli używasz elementu webhook do odbierania powiadomień o stanie transkrypcji, pamiętaj, że elementy webhook utworzone za pośrednictwem interfejsu API w wersji 3.0 nie mogą odbierać powiadomień dotyczących żądań transkrypcji w wersji 3.1. Aby otrzymywać powiadomienia dotyczące żądań transkrypcji w wersji 3.1, należy utworzyć nowy punkt końcowy elementu webhook za pośrednictwem interfejsu API w wersji 3.1.

Mowa niestandardowa

Zestawy danych

Następujące operacje są dodawane do przekazywania wielu bloków danych i zarządzania nimi dla zestawu danych:

  • Datasets_UploadBlock — przekaż blok danych dla zestawu danych. Maksymalny rozmiar bloku to 8MiB.
  • Datasets_GetBlocks — pobierz listę przekazanych bloków dla tego zestawu danych.
  • Datasets_CommitBlocks — zatwierdź listę bloków, aby ukończyć przekazywanie zestawu danych.

Aby obsługiwać adaptację modelu za pomocą tekstu strukturalnego w danych markdown , operacja Datasets_Create obsługuje teraz rodzaj danych LanguageMarkdown . Aby uzyskać więcej informacji, zobacz przekazywanie zestawów danych.

Modele

Operacje Models_ListBaseModels i Models_GetBaseModel zwracają informacje o typie adaptacji obsługiwanej przez każdy model podstawowy.

"features": {
    "supportsAdaptationsWith": [
        "Acoustic",
        "Language",
        "LanguageMarkdown",
        "Pronunciation"
    ]
}

Operacja Models_Create ma nową customModelWeightPercent właściwość, w której można określić wagę używaną, gdy model języka niestandardowego (wytrenowany na podstawie danych zwykłych lub ustrukturyzowanych) jest połączony z modelem języka podstawowego. Prawidłowe wartości to liczby całkowite z zakresu od 1 do 100. Wartość domyślna to obecnie 30.

Właściwość filter jest dodawana do następujących operacji:

Wyrażenie filter może służyć do wybierania podzestawu dostępnych zasobów. Filtr można filtrować według displayName, , description, createdDateTimelastActionDateTime, status, locale, i kind. Na przykład: filter=locale eq 'en-US'.

Dodano operację Models_ListFiles w celu pobrania plików modelu zidentyfikowanych przez dany identyfikator.

Dodano operację Models_GetFile w celu pobrania jednego określonego pliku (zidentyfikowanego z identyfikatorem fileId) z modelu (identyfikowanego z identyfikatorem). Dzięki temu można pobrać plik ModelReport zawierający informacje o danych przetwarzanych podczas trenowania.

Identyfikatory operacji

Musisz zaktualizować ścieżkę podstawową w kodzie z /speechtotext/v3.0 do /speechtotext/v3.1. Aby na przykład uzyskać modele podstawowe w eastus regionie, użyj polecenia https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base zamiast https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base.

Nazwa każdego operationId elementu w wersji 3.1 jest poprzedzona nazwą obiektu. Na przykład element operationId "Create Model" został zmieniony z CreateModel w wersji 3.0 na Models_Create w wersji 3.1.

Operacja /models/{id}/copyto (łącznie z elementem "/") w wersji 3.0 jest zastępowana przez operację /models/{id}:copyto (w tym ":") w wersji 3.1.

Operacja /webhooks/{id}/ping (łącznie z elementem "/") w wersji 3.0 jest zastępowana przez operację /webhooks/{id}:ping (w tym ":") w wersji 3.1.

Operacja /webhooks/{id}/test (łącznie z elementem "/") w wersji 3.0 jest zastępowana przez operację /webhooks/{id}:test (w tym ":") w wersji 3.1.

Następne kroki