Egyéni beszédmodell betanítása

Ebből a cikkből megtudhatja, hogyan taníthat be egyéni modelleket a Microsoft alapmodellből származó felismerési pontosság javítása érdekében. Az egyéni beszédmodellek beszédfelismerési pontossága és minősége konzisztens marad, még akkor is, ha új alapmodellt ad ki.

Feljegyzés

Az egyéni beszédmodellek használatáért és a végpontok üzemeltetéséért fizetnie kell. Ha az alapmodell 2023. október 1-jén és később jött létre, az egyéni beszédmodell betanításáért is díjat számítunk fel. A betanításért nem kell fizetnie, ha az alapmodell 2023 októbere előtt lett létrehozva. További információ: Az Azure AI Speech díjszabása és a Speech to Text 3.2 migrálási útmutatójának adaptálási díja című szakasza.

A modellek betanítása általában iteratív folyamat. Először válasszon ki egy alapmodellt, amely egy új modell kiindulópontja. Betanított egy modellt olyan adathalmazokkal , amelyek tartalmazhatnak szöveget és hangot, majd tesztelheti. Ha a felismerés minősége vagy pontossága nem felel meg a követelményeknek, létrehozhat egy új modellt több vagy módosított betanítási adattal, majd újra tesztelheti.

Az egyéni modellt a betanítása után korlátozott ideig használhatja. A jobb pontosság és minőség érdekében rendszeresen újra létre kell hoznia és át kell igazítania az egyéni modellt a legújabb alapmodellből. További információ: Modell és végpont életciklusa.

Fontos

Ha egyéni modellt fog betanításra hangadatokkal, válasszon egy beszéderőforrás-régiót dedikált hardverrel a hangadatok betanításához. A modell betanítása után szükség szerint átmásolhatja azt egy másik régióban található Speech-erőforrásba .

Az egyéni beszédtanításhoz dedikált hardverrel rendelkező régiókban a Speech szolgáltatás legfeljebb 20 órányi hangbetanítási adatot használ fel, és naponta körülbelül 10 órányi adatot képes feldolgozni. Más régiókban a Speech szolgáltatás legfeljebb 8 órát használ fel a hangadatokból, és naponta körülbelül 1 órányi adatot képes feldolgozni. További információkért tekintse meg a Régiók táblában található lábjegyzeteket.

Modell létrehozása

A betanítási adathalmazok feltöltése után kövesse az alábbi utasításokat a modell betanításának megkezdéséhez:

  1. Jelentkezzen be a Speech Studióba.

  2. Egyéni beszéd> kiválasztása A projekt neve >Egyéni modellek betanítása.

  3. Válassza az Új modell betanítása lehetőséget.

  4. Az Alapmodell kiválasztása lapon válasszon ki egy alapmodellt, majd válassza a Tovább lehetőséget. Ha nem biztos benne, válassza ki a legújabb modellt a lista tetején. Az alapmodell neve YYYYMMDD formátumban való kiadásának dátumának felel meg. Az alapmodell testreszabási képességei zárójelben jelennek meg a Speech Studióban a modell neve után.

    Fontos

    Jegyezze fel az alkalmazkodási dátum lejáratát. Ez az utolsó dátum, amikor az alapmodellt használhatja a betanításhoz. További információ: Modell és végpont életciklusa.

  5. Az Adatok kiválasztása lapon válasszon ki egy vagy több adatkészletet, amelyet betanításhoz szeretne használni. Ha nincs elérhető adathalmaz, szakítsa meg a beállítást, majd lépjen a Speech adathalmazok menübe az adathalmazok feltöltéséhez.

  6. Adja meg az egyéni modell nevét és leírását, majd válassza a Tovább gombot.

  7. A következő lépésben jelölje be a Teszt hozzáadása jelölőnégyzetet. Ha kihagyja ezt a lépést, később ugyanazokat a teszteket futtathatja. További információ: Test recognition quality and Test model quantitatively.

  8. Válassza a Mentés és a Közel lehetőséget az egyéni modell buildjének elindításához.

  9. Térjen vissza az egyéni modellek betanítása lapra.

    Fontos

    Jegyezze fel a lejárati dátumot. Ez az utolsó dátum, amikor az egyéni modellt használhatja a beszédfelismeréshez. További információ: Modell és végpont életciklusa.

Ha betanításhoz adatkészleteket tartalmazó modellt szeretne létrehozni, használja a spx csr model create parancsot. A kérelemparamétereket az alábbi utasítások szerint hozhatja létre:

  • Állítsa a project paramétert egy meglévő projekt azonosítójára. Ez a paraméter ajánlott, hogy a modellt a Speech Studióban is megtekinthesse és felügyelhesse. Futtathatja a parancsot az spx csr project list elérhető projektek lekéréséhez.
  • Állítsa be a szükséges dataset paramétert a betanításhoz használni kívánt adathalmaz azonosítójára. Több adathalmaz megadásához állítsa be a datasets (többes szám) paramétert, és válassza el az azonosítókat pontosvesszővel.
  • Adja meg a szükséges language paramétert. Az adathalmaz területi beállításának meg kell egyeznie a projekt területi beállításával. A területi beállítás később nem módosítható. A Speech CLI language paraméter megfelel a locale JSON-kérés és -válasz tulajdonságának.
  • Adja meg a szükséges name paramétert. Ez a paraméter a Speech Studióban megjelenített név. A Speech CLI name paraméter megfelel a displayName JSON-kérés és -válasz tulajdonságának.
  • Igény szerint beállíthatja a tulajdonságot base . Például: --base 1aae1070-7972-47e9-a977-87e3b05c457d Ha nem adja meg a basebeállítást, a rendszer az alapértelmezett alapmodellt használja a területi beállításhoz. A Speech CLI base paraméter megfelel a baseModel JSON-kérés és -válasz tulajdonságának.

Íme egy példa Speech CLI-parancsra, amely egy modellt hoz létre adatkészletekkel a betanításhoz:

spx csr model create --api-version v3.1 --project YourProjectId --name "My Model" --description "My Model Description" --dataset YourDatasetId --language "en-US"

Feljegyzés

Ebben a példában nincs beállítva a base beállítás, ezért a területi beállítás alapértelmezett alapmodellje lesz használva. A válaszban az alapmodell URI-ja lesz visszaadva.

A válasz törzsének a következő formátumban kell érkeznie:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7",
  "baseModel": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/69e46263-ab10-4ab4-abbe-62e370104d95"
    }
  ],
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7/manifest",
    "copyTo": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7:copyto"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/5d25e60a-7f4a-4816-afd9-783bb8daccfc"
  },
  "properties": {
    "deprecationDates": {
      "adaptationDateTime": "2023-01-15T00:00:00Z",
      "transcriptionDateTime": "2024-07-15T00:00:00Z"
    }
  },
  "lastActionDateTime": "2022-05-21T13:21:01Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-21T13:21:01Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description"
}

Fontos

Jegyezze fel a tulajdonság dátumát adaptationDateTime . Ez az utolsó dátum, amikor az alapmodellt használhatja a betanításhoz. További információ: Modell és végpont életciklusa.

Jegyezze fel a tulajdonság dátumát transcriptionDateTime . Ez az utolsó dátum, amikor az egyéni modellt használhatja a beszédfelismeréshez. További információ: Modell és végpont életciklusa.

A válasz törzsének legfelső szintű self tulajdonsága a modell URI-ja. Ezzel az URI-val részletes információkat kaphat a modell projektjéről, jegyzékadatairól és elavulásáról. Ezzel az URI-val is frissíthet vagy törölhet egy modellt.

A Speech CLI modellekkel kapcsolatos súgójához futtassa a következő parancsot:

spx help csr model

Ha adatkészleteket tartalmazó modellt szeretne létrehozni a betanításhoz, használja a Speech to text REST API Models_Create műveletét. A kérelem törzsének összeállítása az alábbi utasítások szerint:

  • Állítsa a project tulajdonságot egy meglévő projekt URI-jára. Ez a tulajdonság azért ajánlott, hogy a Modellt a Speech Studióban is megtekinthesse és felügyelhesse. Projects_List kérést is kérhet az elérhető projektek beszerzéséhez.
  • Állítsa be a szükséges datasets tulajdonságot a betanításhoz használni kívánt adathalmazok URI-jára.
  • Állítsa be a szükséges locale tulajdonságot. A modell területi beállításának meg kell egyeznie a projekt és az alapmodell területi beállításával. A területi beállítás később nem módosítható.
  • Állítsa be a szükséges displayName tulajdonságot. Ez a tulajdonság a Speech Studióban megjelenített név.
  • Igény szerint beállíthatja a tulajdonságot baseModel . Például: "baseModel": {"self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"} Ha nem adja meg a baseModelbeállítást, a rendszer az alapértelmezett alapmodellt használja a területi beállításhoz.

Http POST-kérés létrehozása az URI használatával az alábbi példában látható módon. Cserélje le YourSubscriptionKey a Speech erőforráskulcsát, cserélje le YourServiceRegion a Speech erőforrásterületre, és állítsa be a kérés törzstulajdonságait a korábban leírtak szerint.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/5d25e60a-7f4a-4816-afd9-783bb8daccfc"
  },
  "displayName": "My Model",
  "description": "My Model Description",
  "baseModel": null,
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/69e46263-ab10-4ab4-abbe-62e370104d95"
    }
  ],
  "locale": "en-US"
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/models"

Feljegyzés

Ebben a példában nincs beállítva a baseModel beállítás, ezért a területi beállítás alapértelmezett alapmodellje lesz használva. A válaszban az alapmodell URI-ja lesz visszaadva.

A válasz törzsének a következő formátumban kell érkeznie:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7",
  "baseModel": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/69e46263-ab10-4ab4-abbe-62e370104d95"
    }
  ],
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7/manifest",
    "copyTo": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7:copyto"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/5d25e60a-7f4a-4816-afd9-783bb8daccfc"
  },
  "properties": {
    "deprecationDates": {
      "adaptationDateTime": "2023-01-15T00:00:00Z",
      "transcriptionDateTime": "2024-07-15T00:00:00Z"
    }
  },
  "lastActionDateTime": "2022-05-21T13:21:01Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-21T13:21:01Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description"
}

Fontos

Jegyezze fel a tulajdonság dátumát adaptationDateTime . Ez az utolsó dátum, amikor az alapmodellt használhatja a betanításhoz. További információ: Modell és végpont életciklusa.

Jegyezze fel a tulajdonság dátumát transcriptionDateTime . Ez az utolsó dátum, amikor az egyéni modellt használhatja a beszédfelismeréshez. További információ: Modell és végpont életciklusa.

A válasz törzsének legfelső szintű self tulajdonsága a modell URI-ja. Ezzel az URI-val részletes információkat kaphat a modell projektjéről, jegyzékadatairól és elavulásáról. Ezzel az URI-val is frissítheti vagy törölheti a modellt.

Modell másolása

A modellt átmásolhatja egy másik projektbe, amely ugyanazt a területi beállításokat használja. Ha például egy modellt hangadatokkal tanít be egy olyan régióban , amely dedikált hardverrel rendelkezik a betanításhoz, szükség szerint átmásolhatja azokat egy másik régióban található Speech-erőforrásba.

Az alábbi utasításokat követve másolhat egy modellt egy másik régióban lévő projektbe:

  1. Jelentkezzen be a Speech Studióba.
  2. Egyéni beszéd> kiválasztása A projekt neve >Egyéni modellek betanítása.
  3. Válassza a Másolás elemet.
  4. A Beszédmodell másolása lapon válassza ki azt a célrégiót, ahová a modellt át szeretné másolni. Screenshot of a phrase list applied in Speech Studio.
  5. Válasszon ki egy Speech-erőforrást a célrégióban, vagy hozzon létre egy új Speech-erőforrást.
  6. Jelölje ki azt a projektet, amelybe a modellt át szeretné másolni, vagy hozzon létre egy új projektet.
  7. Válassza a Másolás lehetőséget.

A modell sikeres másolása után értesítést kap, és megtekintheti azt a célprojektben.

A Speech CLI nem támogatja a modellek egy másik régióban lévő projektbe való közvetlen másolását. A Speech Studio vagy a Speech rest API használatával egy másik régióban lévő projektbe másolhat egy modellt.

Ha egy modellt egy másik Speech-erőforrásba szeretne másolni, használja a Speech to text REST API Models_CopyTo műveletét. A kérelem törzsének összeállítása az alábbi utasítások szerint:

  • Állítsa be a szükséges targetSubscriptionKey tulajdonságot a cél speech erőforrás kulcsára.

Http POST-kérés létrehozása az URI használatával az alábbi példában látható módon. Használja annak a modellnek a régióját és URI-ját, amelyből másolni szeretne. Cserélje le YourModelId a modellazonosítót, cserélje le YourSubscriptionKey a Speech erőforráskulcsra, cserélje le YourServiceRegion a Speech erőforrásrégiójára, és állítsa be a kérelem törzstulajdonságait a korábban leírtak szerint.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "targetSubscriptionKey": "ModelDestinationSpeechResourceKey"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/models/YourModelId:copyto"

Feljegyzés

Csak a targetSubscriptionKey kérelem törzsében lévő tulajdonság rendelkezik információval a Cél beszéd erőforrásról.

A válasz törzsének a következő formátumban kell érkeznie:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae",
  "baseModel": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/base/eb5450a7-3ca2-461a-b2d7-ddbb3ad96540"
  },
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae/manifest",
    "copyTo": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae:copyto"
  },
  "properties": {
    "deprecationDates": {
      "adaptationDateTime": "2023-01-15T00:00:00Z",
      "transcriptionDateTime": "2024-07-15T00:00:00Z"
    }
  },
  "lastActionDateTime": "2022-05-22T23:15:27Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-22T23:15:27Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description",
  "customProperties": {
    "PortalAPIVersion": "3",
    "Purpose": "",
    "VadKind": "None",
    "ModelClass": "None",
    "UsesHalide": "False",
    "IsDynamicGrammarSupported": "False"
  }
}

modell Csatlakozás

Előfordulhat, hogy a modelleket a Speech CLI vagy a REST API használatával másolták át egy projektből anélkül, hogy egy másik projekthez csatlakoztak volna. Csatlakozás a modell frissítése a projektre való hivatkozással.

Ha a Speech Studióban kéri a rendszer, a Csatlakozás gombra kattintva csatlakoztathatja őket.

Screenshot of the connect training page that shows models that can be connected to the current project.

Ha egy modellt egy projekthez szeretne csatlakoztatni, használja a spx csr model update parancsot. A kérelemparamétereket az alábbi utasítások szerint hozhatja létre:

  • Állítsa a paramétert project egy meglévő projekt URI-jára. Ez a paraméter ajánlott, hogy a modellt a Speech Studióban is megtekinthesse és felügyelhesse. Futtathatja a parancsot az spx csr project list elérhető projektek lekéréséhez.
  • Állítsa a szükséges modelId paramétert a projekthez csatlakozni kívánt modell azonosítójára.

Íme egy példa a Speech CLI-parancsra, amely egy modellt csatlakoztat egy projekthez:

spx csr model update --api-version v3.1 --model YourModelId --project YourProjectId

A válasz törzsének a következő formátumban kell érkeznie:

{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/e6ffdefd-9517-45a9-a89c-7b5028ed0e56"
  },
}

A Speech CLI modellekkel kapcsolatos súgójához futtassa a következő parancsot:

spx help csr model

Ha új modellt szeretne csatlakoztatni annak a Speech-erőforrásnak a projektéhez, amelyben a modellt másolták, használja a Speech és a REST API Models_Update műveletét. A kérelem törzsének összeállítása az alábbi utasítások szerint:

  • Állítsa be a szükséges project tulajdonságot egy meglévő projekt URI-jára. Ez a tulajdonság azért ajánlott, hogy a Modellt a Speech Studióban is megtekinthesse és felügyelhesse. Projects_List kérést is kérhet az elérhető projektek beszerzéséhez.

Hozzon létre egy HTTP PATCH-kérést az URI használatával az alábbi példában látható módon. Használja az új modell URI-ját. Az új modellazonosítót a Models_CopyTo választörzs tulajdonságából selfszerezheti be. Cserélje le YourSubscriptionKey a Speech erőforráskulcsát, cserélje le YourServiceRegion a Speech erőforrásterületre, és állítsa be a kérés törzstulajdonságait a korábban leírtak szerint.

curl -v -X PATCH -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/e6ffdefd-9517-45a9-a89c-7b5028ed0e56"
  },
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/models"

A válasz törzsének a következő formátumban kell érkeznie:

{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/e6ffdefd-9517-45a9-a89c-7b5028ed0e56"
  },
}

Következő lépések