Skapa ett anpassat talprojekt

Artikel
04/15/2024

Anpassade talprojekt innehåller modeller, träning och testning av datauppsättningar och distributionsslutpunkter. Varje projekt är specifikt för ett språk. Du kan till exempel skapa ett projekt för engelska i USA.

Skapa ett projekt

Följ dessa steg för att skapa ett anpassat talprojekt:

Logga in på Speech Studio.
Välj den prenumeration och talresurs som du vill arbeta med.

Viktigt!

Om du ska träna en anpassad modell med ljuddata väljer du en Speech-resursregion med dedikerad maskinvara för att träna ljuddata. Mer information finns i fotnoter i regionstabellen.
Välj Anpassat tal>Skapa ett nytt projekt.
Följ anvisningarna i guiden för att skapa projektet.

Välj det nya projektet efter namn eller välj Gå till projekt. Du ser de här menyalternativen i den vänstra panelen: Taldatauppsättningar, Träna anpassade modeller, Testmodeller och Distribuera modeller.

Använd kommandot för spx csr project create att skapa ett projekt. Skapa begärandeparametrarna enligt följande instruktioner:

Ange den obligatoriska language parametern. Språkvarianten för projektet och de inneslutna datauppsättningarna bör vara desamma. Språkvarianten kan inte ändras senare. Parametern Speech CLI language motsvarar locale egenskapen i JSON-begäran och -svaret.
Ange den obligatoriska name parametern. Det här är namnet som visas i Speech Studio. Parametern Speech CLI name motsvarar displayName egenskapen i JSON-begäran och -svaret.

Här är ett exempel på ett Speech CLI-kommando som skapar ett projekt:

spx csr project create --api-version v3.1 --name "My Project" --description "My Project Description" --language "en-US"

Du bör få en svarstext i följande format:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/transcriptions"       
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2022-05-17T22:15:18Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

Den översta egenskapen self i svarstexten är projektets URI. Använd den här URI:n för att få information om projektets utvärderingar, datauppsättningar, modeller, slutpunkter och transkriptioner. Du använder också den här URI:n för att uppdatera eller ta bort ett projekt.

Kör följande kommando för speech CLI-hjälp med projekt:

spx help csr project

Om du vill skapa ett projekt använder du den Projects_Create åtgärden för REST API för tal till text. Skapa begärandetexten enligt följande instruktioner:

Ange den obligatoriska locale egenskapen. Detta bör vara nationella inställningar för de inneslutna datauppsättningarna. Språkvarianten kan inte ändras senare.
Ange den obligatoriska displayName egenskapen. Det här är projektnamnet som visas i Speech Studio.

Gör en HTTP POST-begäran med hjälp av URI:n enligt följande Projects_Create exempel. Ersätt YourSubscriptionKey med din Speech-resursnyckel, ersätt YourServiceRegion med resursregionen Speech och ange egenskaperna för begärandetexten enligt beskrivningen ovan.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "displayName": "My Project",
  "description": "My Project Description",
  "locale": "en-US"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/projects"

Du bör få en svarstext i följande format:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed",
  "links": {
    "evaluations": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/evaluations",
    "datasets": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/datasets",
    "models": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/models",
    "endpoints": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/endpoints",
    "transcriptions": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/1cdfa276-0f9d-425b-a942-5f2be93017ed/transcriptions"       
  },
  "properties": {
    "datasetCount": 0,
    "evaluationCount": 0,
    "modelCount": 0,
    "transcriptionCount": 0,
    "endpointCount": 0
  },
  "createdDateTime": "2022-05-17T22:15:18Z",
  "locale": "en-US",
  "displayName": "My Project",
  "description": "My Project Description"
}

Välj din modell

Det finns några metoder för att använda anpassade talmodeller:

Basmodellen ger korrekt taligenkänning direkt för en rad olika scenarier. Basmodeller uppdateras regelbundet för att förbättra noggrannheten och kvaliteten. Om du använder basmodeller rekommenderar vi att du använder de senaste standardbasmodellerna. Om en nödvändig anpassningsfunktion endast är tillgänglig med en äldre modell kan du välja en äldre basmodell.
En anpassad modell utökar basmodellen så att den inkluderar domänspecifik vokabulär som delas mellan alla områden i den anpassade domänen.
Flera anpassade modeller kan användas när den anpassade domänen har flera områden, var och en med ett specifikt ordförråd.

Ett rekommenderat sätt att se om basmodellen räcker är att analysera transkriptionen som produceras från basmodellen och jämföra den med en mänskligt genererad transkription för samma ljud. Du kan jämföra avskrifterna och få en wer-poäng (word error rate). Om WER-poängen är hög rekommenderar vi att du tränar en anpassad modell för att identifiera felaktigt identifierade ord.

Flera modeller rekommenderas om vokabulären varierar mellan domänområdena. Till exempel rapporterar olympiska kommentatorer om olika evenemang, var och en associerad med sin egen vernacular. Eftersom varje os-händelseförråd skiljer sig avsevärt från andra ökar skapandet av en anpassad modell som är specifik för en händelse noggrannheten genom att begränsa yttrandenas data i förhållande till den specifika händelsen. Därför behöver modellen inte söka igenom orelaterade data för att göra en matchning. Oavsett, träning kräver fortfarande en anständig mängd träningsdata. Inkludera ljud från olika kommentatorer som har olika accenter, kön, ålder osv.

Modellstabilitet och livscykel

En basmodell eller anpassad modell som distribuerats till en slutpunkt med anpassat tal har åtgärdats tills du bestämmer dig för att uppdatera den. Taligenkänningens noggrannhet och kvalitet förblir konsekventa, även när en ny basmodell släpps. På så sätt kan du låsa beteendet för en specifik modell tills du bestämmer dig för att använda en nyare modell.

Oavsett om du tränar din egen modell eller använder en ögonblicksbild av en basmodell kan du använda modellen under en begränsad tid. Mer information finns i Livscykel för modell och slutpunkt.

Skapa ett anpassat talprojekt

Skapa ett projekt

Välj din modell

Modellstabilitet och livscykel

Nästa steg

Ytterligare resurser