Přidání datové sady pro profesionální hlasové trénování

Až budete připraveni vytvořit vlastní text pro hlasový hlas pro vaši aplikaci, je prvním krokem shromáždění zvukových nahrávek a přidružených skriptů pro zahájení trénování hlasového modelu. Podrobnosti o nahrávání hlasových ukázek najdete v tomto kurzu. Služba Speech používá tato data k vytvoření jedinečného hlasu vyladěného tak, aby odpovídala hlasu v záznamech. Po natrénování hlasu můžete v aplikacích začít syntetizovat řeč.

Všechna data, která nahrajete, musí splňovat požadavky na datový typ, který zvolíte. Před nahráním je důležité správně naformátovat data, což zajistí, že služba Speech bude data přesně zpracovávat. Informace o správném formátování dat najdete v tématu Trénování datových typů.

Poznámka:

  • Uživatelé s předplatným Standard (S0) můžou současně nahrát pět datových souborů. Pokud dosáhnete limitu, počkejte na dokončení importu alespoň jednoho z datových souborů. Opakujte.
  • Maximální počet datových souborů, které je možné importovat na jedno předplatné, je 500 .zip souborů pro uživatele se standardním předplatným (S0). Další podrobnosti najdete v kvótách a omezeních služby Speech.

Nahrání dat

Až budete připraveni nahrát data, přejděte na kartu Příprava trénovacích dat a přidejte první trénovací sadu a nahrajte data. Trénovací sada je sada zvukových promluv a jejich mapovacích skriptů používaných pro trénování hlasového modelu. Trénovací sadu můžete použít k uspořádání trénovacích dat. Služba kontroluje připravenost dat na každou trénovací sadu. Do trénovací sady můžete importovat více dat.

Pokud chcete nahrát trénovací data, postupujte takto:

  1. Přihlaste se k sadě Speech Studio.
  2. Vyberte Vlastní hlas>> Název projektu Příprava trénovacích dat Nahrání dat.>
  3. V Průvodci nahráním dat zvolte datový typ a pak vyberte Další.
  4. Vyberte místní soubory z počítače nebo zadejte adresu URL úložiště objektů blob v Azure a nahrajte data.
  5. V části Zadat cílovou trénovací sadu vyberte existující trénovací sadu nebo vytvořte novou. Pokud jste vytvořili novou trénovací sadu, před pokračováním se ujistěte, že je vybraná v rozevíracím seznamu.
  6. Vyberte Další.
  7. Zadejte název a popis dat a pak vyberte Další.
  8. Zkontrolujte podrobnosti o nahrávání a vyberte Odeslat.

Poznámka:

Duplicitní ID nejsou přijata. Promluvy se stejným ID se odeberou.

Z trénování se odeberou duplicitní názvy zvuku. Ujistěte se, že data, která vyberete, neobsahují stejné zvukové názvy v souboru .zip nebo ve více .zip souborech. Pokud jsou ID promluvy (ve zvukových nebo skriptových souborech) duplicitní, budou odmítnuty.

Datové soubory se automaticky ověří, když vyberete Odeslat. Ověření dat zahrnuje řadu kontrol zvukových souborů za účelem ověření jejich formátu, velikosti a vzorkovací frekvence. Pokud dojde k nějakým chybám, opravte je a odešlete je znovu.

Po nahrání dat můžete zkontrolovat podrobnosti v zobrazení podrobností trénovací sady. Na stránce podrobností můžete dále zkontrolovat problém výslovnosti a úroveň šumu pro každou z vašich dat. Skóre výslovnosti na úrovni věty se pohybuje od 0 do 100. Skóre nižší než 70 obvykle značí neshodu řeči nebo skriptu. Promluvy s celkovým skóre nižším než 70 budou odmítnuty. Silné zvýraznění může snížit skóre výslovnosti a ovlivnit vygenerovaný digitální hlas.

Řešení problémů s daty online

Po nahrání můžete zkontrolovat podrobnosti o datech trénovací sady. Než budete pokračovat v trénování hlasového modelu, měli byste se pokusit vyřešit všechny problémy s daty.

Problémy s daty můžete identifikovat a vyřešit v sadě Speech Studio.

  1. Na stránce podrobností přejděte na přijatou neboodmítnutou datovou stránku. Vyberte jednotlivé promluvy, které chcete změnit, a pak vyberte Upravit.

    Screenshot of selecting edit button on the accepted data or rejected data details page.

    Na základě vašich kritérií můžete zvolit, které problémy s daty se mají zobrazit.

    Screenshot of choosing which data issues to be displayed.

  2. Zobrazí se okno pro úpravy.

    Screenshot of displaying Edit transcript and recording file window.

  3. Aktualizujte soubor přepisu nebo záznamu podle popisu problému v okně pro úpravy.

    Přepis můžete upravit v textovém poli a pak vybrat Hotovo.

    Screenshot of selecting Done button on the Edit transcript and recording file window.

    Pokud potřebujete aktualizovat soubor záznamu, vyberte Aktualizovat záznamový soubor a pak nahrajte pevný záznamový soubor (.wav).

    Screenshot that shows how to upload recording file on the Edit transcript and recording file window.

  4. Po provedení změn dat je potřeba zkontrolovat kvalitu dat kliknutím na Analyzovat data před použitím této datové sady pro trénování.

    Tuto trénovací sadu pro trénovací model nemůžete vybrat před dokončením analýzy.

    Screenshot of selecting Analyze data on Data details page.

    Promluvy s problémy můžete odstranit také tak, že je vyberete a kliknete na Odstranit.

Typické problémy s daty

Tyto problémy jsou rozdělené do tří typů. Informace o odpovídajících typech chyb najdete v následujících tabulkách.

Automaticky odmítnuto

Data s těmito chybami nebudou použita pro trénování. Importovaná data s chybami budou ignorována, takže je nemusíte odstraňovat. Tyto chyby dat můžete opravit online nebo znovu nahrát opravená data pro trénování.

Kategorie Název Popis
Skript Neplatný oddělovač ID promluvy a obsah skriptu musíte oddělit znakem tabulátoru.
Skript Neplatné ID skriptu ID řádku skriptu musí být číselné.
Skript Duplikovaný skript Každý řádek obsahu skriptu musí být jedinečný. Řádek je duplikován s {}.
Skript Skript je příliš dlouhý Skript musí být kratší než 1 000 znaků.
Skript Žádný odpovídající zvuk ID každé promluvy (každý řádek souboru skriptu) musí odpovídat ID zvuku.
Skript Žádný platný skript V této datové sadě nebyl nalezen žádný platný skript. Opravte řádky skriptu, které se zobrazují v seznamu podrobných problémů.
Zvuk Žádný odpovídající skript Žádné zvukové soubory neodpovídají ID skriptu. Název souborů .wav se musí shodovat s ID v souboru skriptu.
Zvuk Neplatný formát zvuku Formát zvuku .wav souborů je neplatný. Pomocí zvukového nástroje, jako je SoX, zkontrolujte formát .wav souboru.
Zvuk Nízká vzorkovací frekvence Vzorkovací frekvence souborů .wav nemůže být nižší než 16 KHz.
Zvuk Příliš dlouhý zvuk Doba trvání zvuku je delší než 30 sekund. Rozdělte dlouhý zvuk na několik souborů. Je vhodné, aby promluvy byly kratší než 15 sekund.
Zvuk Žádný platný zvuk V této datové sadě není nalezen žádný platný zvuk. Zkontrolujte zvuková data a nahrajte je znovu.
Neshoda Výrok s nízkým skóre Skóre výslovnosti na úrovni vět je nižší než 70. Zkontrolujte skript a zvukový obsah a ujistěte se, že odpovídají.

Automaticky opraveno

Následující chyby jsou opraveny automaticky, ale měli byste zkontrolovat a ověřit, že jsou opravy provedeny správně.

Kategorie Název Popis
Neshoda Automatické pevného ticha Počáteční ticho je zjištěno, že je kratší než 100 ms a bylo rozšířeno na 100 ms automaticky. Stáhněte si normalizovanou datovou sadu a zkontrolujte ji.
Neshoda Automatické pevného ticha Koncové ticho je zjištěno, že je kratší než 100 ms a bylo rozšířeno na 100 ms automaticky. Stáhněte si normalizovanou datovou sadu a zkontrolujte ji.
Skript Automaticky normalizované texty Text se automaticky normalizuje pro číslice, symboly a zkratky. Zkontrolujte skript a zvuk a ujistěte se, že odpovídají.

Vyžaduje se ruční kontrola

Nevyřešené chyby uvedené v další tabulce ovlivňují kvalitu trénování, ale během trénování nebudou vyloučena data s těmito chybami. Pro vyšší kvalitu trénování je vhodné tyto chyby opravit ručně.

Kategorie Název Popis
Skript Nenormalizovaný text Tento skript obsahuje symboly. Normalizuje symboly tak, aby odpovídaly zvuku. Můžete například normalizovat /lomítko.
Skript Nedostatek otázek promluv Alespoň 10 procent z celkového počtu promluv by mělo být věty otázek. To pomáhá hlasovým modelům správně vyjádřit dotazovací tón.
Skript Nedostatek vykřičníků promluv Alespoň 10 procent z celkového počtu promluv by mělo být vykřičník. Díky tomu hlasový model správně vyjadřuje nadšený tón.
Skript Žádná platná interpunkce Na konec řádku přidejte jednu z následujících položek: úplnou zarážku (poloviční šířku "." nebo plnou šířku '。 ), vykřičník (poloviční šířka '!' nebo plná šířka '!' ) nebo otazník ( poloviční šířka '?' nebo plná šířka '?').
Zvuk Nízká vzorkovací frekvence neurálního hlasu Doporučuje se, aby vzorkovací frekvence vašich .wav souborů měla být 24 KHz nebo vyšší pro vytváření neurálních hlasů. Pokud je nižší, automaticky se zvýší na 24 KHz.
Objem Celkový objem je příliš nízký. Objem by neměl být nižší než -18 dB (10 procent maximálního objemu). Při přípravě vzorku nebo přípravy dat můžete řídit úroveň průměru hlasitosti ve správném rozsahu.
Objem Přetečení svazku Objem přetečení se zjistí na s {}. Upravte nahrávací zařízení tak, aby se zabránilo přetečení hlasitosti ve špičce.
Objem Zahájit problém s tichou Prvních 100 ms ticha není čisté. Snižte úroveň hluku záznamu a nechte prvních 100 ms na začátku tiché.
Objem Ukončit problém s tichou Posledních 100 ms ticha není čisté. Snižte úroveň hluku záznamu a nechte posledních 100 ms na konci tiché.
Neshoda Slabá slova s nízkým skóre Zkontrolujte skript a zvukový obsah, abyste měli jistotu, že odpovídají, a nastavte úroveň hluku. Zmenšete délku dlouhého ticha nebo rozdělte zvuk na několik promluv, pokud je příliš dlouhý.
Neshoda Zahájit problém s tichou Před prvním slovem bylo slyšet další zvuk. Zkontrolujte skript a zvukový obsah, abyste měli jistotu, že odpovídají, řídí úroveň hluku a ztište prvních 100 ms.
Neshoda Ukončit problém s tichou Po posledním slově bylo slyšet další zvuk. Zkontrolujte skript a zvukový obsah, abyste měli jistotu, že odpovídají, řídí úroveň hluku a ztiší posledních 100 ms.
Neshoda Nízký poměr šumu signálu Úroveň SNR zvuku je nižší než 20 dB. Doporučuje se alespoň 35 dB.
Neshoda Není k dispozici žádné skóre. Nepovedlo se rozpoznat obsah řeči v tomto zvuku. Zkontrolujte zvuk a obsah skriptu a ujistěte se, že je zvuk platný a odpovídá skriptu.

Další kroky

K vytvoření profesionálního hlasu potřebujete trénovací datovou sadu. Trénovací datová sada obsahuje zvukové soubory a soubory skriptů. Zvukové soubory jsou nahrávky hlasového talentu čtení skriptových souborů. Soubory skriptu jsou textem zvukových souborů.

V tomto článku vytvoříte trénovací sadu a získáte JEJÍ ID prostředku. Potom pomocí ID prostředku můžete nahrát sadu zvukových souborů a souborů skriptů.

Vytvoření trénovací sady

K vytvoření trénovací sady použijte TrainingSets_Create operaci vlastního hlasového rozhraní API. Sestavte tělo požadavku podle následujících pokynů:

  • Nastavte požadovanou projectId vlastnost. Viz vytvoření projektu.
  • Nastavte požadovanou voiceKind vlastnost na Male hodnotu nebo Female. Druh nelze později změnit.
  • Nastavte požadovanou locale vlastnost. Toto by mělo být národní prostředí dat trénovací sady. Národní prostředí trénovací sady by mělo být stejné jako národní prostředí prohlášení o souhlasu. Národní prostředí nelze později změnit. Text na seznam národních prostředí řeči najdete tady.
  • Volitelně můžete nastavit description vlastnost popisu trénovací sady. Popis trénovací sady lze později změnit.

Vytvořte požadavek HTTP PUT pomocí identifikátoru URI, jak je znázorněno v následujícím příkladu TrainingSets_Create.

  • Nahraďte YourResourceKey klíčem prostředku služby Speech.
  • Nahraďte YourResourceRegion oblastí prostředků služby Speech.
  • Nahraďte JessicaTrainingSetId ID trénovací sady podle vašeho výběru. V identifikátoru URI trénovací sady se použije citlivé ID malých a malých písmen a později ho nejde změnit.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "description": "300 sentences Jessica data in general style.",
  "projectId": "ProjectId",
  "locale": "en-US",
  "voiceKind": "Female"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/trainingsets/JessicaTrainingSetId?api-version=2023-12-01-preview"

Měl by se zobrazit text odpovědi v následujícím formátu:

{
  "id": "JessicaTrainingSetId",
  "description": "300 sentences Jessica data in general style.",
  "projectId": "ProjectId",
  "locale": "en-US",
  "voiceKind": "Female",
  "status": "Succeeded",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Nahrání dat trénovací sady

K nahrání trénovací sady zvuků a skriptů použijte TrainingSets_UploadData operaci vlastního hlasového rozhraní API.

Před voláním tohoto rozhraní API uložte soubory záznamů a skriptů do azure Blob. V následujícím příkladu jsou https://contoso.blob.core.windows.net/voicecontainer/jessica300/soubory záznamů *.wav, soubory skriptu jsou https://contoso.blob.core.windows.net/voicecontainer/jessica300/*.txt.

Sestavte tělo požadavku podle následujících pokynů:

  • Nastavte požadovanou kind vlastnost na AudioAndScripthodnotu . Druh určuje typ trénovací sady.
  • Nastavte požadovanou audios vlastnost. V rámci audios vlastnosti nastavte následující vlastnosti:
    • Nastavte požadovanou containerUrl vlastnost na adresu URL kontejneru Azure Blob Storage, který obsahuje zvukové soubory. Pro kontejner s oprávněními ke čtení i seznamu použijte sdílené přístupové podpisy (SAS).
    • Nastavte požadovanou extensions vlastnost na rozšíření zvukových souborů.
    • Volitelně můžete nastavit vlastnost tak, prefix aby nastavil předponu názvu objektu blob.
  • Nastavte požadovanou scripts vlastnost. V rámci scripts vlastnosti nastavte následující vlastnosti:
    • Nastavte požadovanou containerUrl vlastnost na adresu URL kontejneru Azure Blob Storage, který obsahuje soubory skriptu. Pro kontejner s oprávněními ke čtení i seznamu použijte sdílené přístupové podpisy (SAS).
    • Nastavte požadovanou extensions vlastnost na přípony souborů skriptu.
    • Volitelně můžete nastavit vlastnost tak, prefix aby nastavil předponu názvu objektu blob.

Vytvořte požadavek HTTP POST pomocí identifikátoru URI, jak je znázorněno v následujícím příkladu TrainingSets_UploadData.

  • Nahraďte YourResourceKey klíčem prostředku služby Speech.
  • Nahraďte YourResourceRegion oblastí prostředků služby Speech.
  • Nahraďte JessicaTrainingSetId , pokud jste v předchozím kroku zadali jiné ID trénovací sady.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "kind": "AudioAndScript",
  "audios": {
    "containerUrl": "https://contoso.blob.core.windows.net/voicecontainer?mySasToken",
    "prefix": "jessica300/",
    "extensions": [
      ".wav"
    ]
  },
  "scripts": {
    "containerUrl": "https://contoso.blob.core.windows.net/voicecontainer?mySasToken",
    "prefix": "jessica300/",
    "extensions": [
      ".txt"
    ]
  }
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/trainingsets/JessicaTrainingSetId:upload?api-version=2023-12-01-preview"

Hlavička odpovědi obsahuje Operation-Location vlastnost. Pomocí tohoto identifikátoru URI získáte podrobnosti o operaci TrainingSets_UploadData . Tady je příklad hlavičky odpovědi:

Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/284b7e37-f42d-4054-8fa9-08523c3de345?api-version=2023-12-01-preview
Operation-Id: 284b7e37-f42d-4054-8fa9-08523c3de345

Další kroky