Přidání datové sady pro profesionální hlasové trénování

Článek
02/07/2024

Až budete připraveni vytvořit vlastní text pro hlasový hlas pro vaši aplikaci, je prvním krokem shromáždění zvukových nahrávek a přidružených skriptů pro zahájení trénování hlasového modelu. Podrobnosti o nahrávání hlasových ukázek najdete v tomto kurzu. Služba Speech používá tato data k vytvoření jedinečného hlasu vyladěného tak, aby odpovídala hlasu v záznamech. Po natrénování hlasu můžete v aplikacích začít syntetizovat řeč.

Všechna data, která nahrajete, musí splňovat požadavky na datový typ, který zvolíte. Před nahráním je důležité správně naformátovat data, což zajistí, že služba Speech bude data přesně zpracovávat. Informace o správném formátování dat najdete v tématu Trénování datových typů.

Poznámka:

Uživatelé s předplatným Standard (S0) můžou současně nahrát pět datových souborů. Pokud dosáhnete limitu, počkejte na dokončení importu alespoň jednoho z datových souborů. Opakujte.
Maximální počet datových souborů, které je možné importovat na jedno předplatné, je 500 .zip souborů pro uživatele se standardním předplatným (S0). Další podrobnosti najdete v kvótách a omezeních služby Speech.

Nahrání dat

Až budete připraveni nahrát data, přejděte na kartu Příprava trénovacích dat a přidejte první trénovací sadu a nahrajte data. Trénovací sada je sada zvukových promluv a jejich mapovacích skriptů používaných pro trénování hlasového modelu. Trénovací sadu můžete použít k uspořádání trénovacích dat. Služba kontroluje připravenost dat na každou trénovací sadu. Do trénovací sady můžete importovat více dat.

Pokud chcete nahrát trénovací data, postupujte takto:

Přihlaste se k sadě Speech Studio.
Vyberte Vlastní hlas>> Název projektu Příprava trénovacích dat Nahrání dat.>
V Průvodci nahráním dat zvolte datový typ a pak vyberte Další.
Vyberte místní soubory z počítače nebo zadejte adresu URL úložiště objektů blob v Azure a nahrajte data.
V části Zadat cílovou trénovací sadu vyberte existující trénovací sadu nebo vytvořte novou. Pokud jste vytvořili novou trénovací sadu, před pokračováním se ujistěte, že je vybraná v rozevíracím seznamu.
Vyberte Další.
Zadejte název a popis dat a pak vyberte Další.
Zkontrolujte podrobnosti o nahrávání a vyberte Odeslat.

Poznámka:

Duplicitní ID nejsou přijata. Promluvy se stejným ID se odeberou.

Z trénování se odeberou duplicitní názvy zvuku. Ujistěte se, že data, která vyberete, neobsahují stejné zvukové názvy v souboru .zip nebo ve více .zip souborech. Pokud jsou ID promluvy (ve zvukových nebo skriptových souborech) duplicitní, budou odmítnuty.

Datové soubory se automaticky ověří, když vyberete Odeslat. Ověření dat zahrnuje řadu kontrol zvukových souborů za účelem ověření jejich formátu, velikosti a vzorkovací frekvence. Pokud dojde k nějakým chybám, opravte je a odešlete je znovu.

Po nahrání dat můžete zkontrolovat podrobnosti v zobrazení podrobností trénovací sady. Na stránce podrobností můžete dále zkontrolovat problém výslovnosti a úroveň šumu pro každou z vašich dat. Skóre výslovnosti na úrovni věty se pohybuje od 0 do 100. Skóre nižší než 70 obvykle značí neshodu řeči nebo skriptu. Promluvy s celkovým skóre nižším než 70 budou odmítnuty. Silné zvýraznění může snížit skóre výslovnosti a ovlivnit vygenerovaný digitální hlas.

Řešení problémů s daty online

Po nahrání můžete zkontrolovat podrobnosti o datech trénovací sady. Než budete pokračovat v trénování hlasového modelu, měli byste se pokusit vyřešit všechny problémy s daty.

Problémy s daty můžete identifikovat a vyřešit v sadě Speech Studio.

Na stránce podrobností přejděte na přijatou neboodmítnutou datovou stránku. Vyberte jednotlivé promluvy, které chcete změnit, a pak vyberte Upravit.

Na základě vašich kritérií můžete zvolit, které problémy s daty se mají zobrazit.
Zobrazí se okno pro úpravy.
Aktualizujte soubor přepisu nebo záznamu podle popisu problému v okně pro úpravy.

Přepis můžete upravit v textovém poli a pak vybrat Hotovo.

Pokud potřebujete aktualizovat soubor záznamu, vyberte Aktualizovat záznamový soubor a pak nahrajte pevný záznamový soubor (.wav).
Po provedení změn dat je potřeba zkontrolovat kvalitu dat kliknutím na Analyzovat data před použitím této datové sady pro trénování.

Tuto trénovací sadu pro trénovací model nemůžete vybrat před dokončením analýzy.

Promluvy s problémy můžete odstranit také tak, že je vyberete a kliknete na Odstranit.

Typické problémy s daty

Tyto problémy jsou rozdělené do tří typů. Informace o odpovídajících typech chyb najdete v následujících tabulkách.

Automaticky odmítnuto

Data s těmito chybami nebudou použita pro trénování. Importovaná data s chybami budou ignorována, takže je nemusíte odstraňovat. Tyto chyby dat můžete opravit online nebo znovu nahrát opravená data pro trénování.

Kategorie	Název	Popis
Skript	Neplatný oddělovač	ID promluvy a obsah skriptu musíte oddělit znakem tabulátoru.
Skript	Neplatné ID skriptu	ID řádku skriptu musí být číselné.
Skript	Duplikovaný skript	Každý řádek obsahu skriptu musí být jedinečný. Řádek je duplikován s {}.
Skript	Skript je příliš dlouhý	Skript musí být kratší než 1 000 znaků.
Skript	Žádný odpovídající zvuk	ID každé promluvy (každý řádek souboru skriptu) musí odpovídat ID zvuku.
Skript	Žádný platný skript	V této datové sadě nebyl nalezen žádný platný skript. Opravte řádky skriptu, které se zobrazují v seznamu podrobných problémů.
Zvuk	Žádný odpovídající skript	Žádné zvukové soubory neodpovídají ID skriptu. Název souborů .wav se musí shodovat s ID v souboru skriptu.
Zvuk	Neplatný formát zvuku	Formát zvuku .wav souborů je neplatný. Pomocí zvukového nástroje, jako je SoX, zkontrolujte formát .wav souboru.
Zvuk	Nízká vzorkovací frekvence	Vzorkovací frekvence souborů .wav nemůže být nižší než 16 KHz.
Zvuk	Příliš dlouhý zvuk	Doba trvání zvuku je delší než 30 sekund. Rozdělte dlouhý zvuk na několik souborů. Je vhodné, aby promluvy byly kratší než 15 sekund.
Zvuk	Žádný platný zvuk	V této datové sadě není nalezen žádný platný zvuk. Zkontrolujte zvuková data a nahrajte je znovu.
Neshoda	Výrok s nízkým skóre	Skóre výslovnosti na úrovni vět je nižší než 70. Zkontrolujte skript a zvukový obsah a ujistěte se, že odpovídají.

Automaticky opraveno

Následující chyby jsou opraveny automaticky, ale měli byste zkontrolovat a ověřit, že jsou opravy provedeny správně.

Kategorie	Název	Popis
Neshoda	Automatické pevného ticha	Počáteční ticho je zjištěno, že je kratší než 100 ms a bylo rozšířeno na 100 ms automaticky. Stáhněte si normalizovanou datovou sadu a zkontrolujte ji.
Neshoda	Automatické pevného ticha	Koncové ticho je zjištěno, že je kratší než 100 ms a bylo rozšířeno na 100 ms automaticky. Stáhněte si normalizovanou datovou sadu a zkontrolujte ji.
Skript	Automaticky normalizované texty	Text se automaticky normalizuje pro číslice, symboly a zkratky. Zkontrolujte skript a zvuk a ujistěte se, že odpovídají.

Vyžaduje se ruční kontrola

Nevyřešené chyby uvedené v další tabulce ovlivňují kvalitu trénování, ale během trénování nebudou vyloučena data s těmito chybami. Pro vyšší kvalitu trénování je vhodné tyto chyby opravit ručně.

Kategorie	Název	Popis
Skript	Nenormalizovaný text	Tento skript obsahuje symboly. Normalizuje symboly tak, aby odpovídaly zvuku. Můžete například normalizovat /lomítko.
Skript	Nedostatek otázek promluv	Alespoň 10 procent z celkového počtu promluv by mělo být věty otázek. To pomáhá hlasovým modelům správně vyjádřit dotazovací tón.
Skript	Nedostatek vykřičníků promluv	Alespoň 10 procent z celkového počtu promluv by mělo být vykřičník. Díky tomu hlasový model správně vyjadřuje nadšený tón.
Skript	Žádná platná interpunkce	Na konec řádku přidejte jednu z následujících položek: úplnou zarážku (poloviční šířku "." nebo plnou šířku '。 ), vykřičník (poloviční šířka '!' nebo plná šířka '!' ) nebo otazník ( poloviční šířka '?' nebo plná šířka '?').
Zvuk	Nízká vzorkovací frekvence neurálního hlasu	Doporučuje se, aby vzorkovací frekvence vašich .wav souborů měla být 24 KHz nebo vyšší pro vytváření neurálních hlasů. Pokud je nižší, automaticky se zvýší na 24 KHz.
Objem	Celkový objem je příliš nízký.	Objem by neměl být nižší než -18 dB (10 procent maximálního objemu). Při přípravě vzorku nebo přípravy dat můžete řídit úroveň průměru hlasitosti ve správném rozsahu.
Objem	Přetečení svazku	Objem přetečení se zjistí na s {}. Upravte nahrávací zařízení tak, aby se zabránilo přetečení hlasitosti ve špičce.
Objem	Zahájit problém s tichou	Prvních 100 ms ticha není čisté. Snižte úroveň hluku záznamu a nechte prvních 100 ms na začátku tiché.
Objem	Ukončit problém s tichou	Posledních 100 ms ticha není čisté. Snižte úroveň hluku záznamu a nechte posledních 100 ms na konci tiché.
Neshoda	Slabá slova s nízkým skóre	Zkontrolujte skript a zvukový obsah, abyste měli jistotu, že odpovídají, a nastavte úroveň hluku. Zmenšete délku dlouhého ticha nebo rozdělte zvuk na několik promluv, pokud je příliš dlouhý.
Neshoda	Zahájit problém s tichou	Před prvním slovem bylo slyšet další zvuk. Zkontrolujte skript a zvukový obsah, abyste měli jistotu, že odpovídají, řídí úroveň hluku a ztište prvních 100 ms.
Neshoda	Ukončit problém s tichou	Po posledním slově bylo slyšet další zvuk. Zkontrolujte skript a zvukový obsah, abyste měli jistotu, že odpovídají, řídí úroveň hluku a ztiší posledních 100 ms.
Neshoda	Nízký poměr šumu signálu	Úroveň SNR zvuku je nižší než 20 dB. Doporučuje se alespoň 35 dB.
Neshoda	Není k dispozici žádné skóre.	Nepovedlo se rozpoznat obsah řeči v tomto zvuku. Zkontrolujte zvuk a obsah skriptu a ujistěte se, že je zvuk platný a odpovídá skriptu.

Další kroky

Trénujte profesionální hlas

K vytvoření profesionálního hlasu potřebujete trénovací datovou sadu. Trénovací datová sada obsahuje zvukové soubory a soubory skriptů. Zvukové soubory jsou nahrávky hlasového talentu čtení skriptových souborů. Soubory skriptu jsou textem zvukových souborů.

V tomto článku vytvoříte trénovací sadu a získáte JEJÍ ID prostředku. Potom pomocí ID prostředku můžete nahrát sadu zvukových souborů a souborů skriptů.

Vytvoření trénovací sady

K vytvoření trénovací sady použijte TrainingSets_Create operaci vlastního hlasového rozhraní API. Sestavte tělo požadavku podle následujících pokynů:

Nastavte požadovanou projectId vlastnost. Viz vytvoření projektu.
Nastavte požadovanou voiceKind vlastnost na Male hodnotu nebo Female. Druh nelze později změnit.
Nastavte požadovanou locale vlastnost. Toto by mělo být národní prostředí dat trénovací sady. Národní prostředí trénovací sady by mělo být stejné jako národní prostředí prohlášení o souhlasu. Národní prostředí nelze později změnit. Text na seznam národních prostředí řeči najdete tady.
Volitelně můžete nastavit description vlastnost popisu trénovací sady. Popis trénovací sady lze později změnit.

Vytvořte požadavek HTTP PUT pomocí identifikátoru URI, jak je znázorněno v následujícím příkladu TrainingSets_Create.

Nahraďte YourResourceKey klíčem prostředku služby Speech.
Nahraďte YourResourceRegion oblastí prostředků služby Speech.
Nahraďte JessicaTrainingSetId ID trénovací sady podle vašeho výběru. V identifikátoru URI trénovací sady se použije citlivé ID malých a malých písmen a později ho nejde změnit.

curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "description": "300 sentences Jessica data in general style.",
  "projectId": "ProjectId",
  "locale": "en-US",
  "voiceKind": "Female"
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/trainingsets/JessicaTrainingSetId?api-version=2023-12-01-preview"

Měl by se zobrazit text odpovědi v následujícím formátu:

{
  "id": "JessicaTrainingSetId",
  "description": "300 sentences Jessica data in general style.",
  "projectId": "ProjectId",
  "locale": "en-US",
  "voiceKind": "Female",
  "status": "Succeeded",
  "createdDateTime": "2023-04-01T05:30:00.000Z",
  "lastActionDateTime": "2023-04-02T10:15:30.000Z"
}

Nahrání dat trénovací sady

K nahrání trénovací sady zvuků a skriptů použijte TrainingSets_UploadData operaci vlastního hlasového rozhraní API.

Před voláním tohoto rozhraní API uložte soubory záznamů a skriptů do azure Blob. V následujícím příkladu jsou https://contoso.blob.core.windows.net/voicecontainer/jessica300/soubory záznamů *.wav, soubory skriptu jsou https://contoso.blob.core.windows.net/voicecontainer/jessica300/*.txt.

Sestavte tělo požadavku podle následujících pokynů:

Nastavte požadovanou kind vlastnost na AudioAndScripthodnotu . Druh určuje typ trénovací sady.
Nastavte požadovanou audios vlastnost. V rámci audios vlastnosti nastavte následující vlastnosti:
- Nastavte požadovanou containerUrl vlastnost na adresu URL kontejneru Azure Blob Storage, který obsahuje zvukové soubory. Pro kontejner s oprávněními ke čtení i seznamu použijte sdílené přístupové podpisy (SAS).
- Nastavte požadovanou extensions vlastnost na rozšíření zvukových souborů.
- Volitelně můžete nastavit vlastnost tak, prefix aby nastavil předponu názvu objektu blob.
Nastavte požadovanou scripts vlastnost. V rámci scripts vlastnosti nastavte následující vlastnosti:
- Nastavte požadovanou containerUrl vlastnost na adresu URL kontejneru Azure Blob Storage, který obsahuje soubory skriptu. Pro kontejner s oprávněními ke čtení i seznamu použijte sdílené přístupové podpisy (SAS).
- Nastavte požadovanou extensions vlastnost na přípony souborů skriptu.
- Volitelně můžete nastavit vlastnost tak, prefix aby nastavil předponu názvu objektu blob.

Vytvořte požadavek HTTP POST pomocí identifikátoru URI, jak je znázorněno v následujícím příkladu TrainingSets_UploadData.

Nahraďte YourResourceKey klíčem prostředku služby Speech.
Nahraďte YourResourceRegion oblastí prostředků služby Speech.
Nahraďte JessicaTrainingSetId , pokud jste v předchozím kroku zadali jiné ID trénovací sady.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
  "kind": "AudioAndScript",
  "audios": {
    "containerUrl": "https://contoso.blob.core.windows.net/voicecontainer?mySasToken",
    "prefix": "jessica300/",
    "extensions": [
      ".wav"
    ]
  },
  "scripts": {
    "containerUrl": "https://contoso.blob.core.windows.net/voicecontainer?mySasToken",
    "prefix": "jessica300/",
    "extensions": [
      ".txt"
    ]
  }
} '  "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/trainingsets/JessicaTrainingSetId:upload?api-version=2023-12-01-preview"

Hlavička odpovědi obsahuje Operation-Location vlastnost. Pomocí tohoto identifikátoru URI získáte podrobnosti o operaci TrainingSets_UploadData . Tady je příklad hlavičky odpovědi:

Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/284b7e37-f42d-4054-8fa9-08523c3de345?api-version=2023-12-01-preview
Operation-Id: 284b7e37-f42d-4054-8fa9-08523c3de345

Další kroky

Trénujte profesionální hlas

Přidání datové sady pro profesionální hlasové trénování

Nahrání dat

Řešení problémů s daty online

Typické problémy s daty

Další kroky

Vytvoření trénovací sady

Nahrání dat trénovací sady

Další kroky

Další materiály