Nahrání trénovacích a testovacích datových sad pro vlastní řeč

Článek
04/15/2024

K testování přesnosti rozpoznávání řeči nebo trénování vlastních modelů potřebujete zvuková nebo textová data. Informace o datových typech podporovaných pro testování nebo trénování modelu najdete v tématu trénování a testování datových sad.

Tip

Pomocí online editoru přepisu můžete také vytvářet a upřesňovat zvukové datové sady s popisky.

Nahrání datových sad

Pokud chcete nahrát vlastní datové sady v sadě Speech Studio, postupujte takto:

Přihlaste se k sadě Speech Studio.
Vyberte Custom speech> Your project name >Speech datasets>Upload data.
Vyberte kartu Trénovací data nebo Testovací data.
Vyberte typ datové sady a pak vyberte Další.
Zadejte umístění datové sady a pak vyberte Další. Můžete zvolit místní soubor nebo zadat vzdálené umístění, jako je adresa URL objektu blob Azure. Pokud vyberete vzdálené umístění a nepoužíváte důvěryhodný mechanismus zabezpečení služeb Azure, pak by vzdálené umístění mělo být adresa URL, která se dá načíst pomocí jednoduchého anonymního požadavku GET. Například adresa URL SAS nebo veřejně přístupná adresa URL. Adresy URL, které vyžadují dodatečnou autorizaci, nebo očekávají, že interakce uživatelů se nepodporuje.

Poznámka:

Pokud používáte adresu URL objektu blob Azure, můžete zajistit maximální zabezpečení souborů datové sady pomocí důvěryhodného mechanismu zabezpečení služeb Azure. Použijete stejné techniky jako pro přepis služby Batch a adresy URL prostého účtu úložiště pro soubory datové sady. Další podrobnosti najdete tady.
Zadejte název a popis datové sady a pak vyberte Další.
Zkontrolujte nastavení a pak vyberte Uložit a zavřít.

Po nahrání datové sady přejděte na stránku Trénovat vlastní modely a natrénujte vlastní model.

S rozhraním SPEECH CLI a rozhraním REST API pro převod řeči na text se na rozdíl od sady Speech Studio nevybírejte, jestli je datová sada určená k testování nebo trénování v době nahrávání. Určíte, jak se datová sada používá při trénování modelu nebo spuštění testu.

I když neuvádíte, jestli je datová sada určená k testování nebo trénování, musíte zadat typ datové sady. Typ datové sady se používá k určení typu datové sady, která se vytvoří. V některých případech se typ datové sady používá jenom k testování nebo trénování, ale neměli byste na tom mít závislost. Hodnoty rozhraní speech CLI a rozhraní REST API kind odpovídají možnostem v sadě Speech Studio, jak je popsáno v následující tabulce:

Typ rozhraní příkazového řádku a rozhraní API	Možnosti sady Speech Studio
Akustické	Trénovací data: Audio + přepis označený člověkem Testování dat: Přepis (automatická syntéza zvuku) Testování dat: Audio + přepis označený člověkem
Zvukové soubory	Testování dat: Zvuk
Jazyk	Trénovací data: Prostý text
LanguageMarkdown	Trénovací data: Strukturovaný text ve formátu Markdownu
Výslovnost	Trénovací data: Výslovnost
OutputFormatting	Trénovací data: Výstupní formát

Poznámka:

Strukturované texty ve formátu markdownu trénovací datové sady nejsou podporovány verzí 3.0 rozhraní REST API pro převod řeči na text. Speech musíte použít k textovému rozhraní REST API verze 3.1. Další informace najdete v tématu Migrace kódu z verze 3.0 do verze 3.1 rozhraní REST API.

Pokud chcete vytvořit datovou sadu a připojit ji k existujícímu projektu, použijte spx csr dataset create příkaz. Parametry požadavku se sestaví podle následujících pokynů:

project Nastavte parametr na ID existujícího projektu. Tento parametr se doporučuje, abyste mohli také zobrazit a spravovat datovou sadu v sadě Speech Studio. Spuštěním spx csr project list příkazu můžete získat dostupné projekty.
Nastavte požadovaný kind parametr. Možná sada hodnot pro druh datové sady: Language, Acoustic, Výslovnost a AudioFiles.
Nastavte požadovaný contentUrl parametr. Tento parametr je umístění datové sady. Pokud nepoužíváte důvěryhodný mechanismus zabezpečení služeb Azure (viz další poznámka), contentUrl měl by být parametr adresou URL, která se dá načíst pomocí jednoduchého anonymního požadavku GET. Například adresa URL SAS nebo veřejně přístupná adresa URL. Adresy URL, které vyžadují dodatečnou autorizaci, nebo očekávají, že interakce uživatelů se nepodporuje.

Poznámka:

Pokud používáte adresu URL objektu blob Azure, můžete zajistit maximální zabezpečení souborů datové sady pomocí důvěryhodného mechanismu zabezpečení služeb Azure. Použijete stejné techniky jako pro přepis služby Batch a adresy URL prostého účtu úložiště pro soubory datové sady. Další podrobnosti najdete tady.
Nastavte požadovaný language parametr. Národní prostředí datové sady musí odpovídat národnímu prostředí projektu. Národní prostředí nelze později změnit. Parametr Rozhraní příkazového locale řádku language služby Speech odpovídá vlastnosti v požadavku JSON a odpovědi.
Nastavte požadovaný name parametr. Tento parametr je název zobrazený v sadě Speech Studio. Parametr Rozhraní příkazového displayName řádku name služby Speech odpovídá vlastnosti v požadavku JSON a odpovědi.

Tady je ukázkový příkaz Rozhraní příkazového řádku služby Speech, který vytvoří datovou sadu a připojí ji k existujícímu projektu:

spx csr dataset create --api-version v3.1 --kind "Acoustic" --name "My Acoustic Dataset" --description "My Acoustic Dataset Description" --project YourProjectId --content YourContentUrl --language "en-US"

Měl by se zobrazit text odpovědi v následujícím formátu:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c",
  "kind": "Acoustic",
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/70ccbffc-cafb-4301-aa9f-ef658559d96e"
  },
  "properties": {
    "acceptedLineCount": 0,
    "rejectedLineCount": 0
  },
  "lastActionDateTime": "2022-05-20T14:07:11Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-20T14:07:11Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description"
}

Vlastnost nejvyšší úrovně self v textu odpovědi je identifikátor URI datové sady. Pomocí tohoto identifikátoru URI získáte podrobnosti o projektu a souborech datové sady. Tento identifikátor URI slouží také k aktualizaci nebo odstranění datové sady.

V případě nápovědy k rozhraní příkazového řádku služby Speech s datovými sadami spusťte následující příkaz:

spx help csr dataset

Typ rozhraní příkazového řádku a rozhraní API	Možnosti sady Speech Studio
Akustické	Trénovací data: Audio + přepis označený člověkem Testování dat: Přepis (automatická syntéza zvuku) Testování dat: Audio + přepis označený člověkem
Zvukové soubory	Testování dat: Zvuk
Jazyk	Trénovací data: Prostý text
LanguageMarkdown	Trénovací data: Strukturovaný text ve formátu Markdownu
Výslovnost	Trénovací data: Výslovnost
OutputFormatting	Trénovací data: Výstupní formát

Poznámka:

Pokud chcete vytvořit datovou sadu a připojit ji k existujícímu projektu, použijte Datasets_Create operaci rozhraní REST API pro převod řeči na text. Sestavte tělo požadavku podle následujících pokynů:

project Nastavte vlastnost na identifikátor URI existujícího projektu. Tato vlastnost se doporučuje, abyste mohli také zobrazit a spravovat datovou sadu v sadě Speech Studio. Můžete vytvořit Projects_List žádost o získání dostupných projektů.
Nastavte požadovanou kind vlastnost. Možná sada hodnot pro druh datové sady: Language, Acoustic, Výslovnost a AudioFiles.
Nastavte požadovanou contentUrl vlastnost. Tato vlastnost je umístění datové sady. Pokud nepoužíváte důvěryhodný mechanismus zabezpečení služeb Azure (viz další poznámka), contentUrl měl by být parametr adresou URL, která se dá načíst pomocí jednoduchého anonymního požadavku GET. Například adresa URL SAS nebo veřejně přístupná adresa URL. Adresy URL, které vyžadují dodatečnou autorizaci, nebo očekávají, že interakce uživatelů se nepodporuje.

Poznámka:

Pokud používáte adresu URL objektu blob Azure, můžete zajistit maximální zabezpečení souborů datové sady pomocí důvěryhodného mechanismu zabezpečení služeb Azure. Použijete stejné techniky jako pro přepis služby Batch a adresy URL prostého účtu úložiště pro soubory datové sady. Další podrobnosti najdete tady.
Nastavte požadovanou locale vlastnost. Národní prostředí datové sady musí odpovídat národnímu prostředí projektu. Národní prostředí nelze později změnit.
Nastavte požadovanou displayName vlastnost. Tato vlastnost je název zobrazený v sadě Speech Studio.

Vytvořte požadavek HTTP POST pomocí identifikátoru URI, jak je znázorněno v následujícím příkladu. Nahraďte YourSubscriptionKey klíčem prostředku služby Speech, nahraďte YourServiceRegion oblastí prostředků služby Speech a nastavte vlastnosti textu požadavku, jak jsme popsali dříve.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "kind": "Acoustic",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description",
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/70ccbffc-cafb-4301-aa9f-ef658559d96e"
  },
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "locale": "en-US",
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.1/datasets"

Měl by se zobrazit text odpovědi v následujícím formátu:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c",
  "kind": "Acoustic",
  "contentUrl": "https://contoso.com/mydatasetlocation",
  "links": {
    "files": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/datasets/e0ea620b-e8c3-4a26-acb2-95fd0cbc625c/files"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.1/projects/70ccbffc-cafb-4301-aa9f-ef658559d96e"
  },
  "properties": {
    "acceptedLineCount": 0,
    "rejectedLineCount": 0
  },
  "lastActionDateTime": "2022-05-20T14:07:11Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-20T14:07:11Z",
  "locale": "en-US",
  "displayName": "My Acoustic Dataset",
  "description": "My Acoustic Dataset Description"
}

Vlastnost nejvyšší úrovně self v textu odpovědi je identifikátor URI datové sady. Pomocí tohoto identifikátoru URI získáte podrobnosti o projektu a souborech datové sady. Tento identifikátor URI také použijete k aktualizaci nebo odstranění datové sady.

Důležité

Připojení datovou sadu do vlastního projektu řeči není potřeba k trénování a testování vlastního modelu pomocí rozhraní REST API nebo rozhraní příkazového řádku služby Speech. Pokud ale datová sada není připojená k žádnému projektu, nemůžete ji vybrat pro trénování nebo testování v sadě Speech Studio.

Nahrání trénovacích a testovacích datových sad pro vlastní řeč

Nahrání datových sad

Další kroky

Další materiály