Melatih model Ucapan Kustom

Dalam artikel ini, Anda akan mempelajari cara melatih model untuk meningkatkan akurasi pengenalan dari model dasar Microsoft. Akurasi dan kualitas pengenalan suara model Azure Cognitive Service untuk Ucapan Kustom akan tetap konsisten, bahkan saat model dasar baru dirilis.

Melatih model biasanya menjadi proses berulang. Anda akan terlebih dahulu memilih model dasar yang merupakan langkah awal untuk model baru. Anda melatih model dengan himpunan data yang dapat menyertakan teks dan audio, lalu Anda mengujinya. Jika kualitas atau akurasi pengenalan tidak memenuhi persyaratan, Anda dapat membuat model baru dengan data pelatihan tambahan atau yang dimodifikasi, lalu uji lagi.

Anda dapat menggunakan model kustom untuk waktu yang terbatas setelah dilatih. Namun, kami sarankan agar secara berkala Anda membuat ulang dan mengadaptasikan model kustom Anda dengan model dasar terbaru guna memanfaatkan peningkatan akurasi dan kualitas. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.

Catatan

Anda membayar untuk menggunakan model Ucapan Kustom, tetapi Anda tidak dikenakan biaya untuk melatih model.

Jika Anda berencana untuk melatih model kustom dengan data audio, gunakan sumber daya Ucapan dalam wilayah dengan perangkat keras khusus untuk pelatihan. Setelah model dilatih, Anda dapat menyalinnya ke sumber daya Ucapan di wilayah lain sesuai kebutuhan.

Buat model

Setelah Anda mengunggahhimpunan data pelatihan, ikuti instruksi ini untuk mulai melatih model Anda:

  1. Masuk ke Speech Studio.

  2. Pilih Ucapan Kustom> Nama proyek Anda >Latih model kustom.

  3. Pilih Latih model barul.

  4. Di halaman Pilih model garis besar, pilih model dasar, dan kemudian pilih Berikutnya. Jika Anda tidak yakin, pilih model terbaru dari bagian atas daftar. Nama model dasar sesuai dengan tanggal saat dirilis dalam format YYYYMMDD. Kemampuan penyesuaian model dasar tercantum dalam tanda kurung setelah nama model di Speech Studio.

    Penting

    Catat tanggal Kedaluwarsa untuk adaptasi. Ini merupakan tanggal terakhir Anda dapat menggunakan model dasar untuk pelatihan. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.

  5. Di halaman Pilih data, pilih satu atau lebih himpunan data yang ingin Anda gunakan untuk pelatihan. Jika tidak ada himpunan data yang tersedia, batalkan penyiapan, lalu buka menu Himpunan data ucapan untuk mengunggah himpunan data.

  6. Masukkan nama dan deskripsi untuk model kustom Anda, dan kemudian pilih Berikutnya.

  7. Sesuai pilihan, centang kotak Tambahkan pengujian di langkah berikutnya. Jika melewati langkah ini, Anda dapat menjalankan pengujian yang sama nanti. Untuk informasi selengkapnya, lihat Menguji kualitas pengenalan dan Menguji model secara kuantitatif.

  8. Pilih Simpan dan tutup untuk mengawali build untuk model kustom Anda.

  9. Kembali ke halaman Latih model kustom.

    Penting

    Perhatikan tanggal Kedaluwarsa. Ini merupakan tanggal terakhir Anda dapat menggunakan model kustom untuk pengenalan suara. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.

Untuk membuat model dengan himpunan data untuk pelatihan, gunakan perintah spx csr model create. Buat parameter permintaan sesuai dengan instruksi berikut:

  • Atur parameter project ke ID proyek yang ada. Ini direkomendasikan agar Anda juga dapat melihat dan mengelola titik akhir di Speech Studio. Anda dapat menjalankan perintah spx csr project list untuk mendapatkan proyek yang tersedia.
  • Atur parameter dataset yang diperlukan ke ID himpunan data yang ingin Anda gunakan untuk pelatihan. Untuk menentukan beberapa himpunan data, atur parameter (jamak) datasets dan pisahkan ID dengan titik koma.
  • Atur parameter language yang diperlukan. Lokal himpunan data harus cocok dengan lokal proyek. Lokal tidak dapat diubah nanti. Parameter language Speech CLI sesuai dengan properti locale dalam permintaan dan respons JSON.
  • Atur parameter name yang diperlukan. Ini adalah nama yang akan ditampilkan di Speech Studio. Parameter name Speech CLI sesuai dengan properti displayName dalam permintaan dan respons JSON.
  • Secara opsional, Anda dapat mengatur parameter baseModel. Jika Anda tidak menentukan baseModel, model dasar default untuk lokal digunakan.

Berikut adalah contoh perintah Speech CLI yang membuat model dengan himpunan data untuk pelatihan:

spx csr model create --project YourProjectId --name "My Model" --description "My Model Description" --dataset YourDatasetId --language "en-US"

Catatan

Dalam contoh ini, baseModel tidak diatur, sehingga model dasar default untuk lokal digunakan. URI model dasar dikembalikan dalam respons.

Anda akan menerima isi respons dalam format berikut:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7",
  "baseModel": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/datasets/69e46263-ab10-4ab4-abbe-62e370104d95"
    }
  ],
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7/manifest",
    "copyTo": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7/copyto"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/projects/5d25e60a-7f4a-4816-afd9-783bb8daccfc"
  },
  "properties": {
    "deprecationDates": {
      "adaptationDateTime": "2023-01-15T00:00:00Z",
      "transcriptionDateTime": "2024-07-15T00:00:00Z"
    }
  },
  "lastActionDateTime": "2022-05-21T13:21:01Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-21T13:21:01Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description"
}

Penting

Catat tanggal di adaptationDateTime properti. Ini merupakan tanggal terakhir Anda dapat menggunakan model dasar untuk pelatihan. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.

Catat tanggal di properti transcriptionDateTime. Ini merupakan tanggal terakhir Anda dapat menggunakan model kustom untuk pengenalan suara. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.

Properti self tingkat atas dalam isi respons adalah URI model. Gunakan URI ini untuk mendapatkan detail tentang proyek, manifes, dan tanggal penghentian model. Anda juga menggunakan URI ini untuk memperbarui atau menghapus model.

Untuk bantuan Speech CLI dengan model, jalankan perintah berikut:

spx help csr model

Untuk membuat model dengan himpunan data untuk pelatihan, gunakan operasi CreateModel dari REST API Ucapan ke teks v3.0. Buat isi permintaan sesuai dengan instruksi berikut:

  • Atur properti project ke URI proyek yang ada. Ini direkomendasikan agar Anda juga dapat melihat dan mengelola titik akhir di Speech Studio. Anda dapat membuat permintaan GetProjects untuk mendapatkan proyek yang tersedia.
  • Atur properti datasets yang diperlukan ke URI himpunan data yang ingin Anda gunakan untuk pelatihan.
  • Atur properti locale yang diperlukan. Lokal model harus cocok dengan lokal proyek dan model dasar. Lokal tidak dapat diubah nanti.
  • Atur properti displayName yang diperlukan. Ini adalah nama yang akan ditampilkan di Speech Studio.
  • Secara opsional, Anda dapat mengatur properti baseModel. Jika Anda tidak menentukan baseModel, model dasar default untuk lokal digunakan.

Buat permintaan HTTP POST menggunakan URI seperti yang ditunjukkan dalam contoh berikut. Ganti YourSubscriptionKey dengan kunci sumber daya Ucapan Anda, ganti YourServiceRegion dengan wilayah sumber daya Ucapan Anda, dan atur properti isi permintaan seperti yang dijelaskan sebelumnya.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/projects/5d25e60a-7f4a-4816-afd9-783bb8daccfc"
  },
  "displayName": "My Model",
  "description": "My Model Description",
  "baseModel": null,
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/datasets/69e46263-ab10-4ab4-abbe-62e370104d95"
    }
  ],
  "locale": "en-US"
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.0/models"

Catatan

Dalam contoh ini, baseModel tidak diatur, sehingga model dasar default untuk lokal digunakan. URI model dasar dikembalikan dalam respons.

Anda akan menerima isi respons dalam format berikut:

{
  "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7",
  "baseModel": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/base/1aae1070-7972-47e9-a977-87e3b05c457d"
  },
  "datasets": [
    {
      "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/datasets/69e46263-ab10-4ab4-abbe-62e370104d95"
    }
  ],
  "links": {
    "manifest": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7/manifest",
    "copyTo": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/models/86c4ebd7-d70d-4f67-9ccc-84609504ffc7/copyto"
  },
  "project": {
    "self": "https://eastus.api.cognitive.microsoft.com/speechtotext/v3.0/projects/5d25e60a-7f4a-4816-afd9-783bb8daccfc"
  },
  "properties": {
    "deprecationDates": {
      "adaptationDateTime": "2023-01-15T00:00:00Z",
      "transcriptionDateTime": "2024-07-15T00:00:00Z"
    }
  },
  "lastActionDateTime": "2022-05-21T13:21:01Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-21T13:21:01Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description"
}

Penting

Catat tanggal di adaptationDateTime properti. Ini merupakan tanggal terakhir Anda dapat menggunakan model dasar untuk pelatihan. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.

Catat tanggal di properti transcriptionDateTime. Ini merupakan tanggal terakhir Anda dapat menggunakan model kustom untuk pengenalan suara. Untuk informasi selengkapnya, lihat Siklus hidup model dan titik akhir.

Properti self tingkat atas dalam isi respons adalah URI model. Gunakan URI ini untuk mendapatkan detail tentang proyek model, manifes, dan tanggal penghentian. Anda juga menggunakan URI ini untuk memperbarui atau menghapus model.

Menyalin model

Anda dapat menyalin model ke proyek lain yang menggunakan lokal yang sama. Misalnya, setelah model dilatih dengan data audio di wilayah dengan perangkat keras khusus untuk pelatihan, Anda dapat menyalinnya ke sumber daya Ucapan di wilayah lain sesuai kebutuhan.

Ikuti instruksi berikut untuk menyalin model ke proyek di wilayah lain:

  1. Masuk ke Speech Studio.
  2. Pilih Ucapan Kustom> Nama proyek Anda >Latih model kustom.
  3. Pilih salin.
  4. Pada halaman Salin model ucapan, pilih wilayah target tempat Anda ingin menyalin model. Screenshot of a phrase list applied in Speech Studio.
  5. Pilih sumber daya Ucapan di wilayah target, atau buat sumber daya Ucapan baru.
  6. Pilih proyek tempat Anda ingin menyalin model, atau buat proyek baru.
  7. Pilih Salin.

Setelah model berhasil disalin, Anda akan diberi tahu dan dapat melihatnya di proyek target.

Menyalin model langsung ke proyek di wilayah lain tidak didukung dengan Speech CLI. Anda dapat menyalin model ke proyek di wilayah lain menggunakan Speech Studio atau REST API Ucapan ke teks v3.0.

Untuk menyalin model pada sumber daya Ucapan lain, gunakan operasi CopyModelToSubscription dari REST API Ucapan ke teks v3.0. Buat isi permintaan sesuai dengan instruksi berikut:

  • Atur properti yang diperlukan targetSubscriptionKey ke kunci sumber daya Ucapan tujuan.

Buat permintaan HTTP POST menggunakan URI seperti yang ditunjukkan dalam contoh berikut. Gunakan wilayah dan URI model yang ingin Anda salin. Ganti YourModelId dengan ID model, ganti YourSubscriptionKey dengan wilayah sumber daya Ucapan, ganti YourServiceRegion dengan wilayah sumber daya Ucapan, dan atur properti isi permintaan seperti yang dijelaskan sebelumnya.

curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "targetSubscriptionKey": "ModelDestinationSpeechResourceKey"
} '  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.0/models/YourModelId/copyto"

Catatan

Hanya properti targetSubscriptionKey dalam isi permintaan yang memiliki informasi tentang sumber daya Ucapan tujuan.

Anda akan menerima isi respons dalam format berikut:

{
  "self": "https://westus2.api.cognitive.microsoft.com/speechtotext/v3.0/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae",
  "baseModel": {
    "self": "https://westus2.api.cognitive.microsoft.com/speechtotext/v3.0/models/base/eb5450a7-3ca2-461a-b2d7-ddbb3ad96540"
  },
  "links": {
    "manifest": "https://westus2.api.cognitive.microsoft.com/speechtotext/v3.0/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae/manifest",
    "copyTo": "https://westus2.api.cognitive.microsoft.com/speechtotext/v3.0/models/9df35ddb-edf9-4e91-8d1a-576d09aabdae/copyto"
  },
  "properties": {
    "deprecationDates": {
      "adaptationDateTime": "2023-01-15T00:00:00Z",
      "transcriptionDateTime": "2024-07-15T00:00:00Z"
    }
  },
  "lastActionDateTime": "2022-05-22T23:15:27Z",
  "status": "NotStarted",
  "createdDateTime": "2022-05-22T23:15:27Z",
  "locale": "en-US",
  "displayName": "My Model",
  "description": "My Model Description",
  "customProperties": {
    "PortalAPIVersion": "3",
    "Purpose": "",
    "VadKind": "None",
    "ModelClass": "None",
    "UsesHalide": "False",
    "IsDynamicGrammarSupported": "False"
  }
}

Menyambungkan model

Model mungkin telah disalin dari satu proyek menggunakan Speech CLI atau REST API, tanpa tersambung ke proyek lain. Menyambungkan model adalah masalah memperbarui model dengan referensi ke proyek.

Jika diminta di Speech Studio, Anda dapat menyambungkannya dengan memilih tombol Sambungkan.

Screenshot of the connect training page that shows models that can be connected to the current project.

Untuk menyambungkan model ke proyek, gunakan spx csr model update perintah. Buat parameter permintaan sesuai dengan instruksi berikut:

  • Atur parameter project ke URI proyek yang ada. Ini direkomendasikan agar Anda juga dapat melihat dan mengelola titik akhir di Speech Studio. Anda dapat menjalankan perintah spx csr project list untuk mendapatkan proyek yang tersedia.
  • Atur parameter modelId yang diperlukan ke ID model yang ingin Anda sambungkan ke proyek.

Berikut adalah contoh perintah Speech CLI yang menyambungkan model ke proyek:

spx csr model update --model YourModelId --project YourProjectId

Anda akan menerima isi respons dalam format berikut:

{
  "project": {
    "self": "https://westus2.api.cognitive.microsoft.com/speechtotext/v3.0/projects/e6ffdefd-9517-45a9-a89c-7b5028ed0e56"
  },
}

Untuk bantuan Speech CLI dengan model, jalankan perintah berikut:

spx help csr model

Untuk menyambungkan model baru ke proyek sumber daya Ucapan tempat model disalin, gunakan operasi UpdateModel dari REST API Ucapan ke teks v3.0. Buat isi permintaan sesuai dengan instruksi berikut:

  • Atur properti yang diperlukan project ke URI proyek yang ada. Ini direkomendasikan agar Anda juga dapat melihat dan mengelola titik akhir di Speech Studio. Anda dapat membuat permintaan GetProjects untuk mendapatkan proyek yang tersedia.

Buat permintaan HTTP PATCH menggunakan URI seperti contoh berikut. Gunakan URI model baru. Anda dapat memperoleh ID model baru dari properti self dari isi respons CopyModelToSubscription. Ganti YourSubscriptionKey dengan kunci sumber daya Ucapan Anda, ganti YourServiceRegion dengan wilayah sumber daya Ucapan Anda, dan atur properti isi permintaan seperti yang dijelaskan sebelumnya.

curl -v -X PATCH -H "Ocp-Apim-Subscription-Key: YourSubscriptionKey" -H "Content-Type: application/json" -d '{
  "project": {
    "self": "https://westus2.api.cognitive.microsoft.com/speechtotext/v3.0/projects/e6ffdefd-9517-45a9-a89c-7b5028ed0e56"
  },
}'  "https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/v3.0/models"

Anda akan menerima isi respons dalam format berikut:

{
  "project": {
    "self": "https://westus2.api.cognitive.microsoft.com/speechtotext/v3.0/projects/e6ffdefd-9517-45a9-a89c-7b5028ed0e56"
  },
}

Langkah berikutnya