Mulai Cepat: Klasifikasi teks kustom

Gunakan artikel ini untuk memulai membuat proyek klasifikasi teks kustom tempat Anda dapat melatih model kustom untuk klasifikasi teks. Model adalah perangkat lunak kecerdasan buatan yang dilatih untuk melakukan tugas tertentu. Untuk sistem ini, model mengklasifikasikan teks, dan dilatih dengan belajar dari data yang diberi tag.

Klasifikasi teks kustom mendukung dua jenis proyek:

  • Klasifikasi label tunggal - Anda dapat menetapkan satu kelas untuk setiap dokumen dalam kumpulan data Anda. Misalnya, naskah film hanya dapat diklasifikasikan sebagai "Romansa" atau "Komedi".
  • Klasifikasi multi-label - Anda dapat menetapkan beberapa kelas untuk setiap dokumen dalam kumpulan data Anda. Misalnya, naskah film dapat diklasifikasikan sebagai "Komedi" atau "Romansa" dan "Komedi".

Dalam mulai cepat ini Anda dapat menggunakan himpunan data sampel yang disediakan untuk membangun klasifikasi multi-label di mana Anda dapat mengklasifikasikan skrip film ke dalam satu atau beberapa kategori atau Anda dapat menggunakan himpunan data klasifikasi-label tunggal tempat Anda dapat mengklasifikasikan abstrak makalah ilmiah ke dalam salah satu domain yang ditentukan.

Prasyarat

Buat sumber daya Azure Language dan akun penyimpanan Azure baru

Sebelum Anda dapat menggunakan klasifikasi teks kustom, Anda harus membuat sumber daya Azure Language, yang akan memberi Anda kredensial yang Anda perlukan untuk membuat proyek dan mulai melatih model. Anda juga memerlukan akun penyimpanan Azure, tempat Anda mengunggah himpunan data yang akan digunakan untuk membangun model.

Penting

Untuk memulai dengan cepat, sebaiknya buat sumber daya Bahasa Azure baru menggunakan langkah-langkah yang disediakan dalam artikel ini. Menggunakan langkah-langkah dalam artikel ini, Anda dapat membuat sumber daya Bahasa dan akun penyimpanan secara bersamaan, yang lebih mudah daripada melakukannya nanti.

Jika Anda memiliki sumber daya yang sudah ada sebelumnya yang ingin digunakan, Anda harus menghubungkannya ke akun penyimpanan.

Buat sumber daya baru menggunakan portal Microsoft Azure

  1. Buka portal Microsoft Azure untuk membuat sumber daya Bahasa Azure yang baru.

  2. Di jendela yang muncul, pilih Klasifikasi & teks kustom pengenalan entitas bernama kustom dari fitur kustom. Klik Lanjutkan untuk membuat sumber daya Anda di bagian bawah layar.

    Cuplikan layar memperlihatkan opsi pilihan untuk klasifikasi teks kustom dan pengenalan entitas bernama kustom di portal Azure.

  3. Buat sumber daya Bahasa dengan detail berikut.

    Nama Nilai yang diperlukan
    Langganan Langganan Azure Anda.
    Grup sumber daya Grup sumber daya yang akan berisi sumber daya Anda. Anda dapat menggunakan ruang kerja yang tersedia, atau membuat ruang baru.
    Wilayah Salah satu wilayah yang didukung. Misalnya "US Barat 2".
    Nama Masukkan nama untuk sumber daya baru Anda.
    Tingkat harga Salah satu tingkat harga yang didukung. Anda dapat menggunakan tingkat harga Gratis (F0) untuk mencoba layanan.

    Catatan

    Jika Anda mendapatkan pesan yang mengatakan "akun yang Anda gunakan untuk masuk bukan pemilik grup sumber daya akun penyimpanan yang dipilih", akun Anda harus memiliki peran pemilik yang ditetapkan pada grup sumber daya sebelum Anda dapat membuat sumber daya Bahasa. Hubungi pemilik langganan Azure Anda untuk bantuan.

  4. Di bagian Klasifikasi teks kustom & pengenalan entitas bernama kustom, pilih akun penyimpanan yang sudah ada atau pilih Akun penyimpanan baru. Perhatikan bahwa nilai ini untuk membantu Anda memulai, dan belum tentu nilai akun penyimpanan yang ingin Anda gunakan di lingkungan produksi. Untuk menghindari latensi selama membangun proyek Anda terhubung ke akun penyimpanan di wilayah yang sama dengan sumber daya Bahasa Anda.

    Nilai akun penyimpanan Nilai yang direkomendasikan
    Nama akun penyimpanan Nama apa pun
    Jenis akun penyimpanan LRS Standar
  5. Pastikan Pemberitahuan AI yang Bertanggung Jawab dicentang. Pilih Tinjau + buat di bagian bawah halaman, kemudian pilih.

Unggah data sampel ke kontainer blob

Setelah Anda membuat akun penyimpanan Azure dan menghubungkannya ke sumber daya Bahasa Anda, Anda perlu mengunggah dokumen dari kumpulan data sampel ke direktori akar penampung Anda. Dokumen ini nantinya akan digunakan untuk melatih model Anda.

  1. Unduh himpunan data sampel untuk proyek klasifikasi multi-label.

  2. Buka file .zip, dan ekstrak folder yang berisi dokumen.

Himpunan data sampel yang disediakan berisi sekitar 200 dokumen, yang masing-masing merupakan ringkasan untuk film. Setiap dokumen milik satu atau beberapa kelas berikut:

  • "Misteri"
  • "Drama"
  • "Thriller"
  • "Komedi"
  • "Aksi"
  1. Di portal Microsoft Azure, navigasikan ke akun penyimpanan yang Anda buat, dan pilih.

  2. Di akun penyimpanan Anda, pilih Kontainer dari menu kiri, yang terletak di bawah Penyimpanan data. Pada layar yang muncul, pilih + Kontainer. Berikan kontainer nama contoh-data dan tinggalkan tingkat akses publik default.

    Cuplikan layar memperlihatkan halaman utama akun penyimpanan.

  3. Setelah kontainer Anda dibuat, pilih itu. Kemudian klik tombol Unggah untuk memilih file .txt dan .json yang Anda unduh sebelumnya.

    Cuplikan layar memperlihatkan tombol untuk mengunggah file ke akun penyimpanan.

Membuat proyek klasifikasi kustom

Setelah sumber daya serta kontainer penyimpanan Anda dikonfigurasi, buat proyek klasifikasi teks baru. Proyek adalah area kerja untuk membuat model ML kustom berdasarkan data Anda. Proyek Anda hanya dapat diakses oleh Anda dan orang lain yang memiliki akses ke sumber daya Bahasa yang digunakan.

  1. Masuk ke Language Studio. Sebuah jendela akan muncul yang memungkinkan Anda memilih langganan dan sumber daya Language. Pilih sumber daya Bahasa Anda.

  2. Di bawah bagian Klasifikasi teks dari Language Studio, pilih Klasifikasi teks khusus.

    Cuplikan layar yang menampilkan lokasi klasifikasi teks kustom pada halaman arahan Studio Bahasa.

  3. Pilih Buat proyek baru dari menu atas di halaman proyek Anda. Membuat proyek akan memungkinkan Anda melabeli data, melatih, mengevaluasi, meningkatkan, dan menyebarkan model Anda.

    Cuplikan layar halaman pembuatan proyek.

  4. Setelah Anda mengklik, Buat proyek baru, jendela akan muncul untuk memungkinkan Anda menghubungkan akun penyimpanan. Jika Anda telah menghubungkan akun penyimpanan, Anda akan melihat akun penyimpanan tersambung. Jika tidak, pilih akun penyimpanan Anda dari menu dropdown yang muncul dan klik Sambungkan akun penyimpanan; ini akan mengatur peran yang diperlukan untuk akun penyimpanan Anda. Langkah ini mungkin akan mengembalikan kesalahan jika Anda tidak ditetapkan sebagai pemilik di akun penyimpanan.

    Catatan

    • Anda hanya perlu melakukan langkah ini sekali untuk setiap sumber bahasa baru yang Anda gunakan.
    • Proses ini tidak dapat diubah, jika Anda menghubungkan akun penyimpanan ke sumber daya Bahasa Anda, Anda tidak dapat memutuskannya nanti.
    • Anda hanya dapat menghubungkan sumber daya Bahasa Anda ke satu akun penyimpanan.

    Cuplikan layar koneksi penyimpanan untuk proyek klasifikasi kustom.

  5. Pilih jenis proyek. Anda dapat membuat proyek Klasifikasi multi-label di mana setiap dokumen dapat termasuk dalam satu atau beberapa kelas atau proyek Klasifikasi label tunggal di mana setiap dokumen hanya dapat termasuk dalam satu kelas. Jenis yang dipilih tidak dapat diubah nanti. Pelajari selengkapnya jenis proyek

    Cuplikan layar yang tersedia untuk jenis proyek klasifikasi kustom.

  6. Masukkan informasi proyek, termasuk nama, deskripsi, dan bahasa pemrogram file dalam dokumen di proyek Anda. Jika Anda menggunakan contoh himpunan data, pilih Bahasa Inggris. Anda tidak akan dapat mengubah nama proyek Anda nanti. Klik Berikutnya.

    Tip

    Himpunan data Anda tidak harus sepenuhnya dalam bahasa pemrogram yang sama. Anda dapat memiliki beberapa dokumen, masing-masing dengan bahasa yang didukung berbeda. Jika kumpulan data Anda berisi dokumen dari bahasa yang berbeda atau jika Anda mengharapkan teks dari bahasa yang berbeda selama waktu proses, pilih opsi aktifkan kumpulan data multibahasa saat Anda memasukkan informasi dasar untuk proyek Anda. Opsi ini dapat diaktifkan nanti dari halaman Pengaturan project.

  7. Pilih penampung tempat Anda mengunggah kumpulan data Anda.

    Catatan

    Jika Anda telah melabeli data, pastikan data mengikuti format yang didukung dan klik Ya, dokumen saya sudah berlabel dan saya telah memformat file berlabel JSON lalu pilih file label dari menu drop-down di bawah ini. Klik Berikutnya.

  8. Tinjau data yang Anda masukkan dan pilih Buat Project.

Latih model Anda

Biasanya setelah Anda membuat proyek, Anda bisa melanjutkan dan mulai melabeli dokumen yang Anda miliki di kontainer yang terhubung ke proyek Anda. Untuk mulai cepat ini, Anda sudah mengimpor sampel himpunan data yang dilabeli dan menginisialisasi proyek Anda dengan sampel file berlabel JSON.

Untuk mulai melatih model Anda dari dalam Language Studio:

  1. Pilih Pekerjaan pelatihan dari menu sebelah kiri.

  2. Pilih Mulai pekerjaan pelatihan dari menu atas.

  3. Pilih Latih model baru dan ketik nama model di kotak teks. Anda juga dapat menimpa model yang ada dengan memilih opsi ini dan memilih model yang ingin Anda timpa dari menu tarik-turun. Menimpa model terlatih tidak dapat diubah, tetapi tidak akan memengaruhi model yang Anda sebarkan hingga Anda menyebarkan model baru.

    Buat pekerjaan pelatihan baru

  4. Pilih metode pemisahan data. Anda dapat memilih Memisahkan set pengujian secara otomatis dari data pelatihan di mana sistem akan membagi data berlabel Anda antara set pelatihan dan pengujian, sesuai dengan persentase yang ditentukan. Atau Anda dapat Menggunakan pemisahan manual data pelatihan dan pengujian, opsi ini hanya diaktifkan jika Anda telah menambahkan dokumen ke set pengujian Anda selama pelabelan data. Lihat Cara melatih model untuk informasi selengkapnya tentang pemisahan data.

  5. Klik tombol Latih.

  6. Jika Anda mengeklik ID pekerjaan pelatihan dari daftar, panel samping akan muncul di mana Anda dapat memeriksa kemajuan Pelatihan, Status pekerjaan, dan detail lainnya untuk pekerjaan ini.

    Catatan

    • Hanya pekerjaan pelatihan yang diselesaikan, yang akan menghasilkan model.
    • Pelatihan dapat memakan waktu antara beberapa menit dan beberapa jam berdasarkan ukuran data berlabel Anda.
    • Anda hanya dapat memiliki satu pekerjaan pelatihan yang berjalan pada satu waktu. Anda tidak dapat memulai pekerjaan pelatihan lain dalam proyek yang sama sampai pekerjaan yang sedang berjalan selesai.

sebarkan model anda

Biasanya setelah melatih model, Anda akan meninjau detail evaluasi dan melakukan peningkatan jika perlu. Dalam mulai cepat ini, Anda hanya akan menyebarkan model Anda, dan membuatnya tersedia untuk Anda coba di Language Studio, atau Anda dapat memanggil API prediksi.

Untuk menyebarkan model Anda dari dalam Language Studio:

  1. Pilih Menyebarkan model dari menu sebelah kiri.

  2. Klik Tambahkan penyebaran untuk memulai pekerjaan penyebaran baru.

    Cuplikan layar memperlihatkan tombol penyebaran

  3. Pilih Buat penyebaran baru untuk membuat penyebaran baru dan tetapkan model terlatih dari menu dropdown di bawah ini. Anda juga dapat Menimpa penyebaran yang ada dengan memilih opsi ini dan memilih model terlatih yang ingin Anda tetapkan dari menu dropdown di bawah ini.

    Catatan

    Menimpa penyebaran yang ada tidak memerlukan perubahan pada panggilan API Prediksi Anda tetapi hasil yang Anda dapatkan akan didasarkan pada model yang baru ditetapkan.

    Cuplikan layar memperlihatkan layar penyebaran

  4. Pilih Sebarkan untuk memulai proses penyebaran.

  5. Setelah penyebaran berhasil, tanggal kedaluwarsa akan muncul di sampingnya. Kedaluwarsa penyebaran adalah ketika model yang Anda sebarkan tidak akan tersedia untuk digunakan untuk prediksi, yang biasanya terjadi dua belas bulan setelah konfigurasi pelatihan kedaluwarsa.

Uji model Anda

Setelah model disebarkan, Anda dapat mulai menggunakannya untuk mengklasifikasikan teks Anda melalui API Prediksi. Untuk mulai cepat ini, Anda akan menggunakan Language Studio untuk mengirimkan tugas klasifikasi teks kustom dan memvisualisasikan hasilnya. Dalam himpunan data sampel yang Anda unduh sebelumnya, Anda dapat menemukan beberapa dokumen pengujian yang dapat Anda gunakan dalam langkah ini.

Untuk menguji model yang Anda sebarkan dalam Language Studio:

  1. Pilih Menguji penyebaran dari menu di sisi kiri layar.

  2. Pilih penyebaran yang ingin Anda uji. Anda hanya dapat menguji model yang ditetapkan untuk penyebaran.

  3. Untuk proyek multibahasa, pilih bahasa teks yang Anda uji menggunakan menu dropdown bahasa.

  4. Pilih penyebaran yang ingin Anda kueri/uji dari menu dropdown.

  5. Masukkan teks yang ingin Anda kirimkan dalam permintaan, atau unggah dokumen .txt yang akan digunakan.

  6. Klik Jalankan pengujian dari menu atas.

  7. Di tab Hasil, Anda dapat melihat kelas yang diprediksi untuk teks Anda. Anda juga dapat melihat respons JSON di bawah tab JSON. Contoh berikut adalah untuk proyek klasifikasi multi-label. Proyek klasifikasi label tunggal hanya akan mengembalikan satu kelas dalam hasilnya.

    Cuplikan layar yang memperlihatkan hasil proyek klasifikasi multi label. Contohnya dari CMU Movie Summary, CC BY-SA 3.0, yang diubah oleh Microsoft

Membersihkan proyek

Jika Anda tidak memerlukan proyek lagi, Anda dapat menghapus proyek menggunakan Language Studio. Pilih Klasifikasi teks kustom di bagian atas, lalu pilih proyek yang ingin Anda hapus. Klik Hapus dari menu atas untuk menghapus proyek.

Prasyarat

Buat sumber daya Azure Language dan akun penyimpanan Azure baru

Sebelum Anda dapat menggunakan klasifikasi teks kustom, Anda harus membuat sumber daya Azure Language, yang akan memberi Anda kredensial yang Anda perlukan untuk membuat proyek dan mulai melatih model. Anda juga memerlukan akun penyimpanan Azure, tempat Anda dapat mengunggah kumpulan data yang akan digunakan dalam membangun model Anda.

Penting

Untuk memulai dengan cepat, kami sarankan untuk membuat sumber daya Azure Language baru menggunakan langkah-langkah yang disediakan dalam artikel ini, yang akan memungkinkan Anda membuat sumber daya Bahasa, dan membuat dan/atau menyambungkan akun penyimpanan secara bersamaan, yang lebih mudah daripada menundanya.

Jika Anda memiliki sumber daya yang sudah ada sebelumnya yang ingin digunakan, Anda harus menghubungkannya ke akun penyimpanan.

Buat sumber daya baru menggunakan portal Microsoft Azure

  1. Buka portal Microsoft Azure untuk membuat sumber daya Bahasa Azure yang baru.

  2. Di jendela yang muncul, pilih Klasifikasi & teks kustom pengenalan entitas bernama kustom dari fitur kustom. Klik Lanjutkan untuk membuat sumber daya Anda di bagian bawah layar.

    Cuplikan layar memperlihatkan opsi pilihan untuk klasifikasi teks kustom dan pengenalan entitas bernama kustom di portal Azure.

  3. Buat sumber daya Bahasa dengan detail berikut.

    Nama Nilai yang diperlukan
    Langganan Langganan Azure Anda.
    Grup sumber daya Grup sumber daya yang akan berisi sumber daya Anda. Anda dapat menggunakan ruang kerja yang tersedia, atau membuat ruang baru.
    Wilayah Salah satu wilayah yang didukung. Misalnya "US Barat 2".
    Nama Masukkan nama untuk sumber daya baru Anda.
    Tingkat harga Salah satu tingkat harga yang didukung. Anda dapat menggunakan tingkat harga Gratis (F0) untuk mencoba layanan.

    Catatan

    Jika Anda mendapatkan pesan yang mengatakan "akun yang Anda gunakan untuk masuk bukan pemilik grup sumber daya akun penyimpanan yang dipilih", akun Anda harus memiliki peran pemilik yang ditetapkan pada grup sumber daya sebelum Anda dapat membuat sumber daya Bahasa. Hubungi pemilik langganan Azure Anda untuk bantuan.

  4. Di bagian Klasifikasi teks kustom & pengenalan entitas bernama kustom, pilih akun penyimpanan yang sudah ada atau pilih Akun penyimpanan baru. Perhatikan bahwa nilai ini untuk membantu Anda memulai, dan belum tentu nilai akun penyimpanan yang ingin Anda gunakan di lingkungan produksi. Untuk menghindari latensi selama membangun proyek Anda terhubung ke akun penyimpanan di wilayah yang sama dengan sumber daya Bahasa Anda.

    Nilai akun penyimpanan Nilai yang direkomendasikan
    Nama akun penyimpanan Nama apa pun
    Jenis akun penyimpanan LRS Standar
  5. Pastikan Pemberitahuan AI yang Bertanggung Jawab dicentang. Pilih Tinjau + buat di bagian bawah halaman, kemudian pilih.

Unggah data sampel ke kontainer blob

Setelah Anda membuat akun penyimpanan Azure dan menghubungkannya ke sumber daya Bahasa Anda, Anda perlu mengunggah dokumen dari kumpulan data sampel ke direktori akar penampung Anda. Dokumen ini nantinya akan digunakan untuk melatih model Anda.

  1. Unduh himpunan data sampel untuk proyek klasifikasi multi-label.

  2. Buka file .zip, dan ekstrak folder yang berisi dokumen.

Himpunan data sampel yang disediakan berisi sekitar 200 dokumen, yang masing-masing merupakan ringkasan untuk film. Setiap dokumen milik satu atau beberapa kelas berikut:

  • "Misteri"
  • "Drama"
  • "Thriller"
  • "Komedi"
  • "Aksi"
  1. Di portal Microsoft Azure, navigasikan ke akun penyimpanan yang Anda buat, dan pilih.

  2. Di akun penyimpanan Anda, pilih Kontainer dari menu kiri, yang terletak di bawah Penyimpanan data. Pada layar yang muncul, pilih + Kontainer. Berikan kontainer nama contoh-data dan tinggalkan tingkat akses publik default.

    Cuplikan layar memperlihatkan halaman utama akun penyimpanan.

  3. Setelah kontainer Anda dibuat, pilih itu. Kemudian klik tombol Unggah untuk memilih file .txt dan .json yang Anda unduh sebelumnya.

    Cuplikan layar memperlihatkan tombol untuk mengunggah file ke akun penyimpanan.

Dapatkan kunci sumber daya dan titik akhir Anda

  • Buka halaman gambaran umum sumber daya Anda di portal Microsoft Azure

  • Dari menu sebelah kiri, pilih Kunci dan Titik Akhir. Anda akan menggunakan titik akhir dan kunci untuk permintaan API

Cuplikan layar yang memperlihatkan halaman kunci dan titik akhir di portal Azure.

Membuat proyek klasifikasi kustom

Setelah sumber daya serta kontainer penyimpanan Anda dikonfigurasi, buat proyek klasifikasi teks baru. Proyek adalah area kerja untuk membuat model ML kustom berdasarkan data Anda. Proyek Anda hanya dapat diakses oleh Anda dan orang lain yang memiliki akses ke sumber daya Bahasa yang digunakan.

Memicu pekerjaan proyek impor

Kirim permintaan POST menggunakan URL, header, dan isi JSON berikut untuk mengimpor file label Anda. Pastikan file label Anda mengikuti format yang diterima.

Jika sebuah proyek dengan nama yang sama sudah ada, data proyek tersebut diganti.

{Endpoint}/language/authoring/analyze-text/projects/{projectName}/:import?api-version={API-VERSION}
Tempat penampung Nilai Contoh
{ENDPOINT} Titik akhir untuk mengautentikasi permintaan API Anda. https://<your-custom-subdomain>.cognitiveservices.azure.com
{PROJECT-NAME} Nama untuk proyek Anda. Nilai ini peka huruf besar/kecil. myProject
{API-VERSION} Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Pelajari selengkapnya tentang versi API lain yang tersedia 2022-05-01

Header

Gunakan header berikut untuk mengautentikasi permintaan Anda.

Kunci Nilai
Ocp-Apim-Subscription-Key Kunci sumber daya Anda. Digunakan untuk mengautentikasi permintaan API Anda.

Isi

Gunakan JSON berikut dalam permintaan Anda. Ganti nilai tempat penampung di bawah ini dengan nilai Anda sendiri.

{
  "projectFileVersion": "{API-VERSION}",
  "stringIndexType": "Utf16CodeUnit",
  "metadata": {
    "projectName": "{PROJECT-NAME}",
    "storageInputContainerName": "{CONTAINER-NAME}",
    "projectKind": "customMultiLabelClassification",
    "description": "Trying out custom multi label text classification",
    "language": "{LANGUAGE-CODE}",
    "multilingual": true,
    "settings": {}
  },
  "assets": {
    "projectKind": "customMultiLabelClassification",
    "classes": [
      {
        "category": "Class1"
      },
      {
        "category": "Class2"
      }
    ],
    "documents": [
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "classes": [
          {
            "category": "Class1"
          },
          {
            "category": "Class2"
          }
        ]
      },
      {
        "location": "{DOCUMENT-NAME}",
        "language": "{LANGUAGE-CODE}",
        "dataset": "{DATASET}",
        "classes": [
          {
            "category": "Class2"
          }
        ]
      }
    ]
  }
}

Kunci Tempat penampung Nilai Contoh
versi-api {API-VERSION} Versi API yang Anda panggil. Versi yang digunakan di sini harus versi API yang sama di URL. Pelajari selengkapnya tentang versi API lain yang tersedia 2022-05-01
projectName {PROJECT-NAME} Nama proyek Anda. Nilai ini peka huruf besar/kecil. myProject
projectKind customMultiLabelClassification Jenis proyek Anda. customMultiLabelClassification
bahasa {LANGUAGE-CODE} String yang menentukan kode bahasa untuk dokumen yang digunakan dalam proyek Anda. Jika proyek Anda adalah proyek multibahasa, pilih kode bahasa dari sebagian besar dokumen. Lihat dukungan bahasa untuk mempelajari selengkapnya tentang dukungan multibahasa. en-us
multilingual true Nilai boolean yang memungkinkan Anda memiliki dokumen dalam beberapa bahasa dalam himpunan data Dan saat model Anda disebarkan, Anda dapat mengkueri model dalam bahasa apa pun yang didukung (belum tentu disertakan dalam dokumen pelatihan Anda. Lihat dukungan bahasa untuk mempelajari selengkapnya tentang dukungan multibahasa. true
storageInputContainerName {CONTAINER-NAME} Nama kontainer penyimpanan Azure tempat Anda mengunggah dokumen. myContainer
kelas [] Array yang berisi semua kelas yang Anda miliki dalam proyek. Ini adalah kelas yang ingin Anda klasifikasikan dokumen Anda. []
dokumen [] Array yang berisi semua dokumen dalam proyek Anda dan kelas apa yang diberi label untuk dokumen ini. []
lokasi {DOCUMENT-NAME} Lokasi dokumen dalam kontainer penyimpanan. Karena semua dokumen berada di akar kontainer, ini harus menjadi nama dokumen. doc1.txt
dataset {DATASET} Set pengujian yang akan digunakan untuk dokumen ini saat dibagi sebelum pelatihan. Lihat Cara melatih model untuk informasi selengkapnya tentang pemisahan data. Nilai yang mungkin untuk bidang ini adalah Train dan Test. Train

Setelah Anda mengirim permintaan API, Anda akan menerima respons 202 yang menunjukkan bahwa pekerjaan telah dikirimkan dengan benar. Di header respons, ekstrak nilai operation-location. Nilai ini akan diformat seperti ini:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/import/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} digunakan untuk mengidentifikasi permintaan Anda, karena operasi ini tidak asinkron. Anda akan menggunakan URL ini untuk mendapatkan status pekerjaan impor.

Kemungkinan skenario kesalahan untuk permintaan ini:

  • Sumber daya yang dipilih tidak memiliki izin yang sesuai untuk akun penyimpanan.
  • storageInputContainerName yang ditentukan tidak ada.
  • Kode bahasa tidak valid digunakan, atau jika jenis kode bahasa bukan string.
  • Nilai multilingual adalah string dan bukan boolean.

Dapatkan Status pekerjaan impor

Gunakan permintaan GET berikut untuk mendapatkan status impor proyek Anda. Ganti nilai tempat penampung di bawah ini dengan nilai Anda sendiri.

URL Permintaan

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/import/jobs/{JOB-ID}?api-version={API-VERSION}
Tempat penampung Nilai Contoh
{ENDPOINT} Titik akhir untuk mengautentikasi permintaan API Anda. https://<your-custom-subdomain>.cognitiveservices.azure.com
{PROJECT-NAME} Nama proyek Anda. Nilai ini peka huruf besar/kecil. myProject
{JOB-ID} ID untuk menemukan status pelatihan model Anda. Nilai ini ada di nilai header location yang Anda terima di langkah sebelumnya. xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx
{API-VERSION} Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Pelajari selengkapnya tentang versi API lain yang tersedia 2022-05-01

Header

Gunakan header berikut untuk mengautentikasi permintaan Anda.

Kunci Nilai
Ocp-Apim-Subscription-Key Kunci sumber daya Anda. Digunakan untuk mengautentikasi permintaan API Anda.

Latih model Anda

Biasanya setelah Anda membuat proyek, Anda melanjutkan dan mulai menandai dokumen yang Anda miliki di kontainer yang terhubung ke proyek Anda. Untuk mulai cepat ini, Anda telah mengimpor sampel himpunan data yang ditandai dan menginisialisasi proyek Anda dengan contoh file tag JSON.

Mulai latih model Anda

Setelah proyek Anda diimpor, Anda dapat mulai melatih model Anda.

Kirim permintaan POST menggunakan URL, header, dan isi JSON berikut untuk mengirimkan tugas pelatihan. Ganti nilai tempat penampung di bawah ini dengan nilai Anda sendiri.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}
Tempat penampung Nilai Contoh
{ENDPOINT} Titik akhir untuk mengautentikasi permintaan API Anda. https://<your-custom-subdomain>.cognitiveservices.azure.com
{PROJECT-NAME} Nama proyek Anda. Nilai ini peka huruf besar/kecil. myProject
{API-VERSION} Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Pelajari selengkapnya tentang versi API lain yang tersedia 2022-05-01

Header

Gunakan header berikut untuk mengautentikasi permintaan Anda.

Kunci Nilai
Ocp-Apim-Subscription-Key Kunci sumber daya Anda. Digunakan untuk mengautentikasi permintaan API Anda.

Isi permintaan

Gunakan JSON berikut di isi permintaan Anda. Model akan diberikan {MODEL-NAME} setelah pelatihan selesai. Hanya pekerjaan pelatihan yang berhasil yang akan menghasilkan model.

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}
Kunci Tempat penampung Nilai Contoh
modelLabel {MODEL-NAME} Nama model yang akan ditetapkan ke model Anda setelah berhasil dilatih. myModel
trainingConfigVersion {CONFIG-VERSION} Ini adalah versi model yang akan digunakan untuk melatih model. 2022-05-01
evaluationOptions Opsi untuk membagi data Anda di seluruh set pelatihan dan pengujian. {}
jenis percentage Memisahkan metode. Nilai yang mungkin adalah percentage atau manual. Lihat Cara melatih model untuk informasi selengkapnya. percentage
trainingSplitPercentage 80 Persentase data anda yang ditandai untuk disertakan dalam set pelatihan. Nilai yang disarankan adalah 80. 80
testingSplitPercentage 20 Persentase data anda yang ditandai untuk disertakan dalam set pengujian. Nilai yang disarankan adalah 20. 20

Catatan

trainingSplitPercentage dan testingSplitPercentage hanya diperlukan jika Kind disetel ke percentage dan jumlah kedua persentase harus sama dengan 100.

Setelah Anda mengirim permintaan API, Anda akan menerima respons 202 yang menunjukkan bahwa pekerjaan telah dikirimkan dengan benar. Di header respons, ekstrak nilai location. Nilai ini akan diformat seperti ini:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} digunakan untuk mengidentifikasi permintaan Anda, karena operasi ini tidak sinkron. Anda dapat menggunakan URL ini untuk mendapatkan status pelatihan.

Dapatkan status pekerjaan pelatihan

Pelatihan bisa memakan waktu antara 10 dan 30 menit. Anda dapat menggunakan permintaan berikut untuk terus melakukan polling status pekerjaan pelatihan hingga berhasil diselesaikan.

Gunakan permintaan GET berikut untuk mendapatkan status kemajuan pelatihan model Anda. Ganti nilai tempat penampung di bawah ini dengan nilai Anda sendiri.

URL Permintaan

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}
Tempat penampung Nilai Contoh
{ENDPOINT} Titik akhir untuk mengautentikasi permintaan API Anda. https://<your-custom-subdomain>.cognitiveservices.azure.com
{PROJECT-NAME} Nama proyek Anda. Nilai ini peka huruf besar/kecil. myProject
{JOB-ID} ID untuk menemukan status pelatihan model Anda. Nilai ini ada di nilai header location yang Anda terima di langkah sebelumnya. xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx
{API-VERSION} Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Lihat Siklus hidup model untuk mempelajari selengkapnya mengenai versi API lain yang tersedia. 2022-05-01

Header

Gunakan header berikut untuk mengautentikasi permintaan Anda.

Kunci Nilai
Ocp-Apim-Subscription-Key Kunci sumber daya Anda. Digunakan untuk mengautentikasi permintaan API Anda.

Isi Respons

Setelah mengirim permintaan, Anda akan mendapatkan respons berikut.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

sebarkan model anda

Biasanya setelah melatih model, Anda akan meninjau detail evaluasi dan melakukan perbaikan jika perlu. Dalam mulai cepat ini, Anda hanya akan menyebarkan model Anda, dan membuatnya tersedia untuk Anda coba di Language Studio, atau Anda dapat memanggil API prediksi.

Mengirimkan pekerjaan penyebaran

Kirim permintaan PUT menggunakan URL, header, dan isi JSON berikut untuk mengirimkan tugas penyebaran. Ganti nilai tempat penampung di bawah ini dengan nilai Anda sendiri.

{Endpoint}/language/authoring/analyze-text/projects/{projectName}/deployments/{deploymentName}?api-version={API-VERSION}
Tempat penampung Nilai Contoh
{ENDPOINT} Titik akhir untuk mengautentikasi permintaan API Anda. https://<your-custom-subdomain>.cognitiveservices.azure.com
{PROJECT-NAME} Nama proyek Anda. Nilai ini peka huruf besar/kecil. myProject
{DEPLOYMENT-NAME} Nama penyebaran Anda. Nilai ini peka huruf besar/kecil. staging
{API-VERSION} Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Pelajari selengkapnya tentang versi API lain yang tersedia 2022-05-01

Header

Gunakan header berikut untuk mengautentikasi permintaan Anda.

Kunci Nilai
Ocp-Apim-Subscription-Key Kunci sumber daya Anda. Digunakan untuk mengautentikasi permintaan API Anda.

Isi permintaan

Gunakan JSON berikut dalam isi permintaan Anda. Gunakan nama model yang akan Anda tetapkan ke penyebaran.

{
  "trainedModelLabel": "{MODEL-NAME}"
}
Kunci Tempat penampung Nilai Contoh
trainedModelLabel {MODEL-NAME} Nama model yang akan ditetapkan ke penyebaran Anda. Anda hanya dapat menetapkan model yang berhasil dilatih. Nilai ini peka huruf besar/kecil. myModel

Setelah Anda mengirim permintaan API, Anda akan menerima respons 202 yang menunjukkan bahwa pekerjaan telah dikirimkan dengan benar. Di header respons, ekstrak nilai operation-location. Nilai ini akan diformat seperti ini:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/deployments/{DEPLOYMENT-NAME}/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} digunakan untuk mengidentifikasi permintaan Anda, karena operasi ini tidak sinkron. Anda dapat menggunakan URL ini untuk mendapatkan status penyebaran.

Dapatkan status pekerjaan penyebaran

Gunakan permintaan GET berikut untuk menanyakan status tugas penyebaran. Anda dapat menggunakan URL yang Anda terima dari langkah sebelumnya, atau mengganti nilai tempat penampung di bawah ini dengan nilai Anda sendiri.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/deployments/{DEPLOYMENT-NAME}/jobs/{JOB-ID}?api-version={API-VERSION}
Tempat penampung Nilai Contoh
{ENDPOINT} Titik akhir untuk mengautentikasi permintaan API Anda. https://<your-custom-subdomain>.cognitiveservices.azure.com
{PROJECT-NAME} Nama proyek Anda. Nilai ini peka huruf besar/kecil. myProject
{DEPLOYMENT-NAME} Nama penyebaran Anda. Nilai ini peka huruf besar/kecil. staging
{JOB-ID} ID untuk menemukan status pelatihan model Anda. Ini ada dalam nilai header location yang Anda terima di langkah sebelumnya. xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx
{API-VERSION} Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Pelajari selengkapnya tentang versi API lain yang tersedia 2022-05-01

Header

Gunakan header berikut untuk mengautentikasi permintaan Anda.

Kunci Nilai
Ocp-Apim-Subscription-Key Kunci sumber daya Anda. Digunakan untuk mengautentikasi permintaan API Anda.

Isi Respons

Setelah mengirim permintaan, Anda akan mendapatkan respons berikut. Pertahankan polling titik akhir ini sampai parameter status berubah menjadi "berhasil". Anda harus mendapatkan 200 kode untuk menunjukkan keberhasilan permintaan.

{
    "jobId":"{JOB-ID}",
    "createdDateTime":"{CREATED-TIME}",
    "lastUpdatedDateTime":"{UPDATED-TIME}",
    "expirationDateTime":"{EXPIRATION-TIME}",
    "status":"running"
}

Mengklasifikasikan teks

Setelah model berhasil disebarkan, Anda dapat mulai menggunakannya untuk mengklasifikasikan teks Anda melalui API Prediksi. Dalam himpunan data sampel yang Anda unduh sebelumnya, Anda dapat menemukan beberapa dokumen pengujian yang dapat Anda gunakan dalam langkah ini.

Mengirimkan tugas klasifikasi teks kustom

Gunakan permintaan POST ini untuk memulai tugas klasifikasi teks.

{ENDPOINT}/language/analyze-text/jobs?api-version={API-VERSION}
Tempat penampung Nilai Contoh
{ENDPOINT} Titik akhir untuk mengautentikasi permintaan API Anda. https://<your-custom-subdomain>.cognitiveservices.azure.com
{API-VERSION} Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Lihat Siklus hidup model untuk mempelajari selengkapnya tentang versi API lain yang tersedia. 2022-05-01

Header

Kunci Nilai
Ocp-Apim-Subscription-Key Kunci Anda yang menyediakan akses menuju API ini.

Isi

{
  "displayName": "Classifying documents",
  "analysisInput": {
    "documents": [
      {
        "id": "1",
        "language": "{LANGUAGE-CODE}",
        "text": "Text1"
      },
      {
        "id": "2",
        "language": "{LANGUAGE-CODE}",
        "text": "Text2"
      }
    ]
  },
  "tasks": [
     {
      "kind": "CustomMultiLabelClassification",
      "taskName": "Multi Label Classification",
      "parameters": {
        "projectName": "{PROJECT-NAME}",
        "deploymentName": "{DEPLOYMENT-NAME}"
      }
    }
  ]
}
Kunci Tempat penampung Nilai Contoh
displayName {JOB-NAME} Nama pekerjaan Anda. MyJobName
documents [{},{}] Daftar dokumen untuk menjalankan tugas. [{},{}]
id {DOC-ID} Nama dokumen atau ID. doc1
language {LANGUAGE-CODE} String yang menentukan kode bahasa untuk dokumen. Jika kunci ini tidak ditentukan, layanan akan mengasumsikan bahasa default proyek yang dipilih selama pembuatan proyek. Lihat dukungan bahasa untuk daftar kode bahasa yang didukung. en-us
text {DOC-TEXT} Tugas dokumen untuk menjalankan tugas. Lorem ipsum dolor sit amet
tasks Daftar tugas yang ingin kita jalankan. []
taskName CustomMultiLabelClassification Nama tugas CustomMultiLabelClassification
parameters Daftar parameter untuk diteruskan ke tugas.
project-name {PROJECT-NAME} Nama untuk proyek Anda. Nilai ini peka huruf besar/kecil. myProject
deployment-name {DEPLOYMENT-NAME} Nama penyebaran Anda. Nilai ini peka huruf besar/kecil. prod

Respons

Anda akan menerima respons 202 yang menunjukkan keberhasilan. Di header respons, ekstrak operation-location. operation-location diformat sebagai berikut:

{ENDPOINT}/language/analyze-text/jobs/{JOB-ID}?api-version={API-VERSION}

Anda bisa menggunakan URL ini untuk mengkueri status penyelesaian tugas dan mendapatkan hasil saat tugas selesai.

Dapatkan hasil tugas

Gunakan permintaan GET berikut ini untuk mengkueri status/hasil tugas klasifikasi kustom.

{ENDPOINT}/language/analyze-text/jobs/{JOB-ID}?api-version={API-VERSION}
Tempat penampung Nilai Contoh
{ENDPOINT} Titik akhir untuk mengautentikasi permintaan API Anda. https://<your-custom-subdomain>.cognitiveservices.azure.com
{API-VERSION} Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi model terkini yang dirilis. 2022-05-01

Header

Kunci Nilai
Ocp-Apim-Subscription-Key Kunci Anda yang menyediakan akses menuju API ini.

Isi Respons

Respons akan menjadi dokumen JSON dengan parameter berikut.

{
  "createdDateTime": "2021-05-19T14:32:25.578Z",
  "displayName": "MyJobName",
  "expirationDateTime": "2021-05-19T14:32:25.578Z",
  "jobId": "xxxx-xxxxxx-xxxxx-xxxx",
  "lastUpdateDateTime": "2021-05-19T14:32:25.578Z",
  "status": "succeeded",
  "tasks": {
    "completed": 1,
    "failed": 0,
    "inProgress": 0,
    "total": 1,
    "items": [
      {
        "kind": "customMultiClassificationTasks",
        "taskName": "Classify documents",
        "lastUpdateDateTime": "2020-10-01T15:01:03Z",
        "status": "succeeded",
        "results": {
          "documents": [
            {
              "id": "{DOC-ID}",
              "classes": [
                  {
                      "category": "Class_1",
                      "confidenceScore": 0.0551877357
                  }
              ],
              "warnings": []
            }
          ],
          "errors": [],
          "modelVersion": "2020-04-01"
        }
      }
    ]
  }
}

Membersihkan sumber daya

Saat tidak lagi membutuhkan proyek, Anda dapat menghapusnya dengan permintaan DELETE berikut. Ganti nilai tempat penampung dengan nilai Anda sendiri.

{Endpoint}/language/authoring/analyze-text/projects/{projectName}?api-version={API-VERSION}
Tempat penampung Nilai Contoh
{ENDPOINT} Titik akhir untuk mengautentikasi permintaan API Anda. https://<your-custom-subdomain>.cognitiveservices.azure.com
{PROJECT-NAME} Nama untuk proyek Anda. Nilai ini peka huruf besar/kecil. myProject
{API-VERSION} Versi API yang Anda panggil. Nilai yang dirujuk di sini adalah untuk versi terbaru yang dirilis. Pelajari selengkapnya tentang versi API lain yang tersedia 2022-05-01

Header

Gunakan header berikut untuk mengautentikasi permintaan Anda.

Kunci Nilai
Ocp-Apim-Subscription-Key Kunci sumber daya Anda. Digunakan untuk mengautentikasi permintaan API Anda.

Setelah Anda mengirim permintaan API, Anda akan menerima respons 202 yang menunjukkan keberhasilan, yang berarti proyek Anda telah dihapus. Hasil call yang sukses dengan header Operation-Location yang digunakan untuk memeriksa status pekerjaan.

Langkah berikutnya

Setelah membuat model klasifikasi teks, Anda dapat:

Ketika Anda mulai membuat proyek klasifikasi teks Anda sendiri, gunakan artikel petunjuk untuk mempelajari lebih lanjut cara mengembangkan model Anda secara lebih detail: