Cara membuat proyek NER kustom

Gunakan artikel ini untuk mempelajari cara menyiapkan persyaratan ini untuk memulai dengan NER kustom dan membuat proyek.

Prasyarat

Sebelum Anda mulai menggunakan NER kustom, Anda akan perlu:

Membuat sumber daya Bahasa

Sebelum mulai menggunakan NER kustom, Anda memerlukan sumber daya Bahasa Azure AI. Disarankan untuk membuat sumber daya Bahasa dan menyambungkan akun penyimpanan ke dalamnya di portal Azure. Membuat sumber daya di portal Microsoft Azure memungkinkan Anda membuat akun penyimpanan Azure pada saat yang sama, dengan semua izin yang diperlukan telah dikonfigurasi sebelumnya. Anda juga dapat membaca lebih lanjut di artikel untuk mempelajari cara menggunakan sumber daya yang sudah ada sebelumnya, dan mengonfigurasinya untuk bekerja dengan pengenalan entitas bernama kustom.

Anda juga akan memerlukan akun penyimpanan Azure tempat Anda akan mengunggah dokumen .txt yang akan digunakan untuk melatih model untuk mengekstraksi entitas.

Catatan

  • Anda harus memiliki peran pemilik yang ditetapkan pada grup sumber daya untuk membuat sumber daya Bahasa.
  • Jika akan menyambungkan akun penyimpanan yang sudah ada, Anda harus memiliki peran pemilik yang ditetapkan.

Membuat sumber daya Bahasa dan menyambungkan akun penyimpanan

Anda dapat membuat sumber daya dengan cara berikut:

  • Portal Microsoft Azure
  • Studio Bahasa
  • PowerShell

Catatan

Anda tidak boleh memindahkan akun penyimpanan ke grup sumber daya atau langganan yang berbeda setelah ditautkan dengan sumber daya Bahasa.

Buat sumber daya baru menggunakan portal Microsoft Azure

  1. Masuk ke portal Azure untuk membuat sumber daya Bahasa Azure AI baru.

  2. Di jendela yang muncul, pilih Klasifikasi teks kustom & pengenalan entitas bernama kustom dari fitur kustom. Pilih Lanjutkan untuk membuat sumber daya Anda di bagian bawah layar.

    Cuplikan layar memperlihatkan klasifikasi teks kustom & pengenalan entitas bernama kustom di portal Azure.

  3. Buat sumber daya Bahasa dengan detail berikut.

    Nama Deskripsi
    Langganan Langganan Azure Anda.
    Grup sumber daya Grup sumber daya yang akan berisi sumber daya Anda. Anda dapat menggunakan ruang kerja yang sudah ada atau membuat baru.
    Wilayah Wilayah sumber daya Bahasa Anda. Misalnya, "US Barat 2".
    Nama Nama sumber daya Anda.
    Tingkatan harga Tingkat harga untuk sumber daya Bahasa Anda. Anda dapat menggunakan tingkat Gratis (F0) untuk mencoba layanan.

    Catatan

    Jika Anda mendapatkan pesan yang mengatakan "akun masuk Anda bukan pemilik grup sumber daya akun penyimpanan yang dipilih", akun Anda harus memiliki peran pemilik yang ditetapkan pada grup sumber daya sebelum Anda dapat membuat sumber daya Bahasa. Hubungi pemilik langganan Azure Anda untuk bantuan.

  4. Di bagian Klasifikasi teks kustom & pengenalan entitas bernama kustom, pilih akun penyimpanan yang sudah ada atau pilih Akun penyimpanan baru. Nilai ini untuk membantu Anda memulai, dan belum tentu menjadi nilai akun penyimpanan yang ingin Anda gunakan di lingkungan produksi. Untuk menghindari latensi selama membangun proyek Anda, sambungkan ke akun penyimpanan di wilayah yang sama dengan sumber daya Bahasa Anda.

    Nilai akun penyimpanan Nilai yang direkomendasikan
    Nama akun penyimpanan Nama apa pun
    Jenis akun penyimpanan LRS Standar
  5. Pastikan Pemberitahuan AI yang Bertanggung Jawab diperiksa. Lalu, pilih Tinjau + buat di bagian bawah halaman, kemudian pilih Buat.

Membuat sumber daya Bahasa baru dari Studio Bahasa

Jika ini pertama kalinya Anda masuk, Anda akan melihat jendela di Studio Bahasa yang akan memungkinkan Anda memilih sumber daya Bahasa yang ada atau membuat yang baru. Anda juga dapat membuat sumber daya dengan mengklik ikon pengaturan di sudut kanan atas, memilih Sumber Daya, lalu mengklik Buat sumber daya baru.

Buat sumber daya Bahasa dengan detail berikut.

Detail instans Nilai yang diperlukan
Langganan Azure Pilih langganan Azure Anda
Grup sumber daya Azure Grup sumber daya Azure Anda
Nama sumber daya Azure Nama sumber daya Azure Anda
Lokasi Wilayah sumber daya Bahasa Anda.
Tingkatan harga Tingkat harga sumber daya Bahasa Anda.

Penting

  • Pastikan untuk mengaktifkan Identitas Terkelola saat Anda membuat sumber daya Bahasa.
  • Membaca dan Mengonfirmasikan pemberitahuan AI yang Bertanggung Jawab

Untuk menggunakan pengenalan entitas bernama kustom, Anda harus membuat akun penyimpanan Azure jika Anda belum memilikinya.

Membuat sumber daya Bahasa baru menggunakan PowerShell

Anda dapat membuat sumber daya baru dan akun penyimpanan menggunakan templat CLI berikut dan file parameter, yang di-host pada GitHub.

Mengedit nilai berikut dalam file parameter:

Nama Parameter Deskripsi nilai
name Nama sumber Bahasa Anda
location Wilayah di mana sumber daya Anda dihosting. Untuk informasi selengkapnya, lihat Batas layanan.
sku Tingkat harga sumber daya Anda.
storageResourceName Nama akun penyimpanan Anda
storageLocation Wilayah di mana akun penyimpanan Anda dihosting.
storageSkuType SKU akun penyimpanan Anda.
storageResourceGroupName Grup sumber daya akun penyimpanan Anda

Gunakan perintah PowerShell berikut untuk menyebarkan templat Azure Resource Manager (ARM) dengan file yang Anda edit.

New-AzResourceGroupDeployment -Name ExampleDeployment -ResourceGroupName ExampleResourceGroup `
  -TemplateFile <path-to-arm-template> `
  -TemplateParameterFile <path-to-parameters-file>

Lihat dokumentasi templat ARM untuk informasi tentang menyebarkan templat dan file parameter.

Catatan

  • Proses menyambungkan akun penyimpanan ke sumber daya Bahasa tidak dapat dibatalkan, tidak dapat diputuskan nanti.
  • Anda hanya dapat menyambungkan sumber daya bahasa ke satu akun penyimpanan.

Menggunakan sumber daya Bahasa yang sudah ada sebelumnya

Anda dapat menggunakan sumber daya Bahasa yang ada untuk memulai dengan NER kustom selama sumber daya ini memenuhi persyaratan di bawah ini:

Persyaratan Deskripsi
Wilayah Pastikan sumber daya Anda yang sudah ada tersedia di salah satu wilayah yang didukung. Jika tidak, Anda perlu membuat sumber daya baru di salah satu wilayah ini.
Tingkatan harga Pelajari selengkapnya tentang tingkatan harga yang didukung.
Identitas terkelola Pastikan pengaturan identitas terkelola sumber daya diaktifkan. Jika tidak, baca bagian selanjutnya.

Untuk menggunakan pengenalan entitas bernama kustom, Anda harus membuat akun penyimpanan Azure jika Anda belum memilikinya.

Mengaktifkan manajemen identitas untuk sumber daya Anda

Sumber daya Bahasa Anda harus memiliki manajemen identitas, untuk mengaktifkannya menggunakan portal Azure:

  1. Buka sumber daya Bahasa
  2. Dari menu sebelah kiri, di bawah bagian Manajemen Sumber Daya, pilih Identitas
  3. Dari tab Sistem yang ditetapkan, pastikan untuk mengatur Status ke Aktif

Mengaktifkan fitur pengenalan entitas bernama kustom

Pastikan untuk mengaktifkan fitur Klasifikasi teks kustom/Pengenalan Entitas Bernama Kustom dari portal Azure.

  1. Buka sumber daya bahasa Anda di portal Azure.
  2. Dari menu sisi kiri, di bawah bagian Manajemen Sumber Daya, pilih Fitur.
  3. Aktifkan klasifikasi teks kustom/ fitur Pengenalan Entitas Bernama Kustom.
  4. Koneksi akun penyimpanan Anda.
  5. Pilih Terapkan.

Penting

  • Pastikan sumber daya Bahasa Anda memiliki peran kontributor data blob penyimpanan yang ditetapkan pada akun penyimpanan yang Anda sambungkan.

Tambahkan peran yang diperlukan

Gunakan langkah-langkah berikut dalam menetapkan peran yang diperlukan untuk akun penyimpanan dan sumber daya Bahasa Anda.

Gambar animasi yang menunjukkan cara menetapkan peran di portal Azure.

Peran untuk sumber daya Bahasa Azure AI Anda

  1. Buka akun penyimpanan atau sumber daya bahasa Anda di portal Azure.

  2. Pilih Access Control (IAM) di menu panel navigasi kiri.

  3. Pilih Tambahkan untuk Menambahkan Penetapan Peran, dan pilih peran yang sesuai untuk akun Anda.

    Anda harus memiliki peran pemilik atau kontributor yang ditetapkan pada sumber daya Bahasa.

  4. Dalam Tetapkan akses ke, pilih Pengguna, grup, atau perwakilan layanan

  5. Pilih opsi Pilih anggota

  6. Pilih nama pengguna Anda. Anda dapat mencari nama pengguna di bidang Pilih. Ulangi proses ini untuk semua peran.

  7. Ulangi langkah-langkah ini untuk semua akun pengguna yang memerlukan akses ke sumber daya ini.

Peran untuk akun penyimpanan Anda

  1. Buka akun penyimpanan di portal Microsoft Azure.
  2. Pilih Access Control (IAM) di menu panel navigasi kiri.
  3. Pilih Tambahkan untuk Menambahkan Penetapan Peran, dan pilih peran Kontributor data blob penyimpanan di akun penyimpanan.
  4. Dalam Tetapkan akses ke, pilih Identitas terkelola.
  5. Pilih opsi Pilih anggota
  6. Pilih langganan Anda, dan Bahasa sebagai identitas terkelola. Anda dapat mencari nama pengguna di bidang Pilih.

Penting

Jika Anda memiliki jaringan virtual atau titik akhir privat, pastikan untuk memilih Izinkan layanan Azure pada daftar layanan tepercaya untuk mengakses akun penyimpanan ini di portal Azure.

Mengaktifkan CORS untuk akun penyimpanan Anda

Pastikan untuk mengizinkan metode (GET, PUT, DELETE) saat mengaktifkan Berbagi Sumber Daya Lintas Asal (CORS). Tetapkan bidang asal yang diizinkan ke https://language.cognitive.azure.com. Izinkan semua header dengan menambahkan * ke nilai header yang diizinkan, dan tetapkan usia maksimum ke 500.

Cuplikan layar yang menunjukkan cara menggunakan CORS untuk akun penyimpanan.

Membuat proyek pengenalan entitas karakter kustom

Setelah sumber daya dan kontainer penyimpanan Anda dikonfigurasi, buat proyek NER kustom baru. Proyek adalah area kerja untuk membangun model AI kustom berdasarkan data Anda. Proyek Anda hanya dapat diakses oleh Anda dan orang lain yang memiliki akses kontributor ke sumber daya Azure yang digunakan. Jika Anda telah memberi label data, Anda dapat menggunakannya untuk memulai dengan mengimpor proyek.

  1. Masuk ke Studio Bahasa. Sebuah jendela akan muncul yang memungkinkan Anda memilih langganan dan sumber daya Language. Pilih sumber daya yang Anda buat pada langkah di atas.

  2. Di bawah bagian Ekstrak informasi dari Language Studio, pilih Pengenalan entitas bernama kustom.

    Cuplikan layar yang menampilkan lokasi NER kustom pada halaman arahan Studio Bahasa.

  3. Pilih Buat proyek baru dari menu atas di halaman proyek Anda. Membuat proyek akan memungkinkan Anda memberi tag pada data, melatih, mengevaluasi, meningkatkan, dan menyebarkan model Anda.

    Cuplikan layar halaman pembuatan proyek.

  4. Setelah Anda mengeklik, Buat proyek baru, layar akan muncul untuk memungkinkan Anda menghubungkan akun penyimpanan Anda. Jika Anda sudah menyambungkan akun penyimpanan, Anda akan melihat akun penyimpanan tersambung. Jika tidak, pilih akun penyimpanan Anda dari menu dropdown yang muncul dan pilih akun penyimpanan Koneksi; ini akan mengatur peran yang diperlukan untuk akun penyimpanan Anda. Langkah ini mungkin akan mengembalikan kesalahan jika Anda tidak ditetapkan sebagai pemilik di akun penyimpanan.

    Catatan

    • Anda hanya perlu melakukan langkah ini sekali untuk setiap sumber daya baru yang Anda gunakan.
    • Proses ini tidak dapat diubah, jika Anda menghubungkan akun penyimpanan ke sumber daya Bahasa, Anda tidak dapat memutuskannya nanti.
    • Anda hanya dapat menghubungkan sumber daya Bahasa Anda ke satu akun penyimpanan.

    Cuplikan layar yang menunjukkan layar koneksi penyimpanan.

  5. Masukkan informasi proyek, termasuk nama, deskripsi, dan bahasa pemrogram file dalam proyek Anda. Jika Anda menggunakan contoh himpunan data, pilih Bahasa Inggris. Anda tidak akan dapat mengubah nama proyek Anda nanti. Pilih Selanjutnya

    Tip

    Himpunan data Anda tidak harus sepenuhnya dalam bahasa pemrogram yang sama. Anda dapat memiliki beberapa dokumen, masing-masing dengan bahasa yang didukung berbeda. Jika himpunan data Anda berisi dokumen dari bahasa yang berbeda atau jika Anda mengharapkan teks dari bahasa yang berbeda selama waktu proses, pilih opsi aktifkan himpunan data multi-bahasa saat Anda memasukkan informasi dasar untuk proyek Anda. Opsi ini dapat diaktifkan nanti dari halaman Pengaturan proyek.

  6. Pilih kontainer tempat Anda mengunggah himpunan data Anda. Jika Anda telah melabeli data pastikan data mengikuti format yang didukung dan memilih Ya, file saya sudah diberi label dan saya telah memformat file label JSON dan memilih file label dari menu drop-down. Pilih Selanjutnya.

  7. Tinjau data yang Anda masukkan dan pilih Buat Project.

Impor proyek

Jika Anda telah memberi label data, Anda dapat menggunakannya dengan memulai layanan. Pastikan bahwa data berlabel Anda mengikuti format data yang diterima.

  1. Masuk ke Studio Bahasa. Sebuah jendela akan muncul yang memungkinkan Anda memilih langganan dan sumber daya Language. Pilih sumber daya Bahasa Anda.

  2. Di bawah bagian Ekstrak informasi dari Language Studio, pilih Pengenalan entitas bernama kustom.

    Cuplikan layar yang menunjukkan lokasi fitur NER kustom pada halaman arahan Studio Bahasa.

  3. Pilih Buat proyek baru dari menu atas di halaman proyek Anda. Membuat proyek akan memungkinkan Anda memberi tag pada data, melatih, mengevaluasi, meningkatkan, dan menyebarkan model Anda.

    Cuplikan layar halaman pembuatan proyek.

  4. Setelah memilih Buat proyek baru, layar akan muncul untuk memungkinkan Anda menyambungkan akun penyimpanan Anda. Jika tidak dapat menemukan akun penyimpanan Anda, pastikan Anda membuat sumber daya menggunakan langkah-langkah yang disarankan. Jika sudah menyambungkan akun penyimpanan ke sumber daya Bahasa, Anda akan melihat akun penyimpanan Anda tersambung.

    Catatan

    • Cukup lakukan langkah ini sekali untuk setiap sumber daya baru yang Anda gunakan.
    • Proses ini tidak dapat diubah, jika Anda menghubungkan akun penyimpanan ke sumber daya Bahasa, Anda tidak dapat memutuskannya nanti.
    • Anda hanya dapat menghubungkan sumber daya Bahasa Anda ke satu akun penyimpanan.

    Cuplikan layar koneksi penyimpanan untuk proyek baru.

  5. Masukkan informasi proyek, termasuk nama, deskripsi, dan bahasa pemrogram file dalam proyek Anda. Anda tidak akan dapat mengubah nama proyek Anda nanti. Pilih Selanjutnya.

    Tip

    Himpunan data Anda tidak harus sepenuhnya dalam bahasa pemrogram yang sama. Anda dapat memiliki beberapa dokumen, masing-masing dengan bahasa yang didukung berbeda. Jika himpunan data Anda berisi dokumen dari bahasa yang berbeda atau jika Anda mengharapkan teks dari bahasa yang berbeda selama waktu proses, pilih opsi aktifkan himpunan data multi-bahasa saat Anda memasukkan informasi dasar untuk proyek Anda. Opsi ini dapat diaktifkan nanti dari halaman Pengaturan proyek.

  6. Pilih kontainer tempat Anda mengunggah himpunan data Anda.

  7. Pilih Ya, file saya sudah diberi label dan saya telah memformat file label JSON dan memilih file label dari menu drop-down di bawah ini untuk mengimpor file label JSON Anda. Pastikan sudah mengikuti format yang didukung.

  8. Pilih Selanjutnya.

  9. Tinjau data yang Anda masukkan dan pilih Buat Project.

Mendapatkan detail proyek

  1. Buka halaman pengaturan proyek di Language Studio.

  2. Anda dapat melihat detail proyek.

  3. Di halaman ini Anda dapat memperbarui deskripsi proyek dan mengaktifkan/menonaktifkan himpunan data Multibahasa dalam pengaturan proyek.

  4. Anda juga dapat melihat akun penyimpanan dan kontainer yang tersambung ke sumber daya Bahasa Anda.

  5. Anda juga dapat mengambil kunci sumber daya utama dari halaman ini.

    Cuplikan layar halaman pengaturan proyek di Language Studio.

Menghapus proyek

Jika Anda tidak memerlukan proyek lagi, Anda dapat menghapus proyek menggunakan Language Studio. Pilih Pengenalan entitas bernama kustom (NER) dari bagian atas, pilih proyek yang ingin Anda hapus, lalu pilih Hapus dari menu atas.

Langkah berikutnya

  • Anda harus memiliki gagasan tentang skema proyek yang akan digunakan untuk memberikan label pada data Anda.

  • Setelah proyek Anda dibuat, Anda dapat mulai melabeli data Anda, yang akan menunjukkan cara menginterpretasikan teks pada model ekstraksi entitas, dan digunakan pelatihan dan evaluasi.