Memberi label data Anda menggunakan Language Studio

Artikel
12/19/2023

Pelabelan data adalah langkah penting dalam siklus hidup pengembangan. Dalam langkah ini, Anda memberi label dokumen Anda dengan entitas baru yang Anda tentukan dalam skema Anda untuk mengisi komponen yang dipelajari. Data ini akan digunakan pada langkah berikutnya saat melatih model Anda sehingga model Anda dapat belajar dari data berlabel untuk mengetahui entitas mana yang akan diekstrak. Jika Anda sudah memiliki data berlabel, Anda dapat langsung mengimpornya ke proyek Anda, tetapi Anda perlu memastikan bahwa data Anda mengikuti format data yang diterima. Lihat membuat proyek untuk mempelajari selengkapnya tentang mengimpor data berlabel ke dalam proyek Anda. Jika data Anda belum diberi label, Anda dapat melabelinya di Language Studio.

Prasyarat

Sebelum Anda dapat memberi label pada data Anda, Anda perlu:

Proyek yang berhasil dibuat dengan akun penyimpanan blob Azure yang dikonfigurasi
Data teks yang telah diunggah ke akun penyimpanan Anda.

Lihat siklus hidup pengembangan proyek untuk informasi selengkapnya.

Panduan pelabelan data

Setelah menyiapkan data Anda, merancang skema dan membuat proyek, Anda harus memberi label data Anda. Pelabelan data Anda penting sehingga model Anda mengetahui kata-kata mana yang akan dikaitkan dengan jenis entitas yang perlu Anda ekstrak. Saat Anda memberi label data di Language Studio (atau mengimpor data berlabel), label ini disimpan dalam dokumen JSON di kontainer penyimpanan yang telah Anda sambungkan ke proyek ini.

Saat Anda memberi label pada data Anda, ingatlah:

Anda tidak dapat menambahkan label untuk Analitik Teks untuk entitas kesehatan karena mereka adalah entitas bawaan yang telah dilatih sebelumnya. Anda hanya dapat menambahkan label ke kategori entitas baru yang Anda tentukan selama definisi skema.

Jika Anda ingin meningkatkan pengenalan untuk entitas bawaan, Anda dapat memperluasnya dengan menambahkan komponen daftar saat Menentukan skema Anda.

Secara umum, lebih banyak data berlabel mengarah ke hasil yang lebih baik, asalkan data diberi label secara akurat.
Ketepatan, konsistensi, dan kelengkapan data berlabel Anda adalah faktor kunci untuk menentukan performa model.
- Beri label dengan tepat: Selalu beri label setiap entitas ke jenis yang tepat. Hanya sertakan apa yang ingin Anda ekstrak, hindari data yang tidak perlu di label Anda.
- Beri label secara konsisten: Entitas yang sama harus memiliki label yang sama di semua dokumen.
- Beri label sepenuhnya: Beri label semua instans entitas di semua dokumen Anda.
Catatan

Tidak ada jumlah label tetap yang dapat menjamin model Anda akan melakukan yang terbaik. Performa model tergantung pada kemungkinan ambiguitas dalam skema Anda, dan kualitas data berlabel Anda. Namun demikian, sebaiknya anda memiliki sekitar 50 instans berlabel per jenis entitas.

Memberi label pada data Anda

Gunakan langkah-langkah berikut untuk memberi label pada data Anda:

Buka halaman proyek Anda di Language Studio.
Dari menu samping, pilih Beri tag pada data. Anda dapat menemukan daftar semua dokumen di kontainer penyimpanan Anda.

Tip

Anda dapat menggunakan filter di menu atas untuk melihat dokumen yang tidak berlabel sehingga Anda dapat mulai melabeli. Anda juga dapat menggunakan filter untuk melihat dokumen yang diberi label dengan jenis entitas tertentu.
Ubah ke tampilan dokumen tunggal dari sisi kiri di menu atas atau pilih dokumen tertentu untuk memulai pelabelan. Anda dapat menemukan daftar semua dokumen .txt yang tersedia di proyek Anda di sebelah kiri. Anda dapat menggunakan tombol Kembali dan Berikutnya dari bagian bawah halaman untuk menavigasi dokumen Anda.

Catatan

Jika Anda mengaktifkan beberapa bahasa untuk proyek Anda, Anda akan menemukan tarik-turun Bahasa di menu atas, yang memungkinkan Anda memilih bahasa setiap dokumen. Bahasa Ibrani tidak didukung dengan proyek multibahasa.
Di panel sisi kanan, Anda dapat menggunakan tombol Tambahkan jenis entitas untuk menambahkan entitas tambahan ke proyek yang Anda lewatkan selama definisi skema.

Anda memiliki dua opsi untuk memberi label pada dokumen Anda:

Opsi	Deskripsi
Label menggunakan kuas	Pilih ikon kuas di samping jenis entitas di panel kanan, lalu sorot teks dalam dokumen yang ingin Anda anotasi dengan jenis entitas ini.
Label menggunakan menu	Sorot kata yang ingin Anda beri label sebagai entitas, dan sebuah menu akan muncul. Pilih jenis entitas yang ingin Anda tetapkan untuk entitas ini.

Tangkapan layar di bawah ini menunjukkan pelabelan menggunakan kuas.

Di panel sisi kanan di bawah pivot Label, Anda dapat menemukan semua jenis entitas dalam proyek Anda dan jumlah instans berlabel per masing-masing. Entitas bawaan akan ditampilkan untuk referensi tetapi Anda tidak akan dapat memberi label untuk entitas bawaan ini saat telah dilatih sebelumnya.
Di bagian bawah panel sisi kanan, Anda bisa menambahkan dokumen yang saat ini Anda tampilkan ke set pelatihan atau set pengujian. Secara default, semua dokumen ditambahkan ke set pelatihan Anda. Lihat set pelatihan dan pengujian untuk informasi tentang bagaimana mereka digunakan untuk pelatihan dan evaluasi model.

Tip

Jika Anda berencana menggunakan Pemisahan data otomatis, gunakan opsi default untuk menetapkan semua dokumen ke dalam set pelatihan Anda.
Di bawah pivot Distribusi, Anda dapat melihat distribusi di seluruh set pelatihan dan pengujian. Anda memiliki dua opsi untuk melihat:
- Total instans tempat Anda dapat menampilkan jumlah semua instans berlabel dari jenis entitas tertentu.
- Dokumen dengan setidaknya satu label di mana setiap dokumen dihitung jika berisi setidaknya satu instans berlabel entitas ini.
Saat Anda memberi label, perubahan Anda disinkronkan secara berkala, jika belum disimpan, Anda akan menemukan peringatan di bagian atas halaman Anda. Jika Anda ingin menyimpan secara manual, pilih tombol Simpan label di bagian bawah halaman.

Hapus label

Untuk menghapus label

Pilih entitas yang ingin Anda hapus labelnya.
Gulir menu yang muncul, dan pilih Hapus label.

Menghapus entitas

Anda tidak dapat menghapus salah satu Analitik Teks untuk entitas kesehatan yang telah dilatih sebelumnya karena memiliki komponen bawaan. Anda hanya diizinkan untuk menghapus kategori entitas yang baru ditentukan. Untuk menghapus entitas, pilih ikon hapus di samping entitas yang ingin Anda hapus. Menghapus entitas akan menghapus semua instans berlabelnya dari himpunan data Anda.

Langkah berikutnya

Setelah Anda memberi label pada data, Anda dapat mulai melatih model yang akan belajar berdasarkan data Anda.

Bagikan melalui