Membuat proyek pelabelan data dan mengekspor label

Pelajari cara membuat dan menjalankan proyek untuk melabeli gambar atau memberi label data teks di Azure Machine Learning. Gunakan pelabelan data terbantu mesin pembelajaran, atau pelabelan human-in-the-loop, untuk membantu tugas.

Kapabilitas pelabelan data

Penting

Gambar atau teks data harus tersedia di penyimpanan data blob Azure. (Jika tidak memiliki penyimpanan data yang ada, Anda dapat mengunggah file selama pembuatan proyek.)

Data gambar dapat berupa file dengan salah satu jenis berikut: ".jpg", ".jpeg", ".png", ".jpe", ".jfif", ".bmp", ".tif", ".tiff". Setiap file adalah item yang akan diberi label. Data teks dapat berupa file ".txt" atau ".csv".

  • Untuk file ".txt", setiap file mewakili satu item yang akan diberi label.
  • Untuk file ".csv", setiap baris file adalah satu item yang akan diberi label.

Pelabelan data Azure Machine Learning adalah pusat untuk membuat, mengelola, dan memantau proyek pelabelan:

  • Koordinasikan data, label, dan anggota tim untuk mengelola tugas pelabelan secara efisien.
  • Melacak kemajuan dan mempertahankan antrean tugas pelabelan yang belum selesai.
  • Mulai dan hentikan proyek dan kontrol kemajuan pelabelan.
  • Tinjau data berlabel dan ekspor data berlabel dalam format COCO atau sebagai himpunan data Azure Machine Learning.

Prasyarat

  • Data yang ingin diberi label, baik dalam file lokal atau di penyimpanan blob Azure.
  • Kumpulan label yang ingin diterapkan.
  • Petunjuk pelabelan.
  • Langganan Azure. Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.
  • Ruang kerja Azure Machine Learning. Lihat Membuat ruang kerja Azure Machine Learning.

Membuat proyek pelabelan data

Proyek pelabelan dikelola dari Azure Machine Learning. Anda menggunakan halaman Proyek pelabelan untuk mengelola proyek Anda.

Jika data Anda sudah berada di penyimpanan Azure Blob, Anda harus membuatnya tersedia sebagai penyimpanan data sebelum membuat proyek pelabelan. Untuk contoh penggunaan penyimpanan data, lihat Tutorial: Membuat proyek pelabelan klasifikasi gambar pertama Anda.

Untuk membuat proyek, pilih Tambahkan proyek. Beri nama yang sesuai untuk proyek dan pilih Jenis tugas pelabelan. Nama proyek tidak dapat digunakan kembali, meskipun proyek dihapus di masa mendatang.

Proyek pelabelan gambar

  • Pilih Gambar untuk membuat proyek pelabelan gambar.

    Pembuatan proyek pelabelan untuk pelabelan gambar

    • Pilih Multi-kelas Klasifikasi Gambar untuk proyek jika Anda hanya ingin menerapkan satu label dari sekumpulan label ke gambar.
    • Pilih Multi-label Klasifikasi Gambar untuk proyek jika Anda ingin menerapkan satu atau beberapa label dari sekumpulan label ke gambar. Misalnya, foto anjing mungkin diberi label dengan anjing dan siang hari.
    • Pilih Identifikasi Objek (Kotak Pembatas) untuk proyek jika Anda ingin menetapkan label dan kotak pembatas ke setiap objek dalam gambar.
    • Pilih Segmentasi Instans (Polygon) untuk proyek jika Anda ingin menetapkan label dan menggambar poligon di sekitar setiap objek dalam gambar.
  • Pilih Berikutnya jika Anda siap untuk melanjutkan.

Proyek pelabelan teks (pratinjau)

Penting

Pelabelan teks saat ini dalam pratinjau publik. Versi pratinjau disediakan tanpa perjanjian tingkat layanan, dan tidak disarankan untuk beban kerja produksi. Fitur tertentu mungkin tidak didukung atau mungkin memiliki kemampuan yang dibatasi. Untuk mengetahui informasi selengkapnya, lihat Ketentuan Penggunaan Tambahan untuk Microsoft Azure Previews.

  • Pilih Teks untuk membuat proyek pelabelan teks.

    Pembuatan proyek pelabelan untuk pelabelan teks

    • Pilih Multi-kelas Klasifikasi Teks (Pratinjau) untuk proyek jika Anda hanya ingin menerapkan satu label dari sekumpulan label ke setiap bagian teks.
    • Pilih Multi-label Klasifikasi Teks (Pratinjau) untuk proyek jika Anda ingin menerapkan satu atau beberapa label dari sekumpulan label ke setiap bagian teks.
  • Pilih Berikutnya jika Anda siap untuk melanjutkan.

Menentukan data yang akan diberi label

Jika Anda sudah membuat himpunan data yang berisi data Anda, pilih dari menu drop-down Pilih himpunan data yang sudah ada. Atau, pilih Buat himpunan data untuk menggunakan penyimpanan data Azure yang sudah ada atau untuk mengunggah file lokal.

Catatan

Proyek tidak boleh berisi lebih dari 500.000 file. Jika himpunan data Anda memiliki lebih banyak file, hanya 500.000 file pertama yang akan dimuat.

Membuat himpunan data dari penyimpanan data Azure

Di kebanyakan kasus, file lokal dapat diunggah. Tetapi Azure Storage Explorer menyediakan cara yang lebih cepat dan lebih andal untuk mentransfer data dalam jumlah besar. Kami menyarankan Storage Explorer sebagai cara default untuk memindahkan file.

Untuk membuat himpunan data dari data yang sudah Anda simpan di penyimpanan Azure Blob:

  1. Pilih Buat himpunan data > dari penyimpanan data.
  2. Tetapkan Nama ke himpunan data Anda.
  3. Pilih Jenis himpunan data. Hanya jenis himpunan data file yang didukung untuk gambar. Jenis file dan tabel tersedia untuk pelabelan teks.
  4. Pilih penyimpanan data.
  5. Jika data Anda berada dalam subfolder di dalam penyimpanan blob, pilih Telusur untuk memilih jalur.
    • Tambahkan "/**" ke jalur untuk menyertakan semua file dalam subfolder jalur yang dipilih.
    • Tambahkan "* / .*" untuk menyertakan semua data dalam kontainer saat ini dan subfoldernya.
  6. Masukkan deskripsi himpunan data Anda.
  7. Pilih Selanjutnya.
  8. Konfirmasi detailnya. Pilih Kembali untuk mengubah pengaturan atau Buat untuk membuat himpunan data.

Membuat himpunan data dari data yang diunggah

Untuk mengunggah data secara langsung:

  1. Pilih Buat himpunan data > Dari file lokal.
  2. Tetapkan Nama ke himpunan data Anda.
  3. Pilih Jenis himpunan data. Hanya jenis himpunan data file yang didukung untuk gambar. Jenis file dan tabel tersedia untuk pelabelan teks.
  4. Opsional: Pilih Pengaturan tingkat lanjut untuk mengkustomisasi penyimpanan data, kontainer, dan jalur ke data Anda.
  5. Pilih Telusur untuk memilih file lokal yang akan diunggah.
  6. Masukkan deskripsi himpunan data Anda.
  7. Pilih Selanjutnya.
  8. Konfirmasi detailnya. Pilih Kembali untuk mengubah pengaturan atau Buat untuk membuat himpunan data.

Data akan diunggah ke penyimpanan blob default ("workspaceblobstore") ruang kerja Azure Machine Learning Anda.

Mengonfigurasi refresh bertambah bertahap

Jika Anda berencana menambahkan file baru ke himpunan data, gunakan refresh bertambah bertahap untuk menambahkan file baru ini ke proyek Anda. Jika refresh bertambah bertahap diaktifkan, himpunan data dicentang secara berkala agar gambar baru ditambahkan ke proyek, berdasarkan laju penyelesaian pelabelan. Pemeriksaan data baru berhenti jika proyek berisi maksimum 500.000 file.

Untuk menambahkan lebih banyak file ke proyek, gunakan Azure Storage Explorer untuk mengunggah ke folder yang sesuai di penyimpanan blob.

Centang kotak Aktifkan refresh bertambah bertahap jika Anda menginginkan proyek Anda terus memantau data baru di penyimpanan data. Data ini akan ditarik ke dalam proyek Anda sekali sehari saat diaktifkan, jadi Anda harus menunggu setelah Anda menambahkan data baru ke penyimpanan data sebelum muncul di proyek Anda. Anda dapat melihat tanda waktu saat data terakhir direfresh di bagian Refresh bertambah bertahap pada tab Detail untuk proyek Anda.

Hapus centang kotak ini jika Anda tidak ingin file baru yang muncul di penyimpanan data ditambahkan ke proyek Anda.

Menentukan kelas label

Di halaman Kelas label, tentukan kumpulan kelas untuk mengategorikan data Anda. Akurasi dan kecepatan pelabel Anda dipengaruhi oleh kemampuannya dalam memilih di antara kelas. Misalnya, alih-alih mengeja genus dan spesies lengkap tanaman atau hewan, gunakan kode bidang atau singkat genus.

Masukkan satu label per baris. Gunakan tombol + untuk menambahkan baris baru. Jika Anda memiliki lebih dari 3 atau 4 label tetapi kurang dari 10, Anda mungkin ingin mengawali nama dengan angka ("1: ", "2: ") sehingga pelabel dapat menggunakan tombol angka untuk mempercepat pekerjaan mereka.

Menjelaskan tugas pelabelan data

Tugas pelabelan perlu dijelaskan secara mendetail. Di halaman Petunjuk pelabelan, Anda dapat menambahkan tautan ke situs eksternal untuk petunjuk pelabelan, atau menyediakan petunjuk dalam kotak edit di halaman. Pertahankan petunjuk tetap berorientasi pada tugas dan sesuai untuk audiens. Pertimbangkan pertanyaan berikut:

  • Apa label yang akan mereka lihat, dan bagaimana mereka akan memilih di antara mereka? Apakah ada teks referensi untuk dirujuk?
  • Apa yang harus mereka lakukan jika tidak ada label yang tampaknya sesuai?
  • Apa yang harus mereka lakukan jika beberapa label tampaknya sesuai?
  • Ambang batas keyakinan apa yang harus mereka terapkan pada label? Apakah Anda ingin "tebakan terbaik" jika mereka tidak yakin?
  • Apa yang harus mereka lakukan dengan objek ketertarikan yang tumpang tindih atau tertutup sebagian?
  • Apa yang harus mereka lakukan jika objek ketertarikan terpotong oleh tepi gambar?
  • Apa yang harus mereka lakukan setelah mengirimkan label jika mereka merasa telah membuat kesalahan?

Untuk kotak pembatas, pertanyaan penting meliputi:

  • Bagaimana kotak pembatas ditentukan untuk tugas ini? Haruskah sepenuhnya berada di dalam objek, atau haruskah di luar objek? Haruskah dipotong sedekat mungkin, atau apakah beberapa penghapusan diizinkan?
  • Tingkat perhatian dan konsistensi apa yang Anda harapkan untuk diterapkan oleh pelabel dalam menentukan kotak pembatas?
  • Bagaimana cara memberi label objek yang ditampilkan sebagian dalam gambar?
  • Bagaimana cara memberi label objek yang sebagian ditutupi oleh objek lain?

Catatan

Perhatikan bahwa pelabel akan dapat memilih 9 label pertama dengan menggunakan tombol angka 1-9.

Menggunakan pelabelan data terbantu ML

Halaman Pelabelan terbantu ML memungkinkan Anda memicu model pembelajaran mesin otomatis untuk mempercepat tugas pelabelan. Ini hanya tersedia untuk pelabelan gambar.

Pada awal proyek pelabelan, item diacak menjadi urutan acak untuk mengurangi potensi bias. Namun, setiap bias yang ada dalam set data akan tercermin dalam model terlatih. Misalnya, jika 80% item Anda memiliki satu kelas, sekitar 80% data yang digunakan untuk melatih model akan memiliki kelas tersebut. Pelatihan ini belum termasuk pembelajaran aktif.

Pilih Aktifkan pelabelan terbantu ML dan tentukan GPU untuk mengaktifkan pelabelan terbantu, yang terdiri dari dua fase:

  • Pengklusteran (untuk pelabelan gambar)
  • Pelabelan sebelumnya

Jumlah pasti data berlabel yang diperlukan untuk memulai pelabelan terbantu bukanlah angka tetap. Perbedaan signifikan bisa terjadi antara satu proyek pelabelan dan proyek lainnya. Untuk beberapa proyek, pra-label atau tugas kluster terkadang dapat dilihat setelah 300 item diberi label secara manual. Pelabelan Terbantu ML menggunakan teknik yang disebut Transfer Pembelajaran, yang menggunakan model pra-latih untuk memulai proses pelatihan. Jika kelas himpunan data Anda mirip dengan kelas yang ada di model yang telah dilatih sebelumnya, pra-label mungkin tersedia setelah hanya beberapa ratus item yang diberi label secara manual. Jika himpunan data Anda berbeda secara signifikan dengan data yang digunakan untuk melakukan pra-latih model, mungkin diperlukan waktu lebih lama.

Karena label akhir masih mengandalkan input dari pelabel, teknologi ini terkadang disebut pelabelan human in the loop.

Catatan

Pelabelan data terbantu ML tidak mendukung akun penyimpanan default yang diamankan di belakang jaringan virtual. Anda harus menggunakan akun penyimpanan non-default untuk pelabelan data terbantu ML. Akun penyimpanan non-default dapat diamankan di belakang jaringan virtual.

Pengklusteran

Setelah sejumlah label dikirimkan, model pembelajaran mesin untuk klasifikasi mulai mengelompokkan item serupa. Gambar serupa ini disajikan kepada pelabel pada layar yang sama untuk mempercepat pemberian tag manual. Pengklusteran sangat berguna ketika pelabel melihat kisi 4, 6, atau 9 gambar.

Setelah model pembelajaran mesin dilatih pada data yang diberi label secara manual, model dipotong ke lapisan terakhir yang sepenuhnya terhubung. Gambar yang tidak berlabel kemudian diteruskan melalui model yang dipotong dalam proses yang umumnya dikenal sebagai "penyematan" atau "fiturisasi." Ini menyematkan setiap gambar dalam ruang dimensi tinggi yang ditentukan oleh lapisan model ini. Gambar yang terdekat di ruang tersebut digunakan untuk tugas pengklusteran.

Fase pengklusteran tidak muncul untuk model deteksi objek atau untuk klasifikasi teks.

Pelabelan sebelumnya

Setelah label yang cukup dikirimkan, model klasifikasi digunakan untuk memprediksi tag. Atau model deteksi objek digunakan untuk memprediksi kotak pembatas. Pelabel kini melihat halaman yang berisi label yang diprediksi yang sudah ada pada setiap item. Untuk deteksi objek, kotak yang diprediksi juga ditampilkan. Tugas selanjutnya adalah meninjau prediksi tersebut dan memperbaiki gambar yang salah label sebelum mengirimkan halaman.

Setelah model pembelajaran mesin dilatih pada data yang diberi label secara manual, model dievaluasi pada serangkaian pengujian item yang diberi label secara manual untuk menentukan akurasinya pada ambang batas keyakinan yang berbeda. Proses evaluasi ini digunakan untuk menentukan ambang batas keyakinan di atas yang modelnya cukup akurat untuk menunjukkan pra-label. Model kemudian dievaluasi terhadap data yang tidak berlabel. Item dengan prediksi yang lebih yakin daripada ambang batas ini digunakan untuk pra-pelabelan.

Menginisialisasi proyek pelabelan data

Setelah proyek pelabelan diinisialisasi, beberapa aspek proyek tidak dapat diubah. Anda tidak bisa mengubah jenis tugas atau himpunan data. Anda dapat mengubah label dan URL untuk deskripsi tugas. Tinjau pengaturan secara seksama sebelum membuat proyek. Setelah mengirimkan proyek, Anda dikembalikan ke beranda Pelabelan Data, yang akan memperlihatkan proyek sebagai Menginisialisasi.

Catatan

Halaman ini mungkin tidak di-refresh secara otomatis. Jadi, setelah jeda, refresh halaman secara manual untuk melihat status proyek sebagai Dibuat.

Menjalankan dan memantau proyek

Setelah Anda menginisialisasi proyek, Azure akan mulai menjalankannya. Pilih proyek di halaman Pelabelan Data utama untuk melihat detail proyek

Untuk menjeda atau memulai ulang proyek, ubah status Berjalan di kanan atas. Anda hanya dapat memberi label data saat proyek berjalan.

Dasbor

Tab Dasbor memperlihatkan kemajuan tugas pelabelan.

Dasbor pelabelan data

Bagan kemajuan memperlihatkan banyaknya item yang telah diberi label dan banyaknya item yang belum selesai. Item yang tertunda mungkin:

  • Belum ditambahkan ke tugas
  • Disertakan dalam tugas yang ditetapkan ke pelabel tetapi belum selesai
  • Dalam antrean tugas yang belum ditetapkan

Bagian tengah memperlihatkan antrean tugas yang belum ditetapkan. Jika pelabelan terbantu ML nonaktif, bagian ini memperlihatkan jumlah tugas manual yang akan ditetapkan. Jika pelabelan terbantu ML aktif, bagian ini juga akan menampilkan:

  • Tugas yang berisi item kluster dalam antrean
  • Tugas yang berisi item yang diberi label sebelumnya dalam antrean

Selain itu, jika pelabelan terbantu ML diaktifkan, bilah kemajuan kecil menunjukkan waktu saat latihan berikutnya akan terjadi. Bagian Eksperimen memberikan tautan untuk setiap eksekusi pembelajaran mesin.

  • Pelatihan - melatih model untuk memprediksi label
  • Validasi - menentukan apakah prediksi model ini akan digunakan untuk pra-pelabelan item
  • Inferensi - eksekusi prediksi untuk item baru
  • Fiturisasi - mengkluster item (hanya untuk proyek klasifikasi gambar)

Di sisi kanan adalah distribusi label untuk tugas-tugas yang selesai. Ingat bahwa dalam beberapa jenis proyek, item dapat memiliki beberapa label, yang berarti bahwa jumlah total label bisa lebih besar daripada jumlah total item.

Tab Data

Pada tab Data, Anda dapat melihat himpunan data dan meninjau data berlabel. Jika Anda melihat data yang berlabel salah, pilih data tersebut dan pilih Tolak, yang akan menghapus label dan mengembalikan data ke dalam antrean tak berlabel.

Tab Detail

Lihat detail proyek Anda. Di tab ini, Anda dapat:

  • Melihat detail proyek dan himpunan data input
  • Mengaktifkan refresh bertambah bertahap
  • Melihat detail kontainer penyimpanan yang digunakan untuk menyimpan output berlabel dalam proyek Anda
  • Menambahkan label ke proyek Anda
  • Mengedit petunjuk yang Anda berikan ke label
  • Mengedit detail pelabelan terbantu ML, termasuk aktifkan/nonaktifkan

Akses untuk pelabel

Siapa pun yang memiliki akses ke ruang kerja Anda dapat memberi label data dalam proyek Anda. Anda juga dapat mengkustomisasi izin untuk pelabel sehingga mereka dapat mengakses pelabelan tetapi bukan bagian lain dari ruang kerja atau proyek pelabelan Anda. Untuk detail selengkapnya, lihat Mengelola akses ke ruang kerja Azure Machine Learning, dan pelajari cara membuat peran kustom pelabel.

Menambahkan kelas label baru ke proyek

Selama proses pelabelan data, Anda mungkin mendapati bahwa label tambahan diperlukan untuk mengklasifikasikan gambar Anda. Misalnya, sebaiknya Anda menambahkan label "Tidak Diketahui" atau "Lainnya" untuk menunjukkan gambar yang membingungkan.

Gunakan langkah ini untuk menambahkan satu atau beberapa label ke proyek:

  1. Pilih proyek di halaman Pelabelan Data utama.
  2. Di kanan atas halaman, ubah Berjalan ke Dijeda untuk menghentikan pelabel dari aktivitas mereka.
  3. Pilih tab Detail.
  4. Di daftar di sebelah kiri, pilih Kelas label.
  5. Di bagian atas daftar, pilih + Tambahkan Label Tambahkan label
  6. Dalam formulir, tambahkan label baru dan pilih cara melanjutkan. Karena Anda telah mengubah label yang tersedia, Anda memilih cara memperlakukan data yang sudah diberi label:
    • Mulai dari awal, menghapus semua label yang ada. Pilih opsi ini jika Anda ingin memulai pelabelan dari awal dengan sekumpulan label lengkap baru.
    • Mulai ulang, mempertahankan semua label yang ada. Pilih opsi ini untuk menandai semua data sebagai tanpa label, tetapi pertahankan label yang ada sebagai tag default untuk gambar yang sebelumnya diberi label.
    • Lanjutkan, mempertahankan semua label yang ada. Pilih opsi ini untuk mempertahankan semua data yang sudah diberi label apa adanya, dan mulai gunakan label baru untuk data yang belum diberi label.
  7. Ubah halaman petunjuk jika perlu untuk label baru.
  8. Setelah Anda menambahkan semua label baru, di kanan atas halaman, ubah Dijeda ke Berjalan untuk memulai ulang proyek.

Mengekspor label

Gunakan tombol Ekspor di halaman Detail proyek dari proyek pelabelan Anda. Anda dapat mengekspor data label untuk eksperimentasi Azure Machine Learning kapan saja.

Akses himpunan data Azure Machine Learning yang diekspor di bagian Himpunan data di Azure Machine Learning. Halaman detail himpunan data juga menyediakan kode sampel untuk mengakses label Anda dari Python.

Himpunan data yang diekspor

Pemecahan Masalah

Gunakan tips ini jika Anda melihat salah satu masalah ini.

Masalah Resolusi
Hanya himpunan data yang dibuat di penyimpanan data blob yang dapat digunakan. Ini adalah batasan umum rilis saat ini.
Setelah dibuat, proyek menunjukkan "Menginisialisasi" untuk waktu yang lama. Refresh halaman secara manual. Inisialisasi harus dilanjutkan di sekitar 20 titik data per detik. Kurangnya refresh otomatis adalah masalah umum.
Saat meninjau gambar, gambar baru diberi label tidak ditampilkan. Untuk memuat semua gambar berlabel, pilih tombol Pertama. Tombol Pertama akan membawa Anda kembali ke bagian depan daftar, tetapi memuat semua data berlabel.
Menekan tombol Esc saat melabeli deteksi objek akan membuat label ukuran nol di sudut kiri atas. Pengiriman label dalam status ini gagal. Hapus label dengan mengklik tanda silang di sampingnya.
Tidak dapat menetapkan set tugas ke pelabel tertentu. Ini adalah batasan umum rilis saat ini.

Langkah berikutnya