Mengonversi ke Nilai Indikator

Artikel ini menjelaskan komponen perancang Azure Machine Learning.

Gunakan komponen Konversi ke Nilai Indikator di perancang Azure Machine Learning untuk mengubah kolom yang berisi nilai kategoris menjadi serangkaian kolom indikator biner.

Operasi Konversi ke Nilai Indikator memungkinkan konversi data kategoris menjadi nilai indikator yang diwakili oleh biner atau beberapa nilai. Proses ini adalah salah satu langkah praproses data yang sering digunakan untuk model klasifikasi.

Komponen ini juga menghasilkan definisi transformasi yang digunakan untuk mengonversi ke nilai indikator. Anda dapat menggunakan kembali transformasi ini pada himpunan data lain yang memiliki skema yang sama, dengan menggunakan komponen Terapkan Transformasi.

Cara mengonfigurasi Konversi ke Nilai Indikator

  1. Temukan Konversi ke Nilai Indikator dan seret ke draf alur Anda. Anda dapat menemukan komponen ini dalam kategori Transformasi Data.

    Catatan

    Anda dapat menggunakan komponen Edit Metadata sebelum komponen Konversi ke Nilai Indikator untuk menandai kolom target sebagai kategoris.

  2. Sambungkan komponen Konversi ke Nilai Indikator ke himpunan data yang berisi kolom yang ingin Anda konversi.

  3. Pilih Edit kolom untuk memilih satu atau beberapa kolom kategoris.

  4. Pilih opsi Timpa kolom kategoris jika Anda hanya ingin menghasilkan kolom Boolean baru. Secara default, opsi ini tidak aktif.

    Tip

    Jika Anda memilih opsi untuk menimpa, kolom sumber sebenarnya tidak dihapus atau dimodifikasi. Sebaliknya, kolom baru dihasilkan dan disajikan dalam himpunan data output dan kolom sumber akan tetap tersedia di ruang kerja. Jika Anda perlu melihat data asli, Anda dapat menggunakan komponen Tambahkan Kolom kapan saja untuk menambahkan kembali kolom sumber.

  5. Kirim alur.

Hasil

Misalkan Anda memiliki kolom dengan skor yang menunjukkan apakah server memiliki peluang kegagalan yang tinggi, sedang, atau rendah.

ID Server Skor kegagalan
10301 Kurang Penting
10302 Medium
10303 Sangat Penting

Saat Anda menerapkan Konversi ke Nilai Indikator, perancang mengonversi satu kolom label menjadi beberapa kolom yang berisi nilai Boolean:

ID Server Skor kegagalan - Rendah Skor kegagalan - Sedang Skor kegagalan - Tinggi
10301 1 0 0
10302 0 1 0
10303 0 0 1

Berikut cara kerja konversi:

  • Di kolom Skor kegagalan yang menjelaskan risiko, hanya ada tiga nilai yang mungkin (Tinggi, Sedang, dan Rendah) dan tidak ada nilai yang hilang. Jadi, tepat tiga kolom baru dibuat.

  • Kolom indikator baru diberi nama berdasarkan judul kolom dan nilai kolom sumber, menggunakan pola ini: <kolom sumber>- <nilai data>.

  • Harus ada 1 tepat di satu kolom indikator dan 0 di semua kolom indikator lainnya karena setiap server hanya dapat memiliki satu peringkat risiko.

Anda sekarang dapat menggunakan tiga kolom indikator sebagai fitur dalam model pembelajaran mesin.

Komponen menampilkan dua output:

  • Himpunan data hasil: Himpunan data dengan kolom nilai indikator yang dikonversi. Kolom yang tidak dipilih untuk dibersihkan juga "diteruskan".
  • Transformasi nilai indikator: Transformasi data yang digunakan untuk mengonversi ke nilai indikator, yang dapat disimpan di ruang kerja Anda dan nantinya diterapkan ke data baru.

Menerapkan operasi nilai indikator tersimpan ke data baru

Jika Anda perlu untuk sering mengulangi operasi nilai indikator, Anda dapat menyimpan langkah-langkah manipulasi data sebagai transformasi untuk menggunakannya kembali dengan himpunan data yang sama. Ini berguna jika Anda harus sering melakukan reimportasi dan kemudian membersihkan data yang memiliki skema yang sama.

  1. Tambahkan komponen Terapkan Transformasi ke alur Anda.

  2. Tambahkan himpunan data yang ingin Anda bersihkan, dan sambungkan himpunan data tersebut ke port input sebelah kanan.

  3. Perluas grup Transformasi Data di panel kiri perancang. Temukan transformasi yang telah disimpan dan seret ke dalam alur.

  4. Sambungkan transformasi telah disimpan tersebut ke port input kiri Terapkan Transformasi.

    Saat Anda menerapkan transformasi tersimpan, Anda tidak bisa memilih kolom mana yang akan ditransformasi. Ini karena transformasinya telah ditentukan dan diterapkan secara otomatis ke jenis data yang ditentukan dalam operasi asli.

  5. Kirim alur.

Catatan teknis

Bagian ini berisi detail implementasi, tips, dan jawaban terkait pertanyaan yang sering diajukan.

Tips penggunaan

  • Hanya kolom yang ditandai sebagai kategoris yang dapat dikonversi menjadi kolom indikator. Jika Anda melihat kesalahan berikut, kemungkinan salah satu kolom yang Anda pilih tidak kategoris:

    Kesalahan 0056: Kolom dengan nama <nama kolom> tidak termasuk dalam kategori yang diizinkan.

    Secara default, sebagian besar kolom untai ditangani sebagai fitur untai, jadi Anda harus menandainya secara eksplisit sebagai kategoris menggunakan Edit Metadata.

  • Tidak ada batasan jumlah kolom yang bisa Anda konversi ke kolom indikator. Namun, karena setiap kolom nilai dapat menghasilkan beberapa kolom indikator, Anda mungkin ingin mengonversi dan meninjau hanya beberapa kolom sekaligus.

  • Jika kolom berisi nilai yang hilang, kolom indikator terpisah dibuat untuk kategori yang hilang, dengan nama ini: <kolom sumber>- Tidak ada

  • Jika kolom yang Anda konversi ke nilai indikator berisi angka, kolom tersebut harus ditandai sebagai kategoris seperti kolom fitur lainnya. Setelah Anda melakukannya, angka diperlakukan sebagai nilai diskrit. Misalnya, jika Anda memiliki kolom numerik dengan nilai MPG mulai dari 25 hingga 30, kolom indikator baru akan dibuat untuk setiap nilai diskrit:

    Pastikan Jalan raya mpg -25 Jalan raya mpg -26 Jalan raya mpg -27 Jalan raya mpg -28 Jalan raya mpg -29 Jalan raya mpg -30
    Mobil Contoso 0 0 0 0 0 1
  • Untuk menghindari penambahan terlalu banyak dimensi pada himpunan data Anda. Kami menyarankan agar Anda terlebih dahulu memeriksa jumlah nilai dalam kolom dan bin atau mengukur data dengan tepat.

Langkah berikutnya

Lihat kumpulan komponen yang tersedia untuk Azure Machine Learning.