Konversi ke Himpunan Data

Artikel ini menjelaskan cara menggunakan komponen Konversi ke Himpunan Data di perancang Azure Machine Learning untuk mengonversi data apa pun untuk alur ke format internal perancang.

Konversi tidak diperlukan dalam banyak kasus. Azure Machine Learning secara implisit mengonversi data ke format himpunan data aslinya ketika operasi apa pun dilakukan pada data.

Sebaiknya simpan data ke format himpunan data jika Anda telah melakukan semacam normalisasi atau pembersihan pada sekumpulan data, dan Anda ingin memastikan bahwa perubahan tersebut digunakan di saluran pipa lain.

Catatan

Konversi ke Himpunan Data hanya mengubah format data. Ini tidak menyimpan salinan baru data di ruang kerja. Untuk menyimpan himpunan data, klik ganda port output, pilih Simpan sebagai himpunan data, dan masukkan nama baru.

Cara menggunakan Konversi ke Himpunan Data

Sebaiknya gunakan komponen Edit Metadata untuk menyiapkan himpunan data sebelum menggunakan Konversi ke Himpunan Data. Anda dapat menambahkan atau mengubah nama kolom, menyesuaikan jenis data, dan membuat perubahan lain sesuai kebutuhan.

  1. Tambahkan komponen Konversi ke Himpunan Data pada alur Anda. Anda dapat menemukan komponen ini dalam kategori Transformasi data pada perancang.

  2. Sambungkan ke komponen mana pun yang menghasilkan himpunan data.

    Selama data datar, Anda dapat mengonversinya menjadi himpunan data. Ini termasuk data yang dimuat melalui Impor data, data yang dibuat melalui Masukkan Data Secara Manual, atau himpunan data yang ditransformasikan melalui Terapkan Transformasi.

  3. Di daftar drop-down Tindakan, indikasikan jika Anda ingin melakukan pembersihan pada data sebelum Anda menyimpan himpunan data:

    • Tidak ada: Gunakan data apa adanya.

    • SetMissingValue: Tetapkan nilai tertentu ke nilai yang hilang dalam himpunan data. Tempat penampung default-nya adalah karakter tanda tanya (?), tetapi Anda bisa menggunakan opsi Nilai hilang kustom untuk memasukkan nilai yang berbeda. Misalnya, jika Anda memasukkan Taksi untuk Nilai hilang kustom, maka semua contoh Taksi dalam himpunan data akan diubah ke nilai yang hilang.

    • ReplaceValues: Gunakan opsi ini untuk menentukan satu nilai persis yang akan diganti dengan nilai persis lainnya. Anda bisa mengganti nilai yang hilang atau nilai kustom dengan mengatur metode Ganti:

      • Hilang: Pilih opsi ini untuk mengganti nilai yang hilang dalam himpunan data input. Untuk Nilai Baru, masukkan nilai untuk mengganti nilai yang hilang.
      • Kustom: Pilih opsi ini untuk mengganti kustom dalam himpunan data input. Untuk Nilai kustom, masukkan nilai yang ingin Anda temukan. Misalnya, jika data Anda berisi untai (karakter) obs yang digunakan sebagai tempat penampung untuk nilai yang hilang, Anda memasukkan obs. Untuk Nilai baru, masukkan nilai baru untuk mengganti untai (karakter) asli.

    Perhatikan bahwa operasi ReplaceValues hanya berlaku untuk kecocokan persis. Misalnya, untai (karakter) ini tidak akan terpengaruh: obs., obsolete.

  4. Kirimkan alur.

Hasil

  • Untuk menyimpan himpunan data yang dihasilkan dengan nama baru, pilih ikon Daftarkan himpunan data di bawah tab Output di panel kanan komponen.

Catatan teknis

  • Komponen apa pun yang mengambil himpunan data sebagai input juga dapat mengambil data dalam file CSV atau file TSV. Sebelum kode komponen dijalankan, input diproses sebelumnya. Prapemrosesan setara dengan menjalankan komponen Konversi ke Himpunan Data pada input.

  • Anda tidak dapat mengonversi dari format SVMLight ke himpunan data.

  • Saat Anda menentukan operasi penggantian kustom, operasi pencarian dan penggantian berlaku untuk menyelesaikan nilai. Kecocokan parsial tidak diperbolehkan. Misalnya, Anda dapat mengganti 3 dengan -1 atau dengan 33, tetapi Anda tidak dapat mengganti 3 dalam angka dua digit seperti 35.

  • Untuk operasi penggantian kustom, penggantian akan diam-diam gagal jika Anda menggunakan sebagai pengganti karakter apa pun yang tidak sesuai dengan jenis data kolom saat ini.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.