Komponen Data Terpisah

Artikel ini menjelaskan komponen dalam perancang Azure Machine Learning.

Gunakan komponen Data Terpisah untuk membagi himpunan data menjadi dua kumpulan yang berbeda.

Komponen ini berguna saat Anda perlu memisahkan data ke dalam kumpulan pelatihan dan pengujian. Anda juga dapat mengkustomisasi cara data dibagi. Beberapa opsi mendukung pengacakan data. Lainnya disesuaikan untuk jenis data atau jenis model tertentu.

Konfigurasikan komponen

Tip

Sebelum Anda memilih mode pemisah, baca semua opsi untuk menentukan jenis pemisahan yang Anda butuhkan. Jika Anda mengubah mode pemisah, semua opsi lainnya mungkin direset.

  1. Tambahkan komponen Data Terpisah ke alur Anda di perancang. Anda dapat menemukan komponen ini di bawah Transformasi Data, dalam kategori Sampel dan Pemisahan.

  2. Mode pemisah: Pilih salah satu mode berikut, bergantung pada jenis data yang Anda miliki dan cara Anda ingin membaginya. Setiap mode pemisah memiliki opsi yang berbeda.

    • Baris terpisah: Gunakan opsi ini jika Anda hanya ingin membagi data menjadi dua bagian. Anda dapat menentukan persentase data yang akan dimasukkan ke dalam setiap bagian. Secara default, data dibagi 50/50.

      Anda juga dapat mengacak pilihan baris di setiap grup, dan menggunakan pengambilan sampel bertingkat. Dalam pengambilan sampel bertingkat, Anda harus memilih satu kolom data yang Anda inginkan agar nilainya dibagi secara merata di antara dua himpunan data hasil.

    • Pemisahan Ekspresi Reguler: Pilih opsi ini saat Anda ingin membagi himpunan data Anda dengan menguji satu kolom untuk satu nilai.

      Misalnya, jika Anda menganalisis sentimen, Anda dapat memeriksa keberadaan nama produk tertentu di bidang teks. Anda kemudian dapat membagi himpunan data menjadi baris dengan nama produk target dan baris tanpa nama produk target.

    • Pemisahan Ekspresi Relatif: Gunakan opsi ini kapan pun Anda ingin menerapkan kondisi ke kolom angka. Angka tersebut dapat menjadi bidang tanggal/waktu, kolom yang berisi usia atau jumlah dolar, atau bahkan persentase. Misalnya, Anda mungkin ingin membagi himpunan data berdasarkan biaya item, mengelompokkan orang menurut rentang usia, atau memisahkan data menurut tanggal kalender.

Memisahkan baris

  1. Tambahkan komponen Data Terpisah ke alur Anda di perancang, dan hubungkan himpunan data yang ingin Anda pisahkan.

  2. Untuk Mode pemisah, pilih Baris Terpisah.

  3. Pecahan baris dalam himpunan data output pertama: Gunakan opsi ini untuk menentukan berapa banyak baris yang akan masuk ke output pertama (sisi kiri). Semua baris lainnya akan masuk ke output kedua (sisi kanan).

    Rasio menunjukkan persentase baris yang dikirim ke himpunan data output pertama, sehingga Anda harus memasukkan angka desimal antara 0 dan 1.

    Misalnya, jika Anda memasukkan 0,75 sebagai nilai, himpunan data akan dibagi 75/25. Dalam pemisahan ini, 75 persen baris akan dikirim ke himpunan data output pertama. 25 persen sisanya akan dikirim ke himpunan data output kedua.

  4. Pilih opsi Pemisahan acak jika Anda ingin mengacak pilihan data menjadi dua grup. Ini adalah opsi yang disukai saat Anda membuat pelatihan dan menguji himpunan data.

  5. Random Seed: Parameter ini akan diabaikan jika Randomized split diatur ke false. Masukkan nilai bilangan bulat non-negatif untuk memulai urutan pseudorandom instans yang akan digunakan. Seed default ini digunakan di semua komponen yang menghasilkan angka acak.

    Menentukan nilai awal membuat hasilnya dapat direproduksi. Jika Anda perlu mengulangi hasil operasi terpisah, Anda harus menentukan nilai awal yang sama untuk pembuat angka acak.

  6. Pemisahan bertingkat: Atur opsi ini ke True untuk memastikan bahwa dua himpunan data output berisi sampel representatif dari nilai di kolom strata atau kolom kunci stratifikasi.

    Dengan pengambilan sampel bertingkat, data dibagi sedemikian rupa sehingga setiap himpunan data output mendapatkan persentase yang kira-kira sama untuk setiap nilai target. Misalnya, Anda mungkin ingin memastikan bahwa set pelatihan dan pengujian Anda seimbang dengan hasil atau dengan kolom lain (seperti jenis kelamin).

  7. Kirimkan alur.

Memilih ekspresi reguler

  1. Tambahkan komponen Data Terpisah ke alur Anda, dan hubungkan sebagai input ke himpunan data yang ingin Anda pisahkan.

  2. Untuk Mode pemisahan, pilih Pemisahan ekspresi reguler.

  3. Dalam kotak Ekspresi reguler, masukkan ekspresi reguler yang valid.

    Ekspresi reguler harus mengikuti sintaksis Python untuk ekspresi reguler.

  4. Kirimkan alur.

    Berdasarkan ekspresi reguler yang Anda berikan, himpunan data dibagi menjadi dua set baris: baris dengan nilai yang cocok dengan ekspresi dan semua baris yang tersisa.

Contoh berikut menunjukkan cara membagi himpunan data dengan menggunakan opsi Ekspresi reguler.

Satu kata utuh

Contoh ini dimasukkan ke dalam himpunan data pertama semua baris yang berisi teks Gryphon dalam kolom Text. Tindakan ini menempatkan baris lain ke dalam output kedua Split Data.

    \"Text" Gryphon  

Substring

Contoh ini mencari string yang ditentukan dalam posisi apa pun di dalam kolom kedua himpunan data. Posisi ditandai di sini oleh nilai indeks 1. Pencocokan ini peka huruf besar/kecil.

(\1) ^[a-f]

Himpunan data hasil pertama berisi semua baris di mana kolom indeks dimulai dengan salah satu karakter ini: a, b, c, d, e, f. Semua baris lainnya diarahkan ke output kedua.

Memilih ekspresi relatif

  1. Tambahkan komponen Data Terpisah ke alur Anda, dan hubungkan sebagai input ke himpunan data yang ingin Anda pisahkan.

  2. Untuk Mode pemisah, pilih Ekspresi Relatif.

  3. Dalam kotak Ekspresi relasional, masukkan ekspresi yang melakukan operasi perbandingan pada satu kolom.

    Untuk Kolom numerik:

    • Kolom ini berisi angka dari jenis data numerik apa pun, termasuk jenis data tanggal dan waktu.
    • Ekspresi dapat mereferensikan maksimal satu nama kolom.
    • Use the ampersand character, &, for the AND operation. Gunakan karakter pipe, |, untuk operasi OR.
    • Operator berikut didukung: <, >, <=, >=, ==, !=.
    • Anda tidak dapat mengelompokkan operasi dengan menggunakan ( dan ).

    Untuk kolom String:

    • Operator berikut didukung: ==, !=.
  4. Kirimkan alur.

    Ekspresi membagi himpunan data menjadi dua set baris: baris dengan nilai yang memenuhi kondisi, dan semua baris yang tersisa.

Contoh berikut menunjukkan cara membagi himpunan data dengan menggunakan opsi Ekspresi Relatif di komponen Data Terpisah.

Tahun Kalender

Skenario umum adalah membagi himpunan data berdasarkan tahun. Ekspresi berikut memilih semua baris di mana nilai dalam kolom Year lebih besar dari 2010.

\"Year" > 2010

Ekspresi tanggal harus memperhitungkan semua bagian tanggal yang disertakan dalam kolom data. Format tanggal dalam kolom data harus konsisten.

Misalnya, di kolom tanggal yang menggunakan format mmddyyyy, ekspresi harus seperti ini:

\"Date" > 1/1/2010

Indeks kolom

Ekspresi berikut menunjukkan cara Anda dapat menggunakan indeks kolom untuk memilih semua baris di kolom pertama himpunan data yang berisi nilai kurang dari atau sama dengan 30, tetapi tidak sama dengan 20.

(\0)<=30 & !=20

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.