Komponen Partisi dan Sampel

Artikel ini menjelaskan komponen dalam perancang Azure Machine Learning.

Gunakan komponen Partisi dan Sampel untuk melakukan pengambilan sampel pada himpunan data atau untuk membuat partisi dari himpunan data Anda.

Pengambilan sampel adalah alat penting dalam pembelajaran mesin karena memungkinkan Anda mengurangi ukuran himpunan data sambil mempertahankan rasio nilai yang sama. Komponen ini mendukung beberapa tugas terkait yang penting dalam pembelajaran mesin:

  • Membagi data Anda menjadi beberapa subbagian dengan ukuran yang sama.

    Anda dapat menggunakan partisi untuk validasi silang, atau untuk menetapkan kasus ke grup acak.

  • Memisahkan data menjadi grup lalu bekerja dengan data dari grup tertentu.

    Setelah anda secara acak menetapkan kasus ke grup yang berbeda, Anda mungkin perlu memodifikasi fitur yang terkait hanya dengan satu grup.

  • Pengambilan sampel.

    Anda dapat mengekstrak persentase data, menerapkan pengambilan sampel acak, atau memilih kolom yang akan digunakan untuk menyeimbangkan himpunan data dan melakukan pengambilan sampel bertingkat pada nilainya.

  • Membuat himpunan data yang lebih kecil untuk pengujian.

    Jika Anda memiliki banyak data, Anda mungkin hanya ingin menggunakan baris n pertama saat menyiapkan alur, lalu beralih menggunakan himpunan data lengkap saat Anda menyusun model. Anda juga dapat menggunakan pengambilan sampel untuk membuat himpunan data yang lebih kecil untuk digunakan dalam pengembangan.

Konfigurasikan komponen

Komponen ini mendukung metode berikut untuk membagi data Anda ke dalam partisi atau untuk pengambilan sampel. Pilih metode terlebih dahulu, lalu atur opsi tambahan yang diperlukan metode tersebut.

  • Kepala
  • Pengambilan sampel
  • Tetapkan ke lipatan
  • Pilih lipatan

Mendapatkan baris TOP N dari himpunan data

Gunakan mode ini untuk hanya mendapatkan baris n pertama. Opsi ini berguna jika Anda ingin menguji alur pada sejumlah kecil baris, dan Anda tidak memerlukan data untuk diseimbangkan atau diambil sampelnya dengan cara apa pun.

  1. Tambahkan komponen Partisi dan Sampel ke alur Anda di antarmuka, dan hubungkan himpunan data.

  2. Mode partisi atau sampel: Atur opsi ini ke Kepala.

  3. Jumlah baris untuk dipilih: Masukkan jumlah baris yang akan dikembalikan.

    Jumlah baris harus merupakan bilangan bulat non-negatif. Jika jumlah baris yang dipilih lebih besar dari jumlah baris dalam himpunan data, seluruh himpunan data dikembalikan.

  4. Kirimkan alur.

Komponen mengeluarkan satu himpunan data yang hanya berisi jumlah baris yang ditentukan. Baris selalu dibaca dari bagian atas himpunan data.

Membuat sampel data

Opsi ini mendukung pengambilan sampel acak sederhana atau pengambilan sampel acak bertingkat. Opsi ini berguna jika Anda ingin membuat himpunan data sampel perwakilan yang lebih kecil untuk pengujian.

  1. Tambahkan komponen Partisi dan Sampel ke alur Anda, dan hubungkan himpunan data.

  2. Mode partisi atau sampel: Atur opsi ini ke Pengambilan Sampel.

  3. Laju pengambilan sampel: Masukkan nilai antara 0 dan 1. nilai ini menentukan persentase baris dari himpunan data sumber yang harus disertakan dalam himpunan data output.

    Misalnya, jika Anda hanya ingin setengah dari himpunan data asli, masukkan 0.5 untuk menunjukkan bahwa tingkat pengambilan sampel harus 50 persen.

    Baris himpunan data input diacak dan ditempatkan secara selektif dalam himpunan data output, sesuai dengan rasio yang ditentukan.

  4. Turunan acak untuk pengambilan sampel: Secara opsional, masukkan bilangan bulat untuk digunakan sebagai nilai turunan.

    Opsi ini penting jika Anda ingin baris dibagi dengan cara yang sama setiap saat. Nilai default adalah 0, yang berarti bahwa turunan awal dihasilkan berdasarkan jam sistem. Nilai ini dapat menyebabkan hasil yang sedikit berbeda setiap kali Anda menjalankan alur.

  5. Pemisahan bertingkat untuk pengambilan sampel: Pilih opsi ini jika baris dalam himpunan data penting untuk dibagi rata oleh beberapa kolom kunci sebelum pengambilan sampel.

    Untuk kolom kunci bertingkat untuk pengambilan sampel, pilih kolom strata tunggal untuk digunakan saat membagi himpunan data. Baris dalam himpunan data kemudian dibagi sebagai berikut:

    1. Semua baris input dikelompokkan (distratifikasi) oleh nilai-nilai dalam kolom strata yang ditentukan.

    2. Baris diacak dalam setiap grup.

    3. Setiap grup ditambahkan secara selektif ke himpunan data output untuk memenuhi rasio yang ditentukan.

  6. Kirimkan alur.

    Dengan opsi ini, komponen mengeluarkan satu himpunan data yang berisi sampel data yang representatif. Bagian sisa himpunan data yang tidak tersampersi bukanlah output.

Memisahkan data menjadi partisi

Gunakan opsi ini saat Anda ingin membagi himpunan data menjadi sub-himpunan data. Opsi ini juga berguna ketika Anda ingin membuat jumlah pelipatan khusus untuk validasi silang, atau untuk membagi baris menjadi beberapa grup.

  1. Tambahkan komponen Partisi dan Sampel ke alur Anda, dan hubungkan himpunan data.

  2. Untuk Partisi atau mode sampel, pilih Tetapkan ke Lipatan.

  3. Gunakan penggantian dalam partisi: Pilih opsi ini jika Anda ingin baris sampel dimasukkan kembali ke kumpulan baris untuk kemungkinan digunakan kembali. Akibatnya, baris yang sama mungkin ditetapkan ke beberapa kali lipatan.

    Jika Anda tidak menggunakan penggantian (opsi default), baris sampel tidak dimasukkan kembali ke kumpulan baris untuk kemungkinan digunakan kembali. Akibatnya, setiap baris hanya dapat ditetapkan satu kali lipatan.

  4. Pemisahan acak: Pilih opsi ini jika Anda ingin baris ditetapkan secara acak ke lipatan.

    Jika Anda tidak memilih opsi ini, baris ditetapkan untuk dilipat melalui metode round-robin.

  5. Turunan acak: Opsional, masukkan bilangan bulat untuk digunakan sebagai nilai turunan. Opsi ini penting jika Anda ingin baris dibagi dengan cara yang sama setiap saat. Jika tidak, nilai default 0 berarti bahwa turunan awal acak akan digunakan.

  6. Tentukan metode partisi: Tunjukkan bagaimana Anda ingin data dibagi ke setiap partisi, dengan menggunakan opsi berikut:

    • Partisi secara merata: Gunakan opsi ini untuk menempatkan jumlah baris yang sama di setiap partisi. Untuk menentukan jumlah partisi output, masukkan bilangan bulat dalam kotak Tentukan jumlah lipatan untuk dibagi rata.

    • Partisi dengan proporsi yang dikustomisasi: Gunakan opsi ini untuk menentukan ukuran setiap partisi sebagai daftar yang dipisahkan koma.

      Misalnya, asumsikan bahwa Anda ingin membuat tiga partisi. Partisi pertama akan berisi 50 persen data. Dua partisi yang tersisa masing-masing akan berisi 25 persen data. Dalam kotak Daftar proporsi yang dipisahkan oleh koma, masukkan angka-angka ini: .5, .25, .25.

      Jumlah semua ukuran partisi harus berjumlah tepat 1.

      Jika Anda memasukkan angka yang berjumlah kurang dari 1, partisi tambahan akan dibuat untuk menampung baris yang tersisa. Misalnya, jika Anda memasukkan nilai .2 dan .3, partisi ketiga dibuat untuk menampung 50 persen sisa dari semua baris.

      Jika Anda memasukkan angka yang berjumlah lebih dari 1, kesalahan akan muncul saat Anda menjalankan saluran.

  7. Pemisahan bertingkat: Pilih opsi ini jika Anda ingin baris distratifikasi saat dipisah, lalu pilih kolom strata.

  8. Kirimkan alur.

    Dengan opsi ini, komponen mengeluarkan beberapa himpunan data. himpunan data dipartisi sesuai dengan aturan yang Anda tentukan.

Menggunakan data dari partisi yang telah ditentukan sebelumnya

Gunakan opsi ini ketika Anda telah membagi himpunan data menjadi beberapa partisi dan sekarang ingin memuat setiap partisi secara bergantian untuk analisis atau pemrosesan lebih lanjut.

  1. Tambahkan komponen Partisi dan Sampel ke alur.

  2. Hubungkan komponen ke output dari instans Partisi dan Sampel sebelumnya. Instans tersebut harus menggunakan opsi Tetapkan ke Lipatan untuk menghasilkan sejumlah partisi.

  3. Mode partisi atau sampel: Pilih Pilih Lipatan.

  4. Tentukan lipatan mana yang akan dijadikan sampel: Pilih partisi yang akan digunakan dengan memasukkan indeksnya. Indeks partisi berbasis 1. Misalnya, jika Anda membagi himpunan data menjadi tiga bagian, partisi akan memiliki indeks 1, 2, dan 3.

    Jika Anda memasukkan nilai indeks yang tidak valid, kesalahan waktu desain akan muncul: "Kesalahan 0018: Himpunan data berisi data yang tidak valid."

    Selain mengelompokkan himpunan data berdasarkan lipatan, Anda dapat memisahkan himpunan data menjadi dua grup: lipatan target, dan yang lainnya. Untuk melakukan ini, masukkan indeks lipatan tunggal, lalu pilih opsi Pilih pelengkap lipatan yang dipilih untuk mendapatkan semuanya kecuali data dalam lipatan yang ditentukan.

  5. Jika Anda bekerja dengan banyak partisi, Anda harus menambahkan lebih banyak instans dari komponen Partisi dan Sampel untuk menangani setiap partisi.

    Misalnya, komponen Partisi dan Sampel di baris kedua diatur ke Tetapkan ke Lipatan, dan komponen di baris ketiga diatur ke Pilih Lipatan.

    Partisi dan Sampel

  6. Kirimkan alur.

    Dengan opsi ini, komponen mengeluarkan satu himpunan data yang hanya berisi baris yang ditetapkan ke lipatan itu.

Catatan

Anda tidak dapat melihat penunjukan lipatan secara langsung. Lipatan tersebut hanya ada dalam metadata.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning.