Referensi komponen Hashing Fitur

Artikel ini menjelaskan komponen yang disertakan dalam perancang Azure Machine Learning.

Gunakan komponen Hashing Fitur untuk mengubah aliran teks bahasa Inggris menjadi satu kumpulan fitur bilangan bulat. Anda kemudian dapat meneruskan fitur hash ini diatur ke algoritma pembelajaran mesin untuk melatih model analitik teks.

Fungsionalitas hashing fitur yang disediakan dalam komponen ini didasarkan pada kerangka kerja nimbusml. Untuk informasi selengkapnya, lihat kelas NgramHash.

Apa itu hashing fitur?

Hashing fitur bekerja dengan mengubah token unik menjadi bilangan bulat. Fitur ini beroperasi pada string yang tepat yang Anda berikan sebagai input dan tidak melakukan analisis linguistik atau pra-proses.

Misalnya, ambil satu set kalimat sederhana seperti ini, diikuti dengan skor sentimen. Misalnya Anda ingin menggunakan teks ini untuk menyusun model.

Teks pengguna Sentimen
Saya suka buku ini 3
Saya benci buku ini 1
Buku ini sangat bagus 3
Aku suka buku 2

Secara internal, komponen Hashing Fitur membuat kamus n-gram. Misalnya, daftar bigram untuk himpunan data ini akan menjadi sesuatu seperti ini:

Istilah (bigram) Frekuensi
Buku ini 3
Aku suka 1
Aku benci 1
Aku suka 1

Anda dapat mengontrol ukuran n-gram dengan menggunakan properti N-gram. Jika Anda memilih bigram, unigram juga dihitung. Kamus juga akan mencakup istilah tunggal seperti ini:

Istilah (unigram) Frekuensi
buku 3
saya 3
buku 1
sebelumnya 1

Setelah kamus dibangun, komponen Hashing Fitur mengubah istilah kamus menjadi nilai hash. Kemudian menghitung apakah fitur digunakan dalam setiap kasus. Untuk setiap baris data teks, komponen mengeluarkan sekumpulan kolom, satu kolom untuk setiap fitur yang di-hash.

Misalnya, setelah hashing, kolom fitur mungkin terlihat seperti ini:

Peringkat Fitur hashing 1 Fitur hashing 2 Fitur hashing 3
4 1 1 0
5 0 0 0
  • Jika nilai dalam kolom 0, baris tidak berisi fitur hash.
  • Jika nilainya 1, baris tersebut memang berisi fitur tersebut.

Hashing fitur memungkinkan Anda menunjukkan dokumen teks dengan panjang variabel sebagai vektor fitur numerik dengan panjang yang sama untuk mengurangi dimensi. Jika Anda mencoba menggunakan kolom teks untuk pelatihan apa adanya, hal itu akan diperlakukan sebagai kolom fitur kategoris dengan banyak nilai yang berbeda.

Output numerik juga memungkinkan untuk menggunakan metode pembelajaran komputer umum, termasuk klasifikasi, pengelompokan, dan pengambilan informasi. Karena operasi pencarian dapat menggunakan hashes bilangan bulat daripada perbandingan string, mendapatkan bobot fitur juga jauh lebih cepat.

Konfigurasikan komponen Hashing Fitur

  1. Tambahkan komponen Hashing Fitur ke alur Anda di perancang.

  2. Sambungkan himpunan data yang berisi teks yang ingin Anda analisis.

    Tip

    Karena hashing fitur tidak melakukan operasi leksikal seperti membendung atau memotong, Anda kadang-kadang bisa mendapatkan hasil yang lebih baik dengan melakukan pra-proses pada teks sebelum Anda menerapkan hashing fitur.

  3. Atur kolom Target ke kolom teks yang ingin Anda konversi menjadi fitur hash. Perlu diingat bahwa:

    • Kolom harus berjenis data string.

    • Memilih beberapa kolom teks dapat berdampak signifikan pada kematraan fitur. Misalnya, jumlah kolom untuk hash 10-bit berubah dari 1,024 untuk satu kolom menjadi 2,048 untuk dua kolom.

  4. Gunakan bitsize Hashing untuk menentukan jumlah bit yang akan digunakan saat Anda membuat tabel hash.

    Ukuran bit default adalah 10. Untuk banyak masalah, nilai ini memadai. Anda mungkin membutuhkan lebih banyak ruang untuk menghindari tabrakan, tergantung pada ukuran kosakata n-gram dalam teks pelatihan.

  5. Untuk N-gram, masukkan angka yang menentukan panjang maksimum n-gram untuk ditambahkan ke kamus pelatihan. N-gram adalah urutan kata n, diperlakukan sebagai unit yang unik.

    Misalnya, jika Anda memasukkan 3, unigram, bigram, dan trigram akan dibuat.

  6. Kirim alur.

Hasil

Setelah pemrosesan selesai, komponen mengeluarkan himpunan data yang diubah di mana kolom teks asli telah dikonversi menjadi beberapa kolom. Setiap kolom mewakili fitur dalam teks. Bergantung pada seberapa signifikan kamus, himpunan data yang dihasilkan bisa besar:

Nama kolom 1 Jenis kolom 2
USERTEXT Kolom data asli
SENTIMEN Kolom data asli
USERTEXT - Fitur hashing 1 Kolom fitur Hashed
USERTEXT - Fitur hashing 2 Kolom fitur Hashed
USERTEXT - Fitur hashing n Kolom fitur Hashed
USERTEXT - Fitur hashing 1024 Kolom fitur Hashed

Setelah membuat himpunan data yang diubah, Anda dapat menggunakannya sebagai input ke komponen Latih Model.

Praktik terbaik

Praktik terbaik berikut dapat membantu Anda mendapatkan hasil maksimal dari komponen Hashing Fitur:

  • Tambahkan komponen Teks Praproses sebelum menggunakan Hashing Fitur untuk melakukan praproses teks input.

  • Tambahkan komponen Pilih Kolom setelah komponen Hashing Fitur untuk menghapus kolom teks dari himpunan data output. Anda tidak memerlukan kolom teks setelah fitur hashing dibuat.

  • Pertimbangkan untuk menggunakan opsi pra-proses teks ini, untuk menyederhanakan hasil dan meningkatkan akurasi:

    • Pemecah kata
    • Menghentikan penghapusan kata
    • Normalisasi huruf
    • Penghapusan tanda baca dan karakter khusus
    • Berasal

Serangkaian metode pra-proses yang optimal untuk diterapkan dalam solusi apa pun tergantung pada domain, kosakata, dan kebutuhan bisnis. gunakan alur dengan data Anda untuk melihat metode pemrosesan teks mana yang paling efektif.

Langkah berikutnya

Lihat set komponen yang tersedia untuk Azure Machine Learning