ngram: Ekstraktor Fitur Pembelajaran Mesin

Ekstraktor Fitur yang dapat digunakan dengan mtText.

Penggunaan

  ngramCount(ngramLength = 1, skipLength = 0, maxNumTerms = 1e+07,
    weighting = "tf")

  ngramHash(ngramLength = 1, skipLength = 0, hashBits = 16,
    seed = 314489979, ordered = TRUE, invertHash = 0)

Argumen

ngramLength

Bilangan bulat yang menentukan jumlah maksimum token yang harus diambil saat membuat n-gram. Nilai default adalah 1.

skipLength

Bilangan bulat yang menentukan jumlah maksimum token yang akan dilewati saat membuat n-gram. Jika nilai yang ditentukan sebagai panjang lompati adalah k, maka n-gram dapat berisi hingga k melompat (belum tentu berturut-turut). Misalnya, jika k=2, maka 3-gram yang diekstrak dari teks "langit berwarna biru hari ini" adalah: "langit adalah", "langit biru", "langit hari ini", "biru", "adalah hari ini" dan "biru hari ini". Nilai default adalah 0.

maxNumTerms

Bilangan bulat yang menentukan jumlah maksimum kategori untuk disertakan dalam kamus. Nilai defaultnya adalah 100000000.

weighting

String karakter yang menentukan kriteria pembobotan:

  • "tf": untuk menggunakan frekuensi istilah.
  • "idf": untuk menggunakan frekuensi dokumen terbalik.
  • "tfidf": untuk menggunakan frekuensi istilah dan frekuensi dokumen terbalik.

hashBits

nilai bilangan bulat. Jumlah bit yang akan di-hash. Harus antara 1 dan 30, inklusif.

seed

nilai bilangan bulat. Benih hash.

ordered

TRUE untuk menyertakan posisi setiap istilah dalam hash. Sebaliknya, FALSE. Nilai defaultnya adalah TRUE.

invertHash

Bilangan bulat yang menentukan batas jumlah kunci yang dapat digunakan untuk menghasilkan nama slot. 0 berarti tidak ada invert hashing; -1 berarti tidak ada batasan. Meskipun nilai nol memberikan performa yang lebih baik, nilai non-nol diperlukan untuk mendapatkan nama koefisien yang bermakna.

Detail

ngramCount memungkinkan menentukan argumen untuk ekstraksi fitur berbasis hitungan. Ini menerima opsi berikut: ngramLength, , skipLengthmaxNumTerms dan weighting.

ngramHash memungkinkan menentukan argumen untuk ekstraksi fitur berbasis hashing. Ini menerima opsi berikut: ngramLength, , skipLength, hashBitsseed, ordered dan invertHash.

Nilai

String karakter yang menentukan transformasi.

Penulis

Microsoft Corporation Microsoft Technical Support

Lihat juga

featurizeText.

Contoh


  myData <- data.frame(opinion = c(
     "I love it!",
     "I love it!",
     "Love it!",
     "I love it a lot!",
     "Really love it!",
     "I hate it",
     "I hate it",
     "I hate it.",
     "Hate it",
     "Hate"),
     like = rep(c(TRUE, FALSE), each = 5),
     stringsAsFactors = FALSE)

 outModel1 <- rxLogisticRegression(like~opinionCount, data = myData, 
     mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"), 
         wordFeatureExtractor = ngramHash(invertHash = -1, hashBits = 3)))) 
 summary(outModel1)   

 outModel2 <- rxLogisticRegression(like~opinionCount, data = myData, 
     mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"), 
         wordFeatureExtractor = ngramCount(maxNumTerms = 5, weighting = "tf"))))         
 summary(outModel2)