selectFeatures: преобразование выбора возможностей Машинного обучения

Статья
05/23/2023

Преобразование выбора возможностей выбирает элементы из указанных переменных, используя указанный режим.

Использование

  selectFeatures(vars, mode, ...)

Аргументы

`vars`

Формула или вектор / список строк, определяющие имена переменных, по которым выполняется выбор возможности, если установлен режим minCount(). Например, ~ var1 + var2 + var3. Если установлен режим mutualInformation(), формула или именованный список строк, описывающих зависимую переменную и независимые переменные. Например, label ~ ``var1 + var2 + var3.

`mode`

Определяет режим выбора возможности. Это может быть minCount или mutualInformation.

`...`

Дополнительные аргументы, передаваемые непосредственно в Microsoft Compute Engine.

Подробнее

Преобразование выбора возможностей выбирает возможности из указанных переменных, используя один из двух режимов: подсчет или взаимное информирование. Дополнительные сведения см. на страницах о minCount и mutualInformation.

Значение

Объект maml, определяющий преобразование.

См. также

minCount mutualInformation

Примеры


 trainReviews <- data.frame(review = c( 
         "This is great",
         "I hate it",
         "Love it",
         "Do not like it",
         "Really like it",
         "I hate it",
         "I like it a lot",
         "I kind of hate it",
         "I do like it",
         "I really hate it",
         "It is very good",
         "I hate it a bunch",
         "I love it a bunch",
         "I hate it",
         "I like it very much",
         "I hate it very much.",
         "I really do love it",
         "I really do hate it",
         "Love it!",
         "Hate it!",
         "I love it",
         "I hate it",
         "I love it",
         "I hate it",
         "I love it"),
      like = c(TRUE, FALSE, TRUE, FALSE, TRUE,
         FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE,
         FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, 
         FALSE, TRUE, FALSE, TRUE), stringsAsFactors = FALSE
     )

     testReviews <- data.frame(review = c(
         "This is great",
         "I hate it",
         "Love it",
         "Really like it",
         "I hate it",
         "I like it a lot",
         "I love it",
         "I do like it",
         "I really hate it",
         "I love it"), stringsAsFactors = FALSE)

 # Use a categorical hash transform which generated 128 features.
 outModel1 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0, 
     mlTransforms = list(categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7)))
 summary(outModel1)

 # Apply a categorical hash transform and a count feature selection transform
 # which selects only those hash slots that has value.
 outModel2 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0, 
     mlTransforms = list(
   categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7), 
   selectFeatures("reviewCatHash", mode = minCount())))
 summary(outModel2)

 # Apply a categorical hash transform and a mutual information feature selection transform
 # which selects only 10 features with largest mutual information with the label.
 outModel3 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0, 
     mlTransforms = list(
   categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7), 
   selectFeatures(like ~ reviewCatHash, mode = mutualInformation(numFeaturesToKeep = 10))))
 summary(outModel3)