minCount: режим подсчета выбора функций

Статья
05/23/2023

Режим подсчета выбора функций, используемый в преобразовании выбора функций selectFeatures.

Использование

  minCount(count = 1, ...)

Аргументы

`count`

Пороговое значение для выбора признаков по количеству. Признак выбирается в том и только в том случае, если как минимум в count примерах значения отличаются от значений по умолчанию в признаке. Значение по умолчанию — 1.

`...`

Дополнительные аргументы, передаваемые непосредственно в Microsoft Compute Engine.

Сведения

При использовании количества в преобразовании с выбором признаков признак выбирается в том случае, если в число примеров входит минимальное указанное число примеров, значения в которых отличаются от значений по умолчанию в признаке. Преобразование с выбором признаков по количеству удобно, если оно применятся совместно с преобразованием хэша категории (см. также categoricalHash). Выбор признаков по количеству может удалить признаки, созданные с помощью преобразования хэша и не содержащие данных в примерах.

Значение

Строка символов, определяющая режим подсчета.

Авторы

Корпорация Майкрософт Microsoft Technical Support

См. также раздел

mutualInformation selectFeatures

Примеры


 trainReviews <- data.frame(review = c( 
         "This is great",
         "I hate it",
         "Love it",
         "Do not like it",
         "Really like it",
         "I hate it",
         "I like it a lot",
         "I kind of hate it",
         "I do like it",
         "I really hate it",
         "It is very good",
         "I hate it a bunch",
         "I love it a bunch",
         "I hate it",
         "I like it very much",
         "I hate it very much.",
         "I really do love it",
         "I really do hate it",
         "Love it!",
         "Hate it!",
         "I love it",
         "I hate it",
         "I love it",
         "I hate it",
         "I love it"),
      like = c(TRUE, FALSE, TRUE, FALSE, TRUE,
         FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE,
         FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, 
         FALSE, TRUE, FALSE, TRUE), stringsAsFactors = FALSE
     )

     testReviews <- data.frame(review = c(
         "This is great",
         "I hate it",
         "Love it",
         "Really like it",
         "I hate it",
         "I like it a lot",
         "I love it",
         "I do like it",
         "I really hate it",
         "I love it"), stringsAsFactors = FALSE)

 # Use a categorical hash transform which generated 128 features.
 outModel1 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0, 
     mlTransforms = list(categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7)))
 summary(outModel1)

 # Apply a categorical hash transform and a count feature selection transform
 # which selects only those hash features that has value.
 outModel2 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0, 
     mlTransforms = list(
   categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7), 
   selectFeatures("reviewCatHash", mode = minCount())))
 summary(outModel2)

 # Apply a categorical hash transform and a mutual information feature selection transform
 # which selects those features appearing with at least a count of 5.
 outModel3 <- rxLogisticRegression(like~reviewCatHash, data = trainReviews, l1Weight = 0, 
     mlTransforms = list(
   categoricalHash(vars = c(reviewCatHash = "review"), hashBits = 7), 
   selectFeatures("reviewCatHash", mode = minCount(count = 5))))
 summary(outModel3)