ngram: средства извлечения признаков Машинного обучения

Статья
05/23/2023

Средства извлечения признаков, которые можно использовать с mtText.

Использование

  ngramCount(ngramLength = 1, skipLength = 0, maxNumTerms = 1e+07,
    weighting = "tf")

  ngramHash(ngramLength = 1, skipLength = 0, hashBits = 16,
    seed = 314489979, ordered = TRUE, invertHash = 0)

Аргументы

`ngramLength`

Целое число, указывающее максимальное количество маркеров, нужное при создании n-граммы. Значение по умолчанию — 1.

`skipLength`

Целое число, указывающее максимальное количество маркеров, пропускаемых при создании n-граммы. Если значение, указанное как пропуск длины равно k, то n-граммы могут содержать до k пропусков (не обязательно подряд). Например, если k=2, из текста будут извлечены следующие 3-граммы: the sky is blue today: the sky is, the sky blue, the sky today, the is blue, the is today и the blue today. Значение по умолчанию — 0.

`maxNumTerms`

Целое число со знаком, определяющее максимальное количество категорий для включения в словарь. Значение по умолчанию — 10 000 000.

`weighting`

Строка символов, указывающая критерии взвешивания:

"tf" — для использования частоты терминов.
"idf" — для использования частоты инвертированного документа.
"tfidf" — для использования частоты терминов и частоты инвертированного документа.

`hashBits`

целое значение. Число битов в результирующем хэше. Должно находиться в диапазоне от 1 до 30 включительно.

`seed`

целое значение. Начальное значение хэширования.

`ordered`

TRUE для включения позиции каждого термина в хэш. В противном случае — значение FALSE. Значение по умолчанию — TRUE.

`invertHash`

Целое число, задающее ограничение на количество ключей, которые могут быть использованы для создания имени слота. Значение 0 означает отсутствие инверсии хэширования, а значение -1 — отсутствие ограничения. Хотя нулевое значение обеспечивает лучшую производительность, для получения осмысленных названий коэффициентов необходимо указать ненулевое значение.

Подробнее

ngramCount позволяет определять аргументы для извлечения признаков на основе подсчета. Принимает параметры ngramLength, skipLength, maxNumTerms и weighting.

ngramHash позволяет определять аргументы для извлечения признаков на основе хэширования. Принимает параметры ngramLength, skipLength, hashBits, seed, ordered и invertHash.

Значение

Строка символов, определяющая преобразование.

Авторы

Корпорация Майкрософт Microsoft Technical Support

См. также

featurizeText.

Примеры


  myData <- data.frame(opinion = c(
     "I love it!",
     "I love it!",
     "Love it!",
     "I love it a lot!",
     "Really love it!",
     "I hate it",
     "I hate it",
     "I hate it.",
     "Hate it",
     "Hate"),
     like = rep(c(TRUE, FALSE), each = 5),
     stringsAsFactors = FALSE)

 outModel1 <- rxLogisticRegression(like~opinionCount, data = myData, 
     mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"), 
         wordFeatureExtractor = ngramHash(invertHash = -1, hashBits = 3)))) 
 summary(outModel1)   

 outModel2 <- rxLogisticRegression(like~opinionCount, data = myData, 
     mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"), 
         wordFeatureExtractor = ngramCount(maxNumTerms = 5, weighting = "tf"))))         
 summary(outModel2)