ngram: extratores de recursos do Machine Learning

Artigo
05/23/2023

Extratores de recursos que podem ser usados com mtText.

Uso

  ngramCount(ngramLength = 1, skipLength = 0, maxNumTerms = 1e+07,
    weighting = "tf")

  ngramHash(ngramLength = 1, skipLength = 0, hashBits = 16,
    seed = 314489979, ordered = TRUE, invertHash = 0)

Argumentos

`ngramLength`

Um inteiro que especifica o número máximo de tokens a adotar ao construir um n-gram. O valor padrão é 1.

`skipLength`

Um inteiro que especifica o número máximo de tokens de omissão ao construir um n-gram. Se o valor especificado como tamanho da omissão for k, os n-grams poderão conter até k omissões (não necessariamente consecutivas). Por exemplo, se k=2, os 3-grams extraídos do texto "o céu está azul hoje" são: "o céu está", "o céu azul", "o céu hoje", "o é azul", "o é hoje" e "o azul hoje". O valor padrão é 0.

`maxNumTerms`

Um inteiro que especifica o número máximo de categorias a serem incluídas no dicionário. O valor padrão é 10000000.

`weighting`

Uma cadeia de caracteres que especifica os critérios de ponderação:

"tf": para usar a frequência de termos.
"idf": para usar a frequência inversa do documento.
"tfidf": para usar a frequência de termos e a frequência inversa do documento.

`hashBits`

valor inteiro. Número de bits para usar com o hash. Ele deve estar inclusive entre 1 e 30.

`seed`

valor inteiro. Semente de hash.

`ordered`

Use TRUE para incluir a posição de cada termo no hash. Caso contrário, FALSE. O valor padrão é TRUE.

`invertHash`

Um inteiro especificando o limite do número de chaves que podem ser usadas para gerar o nome do slot. 0 significa que não há um hash invertido. -1 significa que não há limite. Embora um valor zero forneça um desempenho mais adequado, é preciso usar um valor não zero para obter nomes de coeficientes significativos.

Detalhes

ngramCount permite definir argumentos para extração de recursos com base em contagem. Aceita estas opções: ngramLength, skipLength, maxNumTerms e weighting.

ngramHash permite definir argumentos para extração de recursos com base em hash. Aceita estas opções: ngramLength, skipLength, hashBits, seed, ordered e invertHash.

Valor

Uma cadeia de caracteres que define a transformação.

Autor(es)

Microsoft Corporation Microsoft Technical Support

Confira também

featurizeText.

Exemplos


  myData <- data.frame(opinion = c(
     "I love it!",
     "I love it!",
     "Love it!",
     "I love it a lot!",
     "Really love it!",
     "I hate it",
     "I hate it",
     "I hate it.",
     "Hate it",
     "Hate"),
     like = rep(c(TRUE, FALSE), each = 5),
     stringsAsFactors = FALSE)

 outModel1 <- rxLogisticRegression(like~opinionCount, data = myData, 
     mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"), 
         wordFeatureExtractor = ngramHash(invertHash = -1, hashBits = 3)))) 
 summary(outModel1)   

 outModel2 <- rxLogisticRegression(like~opinionCount, data = myData, 
     mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"), 
         wordFeatureExtractor = ngramCount(maxNumTerms = 5, weighting = "tf"))))         
 summary(outModel2)