ngram: extractores de características de Machine Learning

Artículo
05/23/2023

Extractores de características que se pueden usar con mtText.

Uso

  ngramCount(ngramLength = 1, skipLength = 0, maxNumTerms = 1e+07,
    weighting = "tf")

  ngramHash(ngramLength = 1, skipLength = 0, hashBits = 16,
    seed = 314489979, ordered = TRUE, invertHash = 0)

Argumentos

`ngramLength`

Entero que especifica el número máximo de tokens que se tomarán al construir un n-grama. El valor predeterminado es 1.

`skipLength`

Entero que especifica el número máximo de tokens que se omitirán al construir un n-grama. Si el valor especificado como tamaño de omisión es k, los n-gramas pueden contener hasta k omisiones (no necesariamente consecutivas). Por ejemplo, si el valor es k=2, los 3 gramas que se extraen del texto "the sky is blue today" son: "the sky is", "the sky blue", "the sky today", "the is blue", "the is today" y "the blue today". El valor predeterminado es 0.

`maxNumTerms`

Entero que especifica el número máximo de categorías que se van a incluir en el diccionario. El valor predeterminado es 10000000.

`weighting`

Cadena de caracteres que especifica los criterios de ponderación:

"tf": para usar la frecuencia de términos.
"idf": para usar la frecuencia inversa de documento.
"tfidf": para usar tanto la frecuencia de términos como la frecuencia inversa de documento.

`hashBits`

valor entero. Número de bits en los que se aplica el código hash. Debe estar entre 1 y 30, ambos inclusive.

`seed`

valor entero. Inicialización de hash.

`ordered`

TRUE para incluir la posición de cada término en el hash. En caso contrario, es FALSE. El valor predeterminado es TRUE.

`invertHash`

Entero que especifica el límite en el número de claves que se pueden usar para generar el nombre de la ranura. 0 significa que no se invierte el hash, -1 que no hay límite. Aunque un valor cero proporciona un mejor rendimiento, se necesita un valor distinto de cero para obtener nombres de coeficiente significativos.

Detalles

ngramCount permite definir argumentos para la extracción de características basada en recuentos. Acepta estas opciones: ngramLength, skipLength, maxNumTerms y weighting.

ngramHash permite definir argumentos para la extracción de características basada en hash. Acepta estas opciones: ngramLength, skipLength, hashBits, seed, ordered y invertHash.

Value

Cadena de caracteres que define la transformación.

Autores

Microsoft Corporation Microsoft Technical Support

Consulte también

featurizeText.

Ejemplos


  myData <- data.frame(opinion = c(
     "I love it!",
     "I love it!",
     "Love it!",
     "I love it a lot!",
     "Really love it!",
     "I hate it",
     "I hate it",
     "I hate it.",
     "Hate it",
     "Hate"),
     like = rep(c(TRUE, FALSE), each = 5),
     stringsAsFactors = FALSE)

 outModel1 <- rxLogisticRegression(like~opinionCount, data = myData, 
     mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"), 
         wordFeatureExtractor = ngramHash(invertHash = -1, hashBits = 3)))) 
 summary(outModel1)   

 outModel2 <- rxLogisticRegression(like~opinionCount, data = myData, 
     mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"), 
         wordFeatureExtractor = ngramCount(maxNumTerms = 5, weighting = "tf"))))         
 summary(outModel2)