ngram: Machine Learning-Featureextraktoren

Featureextraktoren, die mit mtText verwendet werden können.

Verwendung

  ngramCount(ngramLength = 1, skipLength = 0, maxNumTerms = 1e+07,
    weighting = "tf")

  ngramHash(ngramLength = 1, skipLength = 0, hashBits = 16,
    seed = 314489979, ordered = TRUE, invertHash = 0)

Argumente

ngramLength

Eine ganze Zahl, die die maximale Anzahl von Token angibt, die beim Erstellen eines N-Gramms verwendet werden. Der Standardwert ist 1.

skipLength

Eine ganze Zahl, die die maximale Anzahl von Token angibt, die beim Erstellen eines N-Gramms übersprungen werden. Wenn der als Sprunglänge angegebene Wert k ist, können N-Gramme bis zu k (nicht unbedingt aufeinander folgende) Sprünge enthalten. Beispiel: Wenn k=2, dann sind die 3-Gramme, die aus dem Text „The sky is blue today“ extrahiert werden: „the sky is“, „the sky blue“, „the sky today“, „the is blue“, „the is today“ und „the blue today“. Der Standardwert ist 0.

maxNumTerms

Eine ganze Zahl, die die maximale Anzahl von Kategorien angibt, die in das Wörterbuch aufgenommen werden sollen. Der Standardwert ist 10000000.

weighting

Eine Zeichenfolge, die die Gewichtungskriterien angibt:

  • "tf": zur Verwendung der Begriffshäufigkeit.
  • "idf": zur Verwendung der umgekehrten Dokumenthäufigkeit.
  • "tfidf": zur Verwendung sowohl von Begriffshäufigkeit als auch umgekehrter Dokumenthäufigkeit.

hashBits

Ganzzahliger Wert. Anzahl der Bits, in die einen Hashwert aufgenommen werden soll. Muss im Bereich 1 bis 30 liegen.

seed

Ganzzahliger Wert. Ausgangswert für Hashing.

ordered

TRUE, um die Position jedes Terms im Hash anzugeben. Andernfalls FALSE. Der Standardwert ist TRUE.

invertHash

Eine ganze Zahl, die die maximale Anzahl von Schlüsseln angibt, die zum Generieren des Slotnamens verwendet werden können. 0 bedeutet kein Invertieren des Hashings, -1 bedeutet ohne Limit. Wenngleich ein Nullwert zu einer besseren Leistung führt, ist ein Wert ungleich Null erforderlich, um aussagekräftige Koeffizientennamen zu erhalten.

Details

ngramCount ermöglicht das Definieren von Argumenten für die anzahlbasierte Featureextraktion. Die folgenden Optionen werden akzeptiert: ngramLength, skipLength, maxNumTerms und weighting.

ngramHash ermöglicht das Definieren von Argumenten für die hashbasierte Featureextraktion. Die folgenden Optionen werden akzeptiert: ngramLength, skipLength, hashBits, seed, ordered und invertHash.

Wert

Eine Zeichenfolge, die die Transformation definiert.

Autor(en)

Microsoft Corporation Microsoft Technical Support

Weitere Informationen

featurizeText.

Beispiele


  myData <- data.frame(opinion = c(
     "I love it!",
     "I love it!",
     "Love it!",
     "I love it a lot!",
     "Really love it!",
     "I hate it",
     "I hate it",
     "I hate it.",
     "Hate it",
     "Hate"),
     like = rep(c(TRUE, FALSE), each = 5),
     stringsAsFactors = FALSE)

 outModel1 <- rxLogisticRegression(like~opinionCount, data = myData, 
     mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"), 
         wordFeatureExtractor = ngramHash(invertHash = -1, hashBits = 3)))) 
 summary(outModel1)   

 outModel2 <- rxLogisticRegression(like~opinionCount, data = myData, 
     mlTransforms = list(featurizeText(vars = c(opinionCount = "opinion"), 
         wordFeatureExtractor = ngramCount(maxNumTerms = 5, weighting = "tf"))))         
 summary(outModel2)