categorical : Transformation de données catégorielle dans le cadre du Machine Learning

Article
05/23/2023

Transformation catégorielle qui peut être effectuée sur les données avant d'effectuer l'apprentissage d'un modèle.

Utilisation

  categorical(vars, outputKind = "ind", maxNumTerms = 1e+06, terms = "",
    ...)

Arguments

`vars`

Vecteur de caractères ou liste de noms de variables à transformer. Si une dénomination est utilisée, les noms représentent les noms des nouvelles variables à créer.

`outputKind`

Chaîne de caractères indiquant le type de sortie.

"ind" : génère un vecteur d’indicateur. La colonne d’entrée est un vecteur de catégories et la sortie contient un vecteur d’indicateur par emplacement dans la colonne d’entrée.
"bag" : génère un vecteur à plusieurs ensembles. Si la colonne d’entrée est un vecteur de catégories, la sortie contient un vecteur dans lequel la valeur de chaque emplacement correspond au nombre d’occurrences de la catégorie dans le vecteur d’entrée. Si la colonne d’entrée contient une seule catégorie, le vecteur d’indicateur et le vecteur de conteneur sont équivalents.
"key" : génère un index. La sortie est un ID d'entier (entre 1 et le nombre de catégories contenues dans le dictionnaire) de la catégorie.
La valeur par défaut est "ind".

`maxNumTerms`

Entier qui spécifie le nombre maximum de catégories à inclure dans le dictionnaire. La valeur par défaut est 1000000.

`terms`

Vecteur de caractères facultatif des termes ou des catégories.

`...`

Arguments supplémentaires envoyés au moteur de calcul.

Détails

La transformation categorical passe par un jeu de données, en opérant sur des colonnes de texte, pour générer un dictionnaire de catégories. Pour chaque ligne, la totalité de la chaîne de texte figurant dans la colonne d'entrée est définie en tant que catégorie. La sortie de la transformation catégorielle est un vecteur d'indicateur. Chaque emplacement de ce vecteur correspond à une catégorie du dictionnaire. Sa longueur représente donc la taille du dictionnaire généré. La transformation catégorielle peut être appliquée à une ou plusieurs colonnes, auquel cas elle génère un dictionnaire distinct pour chaque colonne à laquelle elle est appliquée.

categorical n'est actuellement pas pris en charge pour gérer les données de facteur.

Valeur

Un objet maml définissant la transformation.

Auteur(s)

Microsoft Corporation Microsoft Technical Support

Voir aussi

rxFastTrees, rxFastForest, rxNeuralNet, rxOneClassSvm, rxLogisticRegression.

Exemples


 trainReviews <- data.frame(review = c( 
         "This is great",
         "I hate it",
         "Love it",
         "Do not like it",
         "Really like it",
         "I hate it",
         "I like it a lot",
         "I kind of hate it",
         "I do like it",
         "I really hate it",
         "It is very good",
         "I hate it a bunch",
         "I love it a bunch",
         "I hate it",
         "I like it very much",
         "I hate it very much.",
         "I really do love it",
         "I really do hate it",
         "Love it!",
         "Hate it!",
         "I love it",
         "I hate it",
         "I love it",
         "I hate it",
         "I love it"),
      like = c(TRUE, FALSE, TRUE, FALSE, TRUE,
         FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE,
         FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, FALSE, TRUE, 
         FALSE, TRUE, FALSE, TRUE), stringsAsFactors = FALSE
     )

     testReviews <- data.frame(review = c(
         "This is great",
         "I hate it",
         "Love it",
         "Really like it",
         "I hate it",
         "I like it a lot",
         "I love it",
         "I do like it",
         "I really hate it",
         "I love it"), stringsAsFactors = FALSE)


 # Use a categorical transform: the entire string is treated as a category
 outModel1 <- rxLogisticRegression(like~reviewCat, data = trainReviews, 
     mlTransforms = list(categorical(vars = c(reviewCat = "review"))))
 # Note that 'I hate it' and 'I love it' (the only strings appearing more than once)
 # have non-zero weights
 summary(outModel1)

 # Use the model to score
 scoreOutDF1 <- rxPredict(outModel1, data = testReviews, 
     extraVarsToWrite = "review")
 scoreOutDF1

Share via