rxFeaturize : transformation des données pour les sources de données RevoScaleR

Article
05/23/2023

Transforme les données d’un jeu de données d’entrée en jeu de données de sortie.

Utilisation

  rxFeaturize(data, outData = NULL, overwrite = FALSE, dataThreads = NULL,
    randomSeed = NULL, maxSlots = 5000, mlTransforms = NULL,
    mlTransformVars = NULL, rowSelection = NULL, transforms = NULL,
    transformObjects = NULL, transformFunc = NULL, transformVars = NULL,
    transformPackages = NULL, transformEnvir = NULL,
    blocksPerRead = rxGetOption("blocksPerRead"),
    reportProgress = rxGetOption("reportProgress"), verbose = 1,
    computeContext = rxGetOption("computeContext"), ...)

Arguments

`data`

Un objet source de données RevoScaleR, une trame de données ou le chemin d’accès à un fichier .xdf.

`outData`

Texte de sortie ou nom de fichier XDF ou un RxDataSource avec des fonctionnalités d’écriture pour stocker les données transformées. Si le résultat est NULL, une trame de données est retournée. La valeur par défaut est NULL.

`overwrite`

Si TRUE, outData existant est écrasé. Si FALSE, outData existant n’est pas remplacé. La valeur par défaut est /codeFALSE.

`dataThreads`

Entier spécifiant le degré de parallélisme souhaité dans le pipeline de données. Si NULL valeur n’est définie, le nombre de threads utilisés est déterminé en interne. La valeur par défaut est NULL.

`randomSeed`

Spécifie la valeur de départ aléatoire. La valeur par défaut est NULL.

`maxSlots`

Nombre maximal d’emplacements à retourner pour les colonnes à valeur vectorielle (<=0 pour retourner tout).

`mlTransforms`

Spécifie la liste des transformations MicrosoftML à effectuer sur les données avant l’entraînement, ou NULL si aucune transformation ne doit être effectuée. Consultez featurizeText, categorical et categoricalHash pour les transformations prises en charge. Ces transformations sont effectuées après les transformations R spécifiées. La valeur par défaut est NULL.

`mlTransformVars`

Spécifie un vecteur de caractères des noms de variables à utiliser dans mlTransforms ou NULL si aucun ne doit être utilisé. La valeur par défaut est NULL.

`rowSelection`

Spécifie les lignes (observations) du jeu de données qui doivent être utilisées par le modèle avec le nom d’une variable logique du jeu de données (entre guillemets) ou avec une expression logique utilisant des variables dans le jeu de données. Par exemple, rowSelection = "old" utilise uniquement les observations dans lesquelles la valeur de la variable old est TRUE. rowSelection = (age > 20) & (age < 65) & (log(income) > 10) utilise uniquement les observations dans lesquelles la valeur de la variable age est comprise entre 20 et 65, et la valeur log de la variable income est supérieure à 10. La sélection de ligne est effectuée après le traitement de toutes les transformations de données (consultez les arguments transforms ou transformFunc). Comme pour toutes les expressions, rowSelection peut être défini en dehors de l’appel de fonction à l’aide de la fonction d’expression.

`transforms`

Expression de la forme list(name = expression, ``...) qui représente la première série de transformations de variables. Comme pour toutes les expressions, transforms (ou rowSelection) peut être défini en dehors de l’appel de fonction à l’aide de la fonction d’expression. La valeur par défaut est NULL.

`transformObjects`

Liste nommée qui contient des objets qui peuvent être référencés par transforms, transformsFunc et rowSelection. La valeur par défaut est NULL.

`transformFunc`

Fonction de transformation de variables. Pour plus d’informations, consultez rxTransform. La valeur par défaut est NULL.

`transformVars`

Vecteur de caractère des variables de jeu de données d’entrée nécessaires pour la fonction de transformation. Pour plus d’informations, consultez rxTransform. La valeur par défaut est NULL.

`transformPackages`

Vecteur de caractères spécifiant les packages R supplémentaires (en dehors de ceux spécifiés dans rxGetOption("transformPackages")) qui doivent être mis à disposition et préchargés pour être utilisés dans les fonctions de transformation de variables. Par exemple, ceux définis explicitement dans les fonctions RevoScaleR via leurs arguments transforms et transformFunc ou ceux définis implicitement via leurs arguments formula ou rowSelection. L’argument transformPackages peut également être NULL, ce qui indique qu’aucun package n’est préchargé en dehors de rxGetOption("transformPackages"). La valeur par défaut est NULL.

`transformEnvir`

Environnement défini par l’utilisateur qui sert de parent à tous les environnements développés en interne et qui est utilisé pour la transformation de données variables. Si transformEnvir = NULL, un nouvel environnement de « hachage » avec le parent baseenv() est utilisé à la place. La valeur par défaut est NULL.

`blocksPerRead`

Spécifie le nombre de blocs à lire pour chaque segment de données lu à partir de la source de données.

`reportProgress`

Valeur entière qui spécifie le niveau de création de rapports sur la progression du traitement de la ligne :

0 : aucune progression n’est signalée.
1 : le nombre de lignes traitées est imprimé et mis à jour.
2 : les lignes traitées et les minutages sont signalés.
3 : les lignes traitées et l’ensemble des minutages sont signalés.
La valeur par défaut est 1.

`verbose`

Valeur entière qui spécifie la quantité de sortie souhaitée. Si la valeur est 0, aucune sortie détaillée n’est imprimée au cours des calculs. Les valeurs entières de 1 à 4 fournissent des quantités d’informations croissantes. La valeur par défaut est 1.

`computeContext`

Définit le contexte dans lequel les calculs sont exécutés, spécifiés avec un contexte RxComputeContext valide. Actuellement, les contextes de calcul locaux et RxInSqlServer sont pris en charge.

`...`

Arguments supplémentaires à passer directement au moteur de calcul Microsoft.

Valeur

Une trame de données ou un objet RxDataSource qui représente les données de sortie créées.

Auteur(s)

Microsoft Corporation Microsoft Technical Support

Voir aussi

rxDataStep, rxImport, rxTransform.

Exemples


 # rxFeaturize basically allows you to access data from the MicrosoftML transforms
 # In this example we'll look at getting the output of the categorical transform

 # Create the data
 categoricalData <- data.frame(
   placesVisited = c(
     "London",
     "Brunei",
     "London",
     "Paris",
     "Seria"
   ),
   stringsAsFactors = FALSE
 )

 # Invoke the categorical transform
 categorized <- rxFeaturize(
   data = categoricalData,
   mlTransforms = list(categorical(vars = c(xDataCat = "placesVisited")))
 )

 # Now let's look at the data
 categorized

Share via