rxPredict.mlModel : score à l’aide d’un modèle Machine Learning Microsoft R

Article
05/23/2023

Les rapports de scoring par instance génèrent une trame de données ou une source de données RevoScaleR à l’aide d’un modèle Machine Learning Microsoft R formé avec la source de données RevoScaleR.

Utilisation

 ## S3 method for class `mlModel':
rxPredict  (modelObject, data, outData = NULL,
    writeModelVars = FALSE, extraVarsToWrite = NULL, suffix = NULL,
    overwrite = FALSE, dataThreads = NULL,
    blocksPerRead = rxGetOption("blocksPerRead"),
    reportProgress = rxGetOption("reportProgress"), verbose = 1,
    computeContext = rxGetOption("computeContext"), ...)

Arguments

`modelObject`

Objet d’informations de modèle retourné à partir d’un modèle MicrosoftML. Par exemple, un objet renvoyé par rxFastTrees ou rxLogisticRegression.

`data`

Un objet source de données RevoScaleR, une trame de données ou le chemin d’accès à un fichier .xdf.

`outData`

Texte de sortie ou nom de fichier XDF ou un RxDataSource avec des fonctionnalités d’écriture pour stocker les prédictions. Si le résultat est NULL, une trame de données est retournée. La valeur par défaut est NULL.

`writeModelVars`

Si la valeur est TRUE, les variables dans le modèle sont écrites dans le jeu de données de sortie en plus des variables de calcul de score. Si les variables du jeu de données d’entrée sont transformées dans le modèle, les variables transformées sont également incluses. La valeur par défaut est FALSE.

`extraVarsToWrite`

NULL ou le vecteur de caractère des noms de variables supplémentaires à partir des données d’entrée à inclure dans le outData. Si writeModelVars est TRUE, les variables de modèle sont également incluses. La valeur par défaut est NULL.

`suffix`

Chaîne de caractères qui spécifie le suffixe à ajouter aux variables de score créées ou NULL en l’absence de suffixe. La valeur par défaut est NULL.

`overwrite`

Si TRUE, outData existant est écrasé. Si FALSE, outData existant n’est pas remplacé. La valeur par défaut est FALSE.

`dataThreads`

Entier spécifiant le degré de parallélisme souhaité dans le pipeline de données. Si NULL valeur n’est définie, le nombre de threads utilisés est déterminé en interne. La valeur par défaut est NULL.

`blocksPerRead`

Spécifie le nombre de blocs à lire pour chaque segment de données lu à partir de la source de données.

`reportProgress`

Valeur entière qui spécifie le niveau de création de rapports sur la progression du traitement de la ligne :

0 : aucune progression n’est signalée.
1 : le nombre de lignes traitées est imprimé et mis à jour.
2 : les lignes traitées et les minutages sont signalés.
3 : les lignes traitées et l’ensemble des minutages sont signalés.
La valeur par défaut est 1.

`verbose`

Valeur entière qui spécifie la quantité de sortie souhaitée. Si la valeur est 0, aucune sortie détaillée n’est imprimée au cours des calculs. Les valeurs entières de 1 à 4 fournissent des quantités d’informations croissantes. La valeur par défaut est 1.

`computeContext`

Définit le contexte dans lequel les calculs sont exécutés, spécifiés avec un contexte RxComputeContext valide. Actuellement, les contextes de calcul locaux et RxInSqlServer sont pris en charge.

`...`

Arguments supplémentaires à passer directement au moteur de calcul Microsoft.

Détails

Les éléments suivants sont signalés dans la sortie par défaut : scoring sur trois variables pour les classifieurs binaires : PredictedLabel, Score et Probability. Le Score pour les classifieurs oneClassSvm et de régression, PredictedLabel pour les classifieurs multiclasses, plus une variable pour chaque catégorie précédée du score.

Valeur

Une trame de données ou un objet RxDataSource qui représente les données de sortie créées. Par défaut, la sortie des classifieurs binaires de scoring inclut trois variables : PredictedLabel, Score et Probability. rxOneClassSvm et la régression comprennent une variable Score et les classifieurs multiclasses incluent PredictedLabel plus une variable pour chaque catégorie précédée de Score. Si un suffix est fourni, il est ajouté à la fin de ces noms de variables de sortie.

Auteur(s)

Microsoft Corporation Microsoft Technical Support

Voir aussi

rxFastTrees, rxFastForest, rxLogisticRegression, rxNeuralNet, rxOneClassSvm.

Exemples



 # Estimate a logistic regression model
 infert1 <- infert
 infert1$isCase <- (infert1$case == 1)
 myModelInfo <- rxLogisticRegression(formula = isCase ~ age + parity + education + spontaneous + induced,
                        data = infert1)

 # Create an xdf file with per-instance results using rxPredict
 xdfOut <- tempfile(pattern = "scoreOut", fileext = ".xdf")
 scoreDS <- rxPredict(myModelInfo, data = infert1,
     outData = xdfOut, overwrite = TRUE,
     extraVarsToWrite = c("isCase", "Probability"))

 # Summarize results with an ROC curve
 rxRocCurve(actualVarName = "isCase", predVarNames = "Probability", data = scoreDS)

 # Use the built-in data set 'airquality' to create test and train data
 DF <- airquality[!is.na(airquality$Ozone), ]  
 DF$Ozone <- as.numeric(DF$Ozone)
 set.seed(12)
 randomSplit <- rnorm(nrow(DF))
 trainAir <- DF[randomSplit >= 0,]
 testAir <- DF[randomSplit < 0,]
 airFormula <- Ozone ~ Solar.R + Wind + Temp

 # Regression Fast Tree for train data
 fastTreeReg <- rxFastTrees(airFormula, type = "regression", 
     data = trainAir)  

 # Put score and model variables in data frame, including the model variables
 # Add the suffix "Pred" to the new variable
 fastTreeScoreDF <- rxPredict(fastTreeReg, data = testAir, 
     writeModelVars = TRUE, suffix = "Pred")

 rxGetVarInfo(fastTreeScoreDF)

 # Clean-up
 file.remove(xdfOut)

Share via