rxPredict.mlModel: оценка с использованием модели Машинного обучения Майкрософт R

Статья
05/23/2023

Отчеты по оценкам для каждого экземпляра выводятся в кадре данных или в источнике данных RevoScaleR с помощью обученной модели Машинного обучения Майкрософт R с источником данных RevoScaleR.

Использование

 ## S3 method for class `mlModel':
rxPredict  (modelObject, data, outData = NULL,
    writeModelVars = FALSE, extraVarsToWrite = NULL, suffix = NULL,
    overwrite = FALSE, dataThreads = NULL,
    blocksPerRead = rxGetOption("blocksPerRead"),
    reportProgress = rxGetOption("reportProgress"), verbose = 1,
    computeContext = rxGetOption("computeContext"), ...)

Аргументы

`modelObject`

Объект сведений о модели, возвращаемый из модели MicrosoftML. Например, объект, возвращенный из rxFastTrees или rxLogisticRegression.

`data`

Объект источника данных RevoScaleR, кадр данных или путь к файлу .xdf.

`outData`

Выходной текст или имя XDF-файла или источника данных RxDataSource с возможностями записи, в котором необходимо сохранить прогнозы. Если указано значение NULL, то возвращается кадр данных. Значение по умолчанию — NULL.

`writeModelVars`

Если указано значение TRUE, переменные в модели записываются в набор выходных данных в дополнение к переменным оценки. Если переменные из входного набора данных преобразуются в модель, то в модель также включаются и преобразованные переменные. Значение по умолчанию — FALSE.

`extraVarsToWrite`

NULL или символьный вектор имен дополнительных переменных из входных данных для включения в outData. Если writeModelVars имеет значение TRUE, также включаются переменные модели. Значение по умолчанию — NULL.

`suffix`

Строка символов, указывающая суффикс для добавления к созданным переменным оценки, или NULL, если суффикс отсутствует. Значение по умолчанию — NULL.

`overwrite`

Если указано значение TRUE, существующий outData перезаписывается; если указано значение FALSE, существующий outData не перезаписывается. Значение по умолчанию — FALSE.

`dataThreads`

Целое число, указывающее требуемую степень параллелизма в конвейере данных. Если указано значение NULL, количество используемых потоков определяется внутренне. Значение по умолчанию — NULL.

`blocksPerRead`

Указывает количество считываемых блоков для каждого фрагмента данных, считываемого из источника данных.

`reportProgress`

Целочисленное значение, указывающее уровень информирования по ходу обработки строки:

0 — информирование не осуществляется.
1 — выводится и обновляется число обработанных записей.
2 — выводятся данные об обработанных записях и времени обработки.
3 — выводятся данные об обработанных записях и все данные о времени обработки.
Значение по умолчанию — 1.

`verbose`

Целочисленное значение, указывающее требуемый объем выходных данных. Если задано значение 0, при вычислениях подробные выходные данные не выводятся. Целочисленные значения из диапазона от 1 до 4 позволяют увеличить объем информации. Значение по умолчанию — 1.

`computeContext`

Задает контекст, в котором выполняются вычисления, указанные с помощью допустимого значения RxComputeContext. Сейчас поддерживаются локальные контексты и контексты вычислений RxInSqlServer.

`...`

Дополнительные аргументы, передаваемые непосредственно в Microsoft Compute Engine.

Сведения

По умолчанию в выходные данные включаются следующие элементы: оценка по трем переменным для двоичных классификаторов: PredictedLabel, Score и Probability; оценка для oneClassSvm и классификаторов регрессии; PredictedLabel для классификаторов с несколькими классами, а также переменная для каждой категории, перед которой идет оценка.

Значение

Кадр данных или объект RxDataSource, представляющий созданные выходные данные. По умолчанию выходные данные оценки двоичных классификаторов включают три переменные: PredictedLabel, Score и Probability; rxOneClassSvm и регрессия включают одну переменную: Score, а классификаторы с несколькими классами включают PredictedLabel и переменную для каждой категории, перед которой идет Score. Если указан suffix, он добавляется в конец этих имен выходных переменных.

Авторы

Корпорация Майкрософт Microsoft Technical Support

См. также

rxFastTrees, rxFastForest, rxLogisticRegression, rxNeuralNet, rxOneClassSvm.

Примеры



 # Estimate a logistic regression model
 infert1 <- infert
 infert1$isCase <- (infert1$case == 1)
 myModelInfo <- rxLogisticRegression(formula = isCase ~ age + parity + education + spontaneous + induced,
                        data = infert1)

 # Create an xdf file with per-instance results using rxPredict
 xdfOut <- tempfile(pattern = "scoreOut", fileext = ".xdf")
 scoreDS <- rxPredict(myModelInfo, data = infert1,
     outData = xdfOut, overwrite = TRUE,
     extraVarsToWrite = c("isCase", "Probability"))

 # Summarize results with an ROC curve
 rxRocCurve(actualVarName = "isCase", predVarNames = "Probability", data = scoreDS)

 # Use the built-in data set 'airquality' to create test and train data
 DF <- airquality[!is.na(airquality$Ozone), ]  
 DF$Ozone <- as.numeric(DF$Ozone)
 set.seed(12)
 randomSplit <- rnorm(nrow(DF))
 trainAir <- DF[randomSplit >= 0,]
 testAir <- DF[randomSplit < 0,]
 airFormula <- Ozone ~ Solar.R + Wind + Temp

 # Regression Fast Tree for train data
 fastTreeReg <- rxFastTrees(airFormula, type = "regression", 
     data = trainAir)  

 # Put score and model variables in data frame, including the model variables
 # Add the suffix "Pred" to the new variable
 fastTreeScoreDF <- rxPredict(fastTreeReg, data = testAir, 
     writeModelVars = TRUE, suffix = "Pred")

 rxGetVarInfo(fastTreeScoreDF)

 # Clean-up
 file.remove(xdfOut)