rxFeaturize: transformación de datos para orígenes de datos de RevoScaleR

Artículo
05/23/2023

Transforma los datos de un conjunto de datos de entrada en un conjunto de datos de salida.

Uso

  rxFeaturize(data, outData = NULL, overwrite = FALSE, dataThreads = NULL,
    randomSeed = NULL, maxSlots = 5000, mlTransforms = NULL,
    mlTransformVars = NULL, rowSelection = NULL, transforms = NULL,
    transformObjects = NULL, transformFunc = NULL, transformVars = NULL,
    transformPackages = NULL, transformEnvir = NULL,
    blocksPerRead = rxGetOption("blocksPerRead"),
    reportProgress = rxGetOption("reportProgress"), verbose = 1,
    computeContext = rxGetOption("computeContext"), ...)

Argumentos

`data`

Objeto de origen de datos de RevoScaleR, trama de datos o ruta de acceso a un archivo .xdf.

`outData`

Texto de salida o nombre de archivo xdf o RxDataSource con funcionalidades de escritura en las que almacenar los datos transformados. Si es NULL, se devuelve un marco de datos. El valor predeterminado es NULL.

`overwrite`

Si es TRUE, se sobrescribe un outData existente; si es FALSE, no se sobrescribe un outData existente. El valor predeterminado es /codeFALSE.

`dataThreads`

Entero que especifica el grado de paralelismo deseado en la canalización de datos. Si es NULL, el número de subprocesos que se usa se determina internamente. El valor predeterminado es NULL.

`randomSeed`

Especifica la inicialización aleatoria. El valor predeterminado es NULL.

`maxSlots`

Número máximo de ranuras que se devuelven para las columnas con valores vectoriales (<=0 para devolverlas todas).

`mlTransforms`

Especifica una lista de transformaciones de MicrosoftML que deben realizarse en los datos antes del entrenamiento, o bien NULL si no hay que realizar ninguna transformación. Consulte featurizeText, categorical y categoricalHash para saber cuáles son las transformaciones compatibles. Estas transformaciones se realizan después de cualquier transformación de R especificada. El valor predeterminado es NULL.

`mlTransformVars`

Especifica un vector de caracteres de nombres de variable que deben usarse en mlTransforms, o NULL si no hay que usar ninguno. El valor predeterminado es NULL.

`rowSelection`

Especifica las filas (observaciones) del conjunto de datos que debe usar el modelo con el nombre de una variable lógica del conjunto de datos (entre comillas) o con una expresión lógica que usa variables en el conjunto de datos. Por ejemplo, rowSelection = "old" solo usará observaciones en las que el valor de la variable old sea TRUE. rowSelection = (age > 20) & (age < 65) & (log(income) > 10) solo usa observaciones en las que el valor de la variable age está entre 20 y 65, y el valor de log de la variable income es mayor que 10. La selección de fila se realiza después de procesar las transformaciones de datos (vea los argumentos transforms o transformFunc). Al igual que con todas las expresiones, rowSelection se puede definir fuera de la llamada de función mediante la función de expresión.

`transforms`

Expresión del formulario list(name = expression, ``...) que representa la primera ronda de transformaciones de variables. Al igual que con todas las expresiones, transforms (o rowSelection) se puede definir fuera de la llamada de función mediante la función de expresión. El valor predeterminado es NULL.

`transformObjects`

Lista con nombre que contiene objetos a los que pueden hacer referencia transforms, transformsFunc y rowSelection. El valor predeterminado es NULL.

`transformFunc`

Función de transformación de variables. Consulte rxTransform para más detalles. El valor predeterminado es NULL.

`transformVars`

Vector de caracteres de variables del conjunto de datos de entrada necesarias para la función de transformación. Consulte rxTransform para más detalles. El valor predeterminado es NULL.

`transformPackages`

Vector de caracteres que especifica paquetes de R adicionales (aparte de los especificados en rxGetOption("transformPackages")) que deben cargarse previamente y estar disponibles para usarlos en las funciones de transformación de variables. Por ejemplo, los definidos explícitamente en las funciones de RevoScaleR mediante los argumentos transforms y transformFunc, o los definidos implícitamente con los argumentos formula o rowSelection. El argumento transformPackages también puede ser NULL, que indica que no se cargan previamente más paquetes aparte de los de rxGetOption("transformPackages"). El valor predeterminado es NULL.

`transformEnvir`

Entorno definido por el usuario que sirve como primario de todos los entornos desarrollados internamente y que se usa para la transformación de datos variables. Si transformEnvir = NULL, un entorno "hash" nuevo con baseenv() se usa en su lugar. El valor predeterminado es NULL.

`blocksPerRead`

Especifica el número de bloques que se leerán para cada fragmento de datos leídos del origen de datos.

`reportProgress`

Valor entero que especifica el nivel de notificación del progreso del procesamiento de filas:

0: no se notifica el progreso.
1: se imprime y actualiza el número de filas procesadas.
2: se notifican las filas procesadas y los intervalos.
3: se notifican las filas procesadas y todos los intervalos.
El valor predeterminado es 1.

`verbose`

Valor entero que especifica la cantidad de salida deseada. Si es 0, no se imprime ninguna salida detallada durante los cálculos. Los valores enteros de 1 a 4 proporcionan cantidades crecientes de información. El valor predeterminado es 1.

`computeContext`

Establece el contexto en el que se ejecutan los cálculos, especificado con un RxComputeContext válido. Actualmente, se admiten los contextos de proceso local y RxInSqlServer.

`...`

Argumentos adicionales que se pasarán directamente al motor de proceso de Microsoft.

Value

Trama de datos u objeto RxDataSource que representa los datos de salida creados.

Autores

Microsoft Corporation Microsoft Technical Support

Consulte también

rxDataStep, rxImport, rxTransform.

Ejemplos


 # rxFeaturize basically allows you to access data from the MicrosoftML transforms
 # In this example we'll look at getting the output of the categorical transform

 # Create the data
 categoricalData <- data.frame(
   placesVisited = c(
     "London",
     "Brunei",
     "London",
     "Paris",
     "Seria"
   ),
   stringsAsFactors = FALSE
 )

 # Invoke the categorical transform
 categorized <- rxFeaturize(
   data = categoricalData,
   mlTransforms = list(categorical(vars = c(xDataCat = "placesVisited")))
 )

 # Now let's look at the data
 categorized