Reemplazar valores discretos

Artículo
05/06/2019

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

Consulte la información acerca de traslado de proyectos de aprendizaje automático de ML Studio (clásico) a Azure Machine Learning.
Más información sobre Azure Machine Learning.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Reemplaza valores discretos de una columna por valores numéricos basados en otra columna

Categoría: Funciones estadísticas

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Reemplazar valores discretos en Machine Learning Studio (clásico) para generar una puntuación de probabilidad que se puede usar para representar un valor discreto. Esta puntuación puede ser útil para comprender el valor de información de los valores discretos.

Funcionamiento:

Seleccione una columna que contenga el valor discreto (o categórico) y, a continuación, seleccione otra columna para usarla como referencia.

Dependiendo de si la segunda columna es categórica o no categórica, el módulo calcula uno de los siguientes valores:

Probabilidad condicional de la segunda columna según los valores de la primera columna.
Desviación media y estándar para cada grupo de valores de la primera columna.

El módulo genera un conjunto de datos con las puntuaciones y una función que puede guardar y aplicar a otros conjuntos de datos.

Cómo configurar Reemplazar valores discretos

Sugerencia

Se recomienda trabajar con solo un par de columnas a la vez. El módulo no genera un error si selecciona varias columnas para analizar. Sin embargo, en la práctica, si elige varias columnas, se comparan con una heurística interna, no por orden de selección.

Por lo tanto, se recomienda seleccionar un único par de columnas cada vez, uno para Columnas discretas y otro para Columnas de reemplazo.

Si necesita generar puntuaciones para varias columnas, use instancias independientes de Reemplazar valores discretos.

Agregue el módulo Reemplazar valores discretos al experimento. Puede encontrar este módulo en el grupo Funciones estadísticas en la lista de elementos del experimento en Machine Learning Studio (clásico).
Conectar un conjunto de datos que contiene al menos una columna de datos categóricos.
Columnas discretas: haga clic en Iniciar selector de columnas para elegir una columna que contenga valores discretos (o categóricos).

Las columnas discretas que seleccione deben ser categóricas. Si se produce un error, use el módulo Editar metadatos para cambiar el tipo de columna.
Columnas de reemplazo: haga clic en Iniciar selector de columnas para elegir la columna que contiene los valores que se usarán para calcular una puntuación de reemplazo.

Si selecciona varias columnas para Columnas discretas, debe elegir un número igual de columnas de reemplazo.
Ejecute el experimento.

Nota:

No se puede elegir qué función estadística se va a aplicar. El módulo calcula una medida adecuada, en función del tipo de datos de la columna seleccionada para Columna de reemplazo.

Results

El módulo calcula uno de los siguientes valores para cada par de columnas:

Si la segunda columna contiene valores categóricos, el módulo calcula la probabilidad condicional de la segunda columna, dados los valores de la primera columna.

Por ejemplo, suponga que eligió occupation del conjunto de datos Census como columna discreta y que elige gender como columna de reemplazo. La salida del módulo sería:

P(gender | occupation)
Si la segunda columna contiene valores no categóricos que se pueden convertir en números (como valores numéricos o booleanos no marcados como categóricos), el módulo genera la desviación media y estándar para cada grupo de valores de la primera columna.

Por ejemplo, suponga que usa como occupationcolumna discreta y la otra columna es la columna numérica hours-per-week. El módulo generaría estos nuevos valores:

Mean(hours-per-week | occupation)

Std-Dev(hours-per-week | occupation)

Además de las puntuaciones de probabilidad, el módulo también genera un conjunto de datos transformado. En este conjunto de datos, la columna seleccionada como columnas de reemplazo se reemplaza por una columna que contiene las puntuaciones calculadas.

Sugerencia

La operación no cambia ni elimina realmente las columnas del conjunto de datos de origen. las columnas de puntuación son nuevas generadas por el módulo y la salida en lugar de los datos de origen.

Para ver los valores de origen junto con las puntuaciones de probabilidad, use el módulo Agregar columnas.

Ejemplos

El uso de Reemplazar valores discretos se puede ilustrar con algunos ejemplos sencillos.

Ejemplo 1: Reemplazo de un valor categórico por una puntuación de probabilidad

La siguiente tabla contiene una columna de categorías X y una columna Y con los valores True/False que se tratan como valores de categoría. Cuando se usa Reemplazar valores discretos, calcula una puntuación de probabilidad condicional para la probabilidad de Y dada X, como se muestra en la tercera columna.

X	Y	P(Y\|X)
Azul	0	`P(Y=0\|X=Blue) = 0.5`
Azul	1	`P(Y=1\|X=Blue) = 0.5`
Verde	0	`P(Y=0\|X=Green) = 2/3`
Verde	0	`P(Y=0\|X=Green) = 2/3`
Verde	1	`P(Y=1\|X=Green) = 1/3`
Rojo	0	`P(Y=0\|X=Red) = .75`
Rojo	0	`P(Y=0\|X=Red) = .75`
Rojo	1	`P(Y=1\|X=Red) = .25`
Rojo	0	`P(Y=0\|X=Red) = .75`

Ejemplo 2: Cálculo de la desviación media y estándar en función de una columna no categórico

Cuando la segunda columna es numérica, Reemplazar valores discretos calcula la desviación media y estándar en lugar de una puntuación de probabilidad condicional.

El ejemplo siguiente se basa en el conjunto de datos de ejemplo Precios automáticos, simplificado de la manera siguiente:

Se ha seleccionado un pequeño subconjunto de columnas.
Solo se extrajeron las 30 primeras filas mediante la opción Principal del módulo Partición y ejemplo.
El módulo Reemplazar valores discretos se usó para calcular la desviación media y estándar para el peso del vehículo. dada la columna de categorías, num-of-doors.

En la tabla siguiente se muestran los resultados:

Body	Número de puertas	Peso en vacío	Media(Peso en vacío\|Número de puertas)	Desviación estándar(Peso en vacío\|Número de puertas)
estándar	two	2548	2429.785714	507.45699
estándar	cuatro	2337	2625.6	493.409877
estándar	two	2507	2429.785714	507.45699
turbo	cuatro	3086	2625,6 5	493.409877
estándar	cuatro	1989	2625.6	493.409877
turbo		2191
estándar	cuatro	2535	2625.6	493.409877

Puede comprobar la media de cada grupo de valores mediante la función AVERAGEIF en Excel.

Ejemplo 3: control de valores que faltan

En este ejemplo se muestra cómo los valores ausentes (null) se propagan a los resultados cuando se calculan las puntuaciones de probabilidad condicional.

Si la columna de valores discretos y la columna de búsqueda de cálculo contienen algunos valores que faltan, estos se propagan a la nueva columna.
Si la columna de valores discretos solo contiene valores que faltan, el módulo no puede procesar la columna y aparece un mensaje de error.

X	Y	P(Y\|X)
1	True	`P(Y=true\|X=1) = 1/2`
1	False	`P(Y=false\|X=1) = 1/2`
2	True	`P(Y=true\|X=2) = 1/3`
2	False	`P(Y=false\|X=2) = 1/3`
2	Null	`P(Y=null\|X=2) = null`

Notas técnicas

Debe asegurarse de que las columnas discretas que desea reemplazar son de categorías, o el módulo devolverá un error. Para ello, use el módulo Editar metadatos .
Si la segunda columna contiene valores booleanos, los valores True-False se procesan como numéricos, donde FALSE y TRUE equivalente a 0 y 1, respectivamente.
La fórmula de la columna de desviación estándar calcula la desviación estándar de población. Por lo tanto, N se usa en el denominador en lugar de (N - 1).
Si la segunda columna contiene datos no categóricos (valores numéricos o booleanos), el módulo calcula la media y la desviación estándar de Y para el valor especificado de X.

Es decir, para cada fila del conjunto de datos indizada por i:

Mean(Y│X)i = Mean(Y│X = Xi)

StdDev(Y│X)i = StdDev(Y│X = Xi)
Si la segunda columna contiene datos de categorías o valores que no son numéricos ni booleanos, el módulo calcula la probabilidad condicional de Y para el valor especificado de X.
Los valores booleanos de la segunda columna se procesan como datos numéricos, donde FALSE y TRUE equivalen a 0 y 1, respectivamente.
Si hay una clase en la columna discreta tal que una fila con un valor faltante está presente en la segunda columna, la suma de las probabilidades condicionales dentro de la clase es menor que uno.

Entradas esperadas

Nombre	Tipo	Descripción
Dataset	Tabla de datos	Conjunto de datos de entrada

Parámetros del módulo

Nombre	Intervalo	Tipo	Valor predeterminado	Descripción
Columnas discretas [DMX]	Any	ColumnSelection		Selecciona las columnas que contienen valores discretos
Columnas de reemplazo	Any	ColumnSelection		Selecciona las columnas que contienen los datos que se van a utilizar en lugar de los valores discretos

Salidas

Nombre	Tipo	Descripción
Conjunto de datos complementado	Tabla de datos	Conjunto de datos con datos reemplazados
Función de transformación	Interfaz ITransform	Definición de la función de transformación, que se puede aplicar a otros conjuntos de datos

Excepciones

Excepción	Descripción
Error 0001	Se produce una excepción si no se pueden encontrar una o varias de las columnas especificadas del conjunto de datos.
Error 0003	Se produce una excepción si una o varias de las entradas son NULL o están vacías.
Error 0020	Se produce una excepción si el número de columnas de algunos de los conjuntos de datos que se pasan al módulo es demasiado pequeño.
Error 0021	Se produce una excepción si el número de filas de algunos de los conjuntos de datos que se pasan al módulo es demasiado pequeño.
Error 0017	Se producen excepciones si una o más columnas especificadas tienen un tipo no compatible con el módulo actual.
Error 0026	Se produce una excepción si no se permiten columnas con el mismo nombre.
Error 0022	Se produce una excepción si el número de columnas seleccionadas en el conjunto de datos de entrada no es igual al número esperado.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Funciones estadísticas

X	Y	P(Y\|X)
Azul	0	`P(Y=0\|X=Blue) = 0.5`
Azul	1	`P(Y=1\|X=Blue) = 0.5`
Verde	0	`P(Y=0\|X=Green) = 2/3`
Verde	0	`P(Y=0\|X=Green) = 2/3`
Verde	1	`P(Y=1\|X=Green) = 1/3`
Rojo	0	`P(Y=0\|X=Red) = .75`
Rojo	0	`P(Y=0\|X=Red) = .75`
Rojo	1	`P(Y=1\|X=Red) = .25`
Rojo	0	`P(Y=0\|X=Red) = .75`

X	Y	P(Y\|X)
1	True	`P(Y=true\|X=1) = 1/2`
1	False	`P(Y=false\|X=1) = 1/2`
2	True	`P(Y=true\|X=2) = 1/3`
2	False	`P(Y=false\|X=2) = 1/3`
2	Null	`P(Y=null\|X=2) = null`