Conversión en valores de indicador

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Convierte valores de categorías en columnas con valores de indicador.

Categoría: Transformación y manipulación de datos

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Convertir en valores de indicador en Machine Learning Studio (clásico). El propósito de este módulo es convertir columnas que contienen valores categóricos en una serie de columnas de indicador binario que se pueden usar más fácilmente como características en un modelo de aprendizaje automático.

Procedimiento para configurar Convertir en valores de indicador

  1. Agregue el módulo Convertir a valores de indicador al experimento Machine Learning y conéctelo al conjunto de datos que contiene las columnas que desea convertir. Puede encontrar este módulo en Transformaciones de datos, en la categoría Manipulación.

  2. Use el Selector de columnas para elegir una o varias columnas de categorías.

    Para asegurarse de que las columnas que seleccione son categóricas, use Editar metadatos antes de convertir a valores de indicador en el experimento para marcar la columna de destino como categórica.

  3. Seleccione la opción Overwrite categorical columns (Sobrescribir columnas de categorías) si quiere devolver únicamente las nuevas columnas de valores booleanos.

    De forma predeterminada, esta opción está desactivada, lo que le permite ver la columna categórica que es el origen, junto con las columnas de indicador relacionadas.

    Sugerencia

    Si elige la opción para sobrescribir, la columna de origen no se elimina ni modifica realmente. En su lugar, las columnas nuevas se generan y presentan en el conjunto de datos de salida, y la columna de origen sigue disponible en el área de trabajo. Si necesita ver los datos originales, puede usar el módulo Agregar columnas en cualquier momento para volver a agregar la columna de origen.

  4. Ejecute el experimento.

Results

Por ejemplo, supongamos que tiene una columna con puntuaciones que indican si un servidor tiene una probabilidad de error alta, media o baja.

Id. de servidor Puntuación de error
10301 Bajo
10302 Media
10303 Alto

Al aplicar Convertir a valores de indicador, la única columna de etiquetas se convierte en varias columnas que contienen valores booleanos:

Id. de servidor Puntuación de error - baja Puntuación de error - media Puntuación de error - alta
10301 1 0 0
10302 0 1 0
10303 0 0 1

Este es el funcionamiento de la conversión:

  • En la columna Puntuación de error que describe el riesgo, solo hay tres valores posibles (alta, media y baja) y no falta ningún valor. Por lo tanto, se crean exactamente tres columnas nuevas.

  • Los nombres de las nuevas columnas de indicador se basan en los encabezados de columna, así como en los valores de la columna de origen con este patrón: <columna de origen>- <valor de datos>.

  • Debe haber un 1 en exactamente una columna de indicador y 0 en todas las demás columnas de indicador. Esto se debe a que cada servidor solo puede tener una clasificación de riesgo.

Ahora puede usar las tres columnas de indicador como características y analizar su correlación con otras propiedades asociadas a un nivel de riesgo diferente.

Ejemplos

Para ver ejemplos de cómo se usa este módulo, consulte el Azure AI Gallery:

  • Detección de cáncer de cuello: los pacientes se agrupan en grupos en función de los números de identificación de los pacientes y, a continuación, se usan valores de indicador para marcar a qué grupo pertenece el paciente. Más adelante, los indicadores de grupo se usan cuando se puntúan los modelos.

  • Marketing directo: las probabilidades se comparan con una constante mediante Aplicar operación matemática y los valores Sí/No que indican si la puntuación estaba por encima o por debajo de la constante se convierten en nuevas columnas de indicador.

  • Detección de intrusiones de red: los datos de registro se cargan desde Azure Storage. La variable de clase (que describe, por ejemplo, si un ataque es en forma de rootkit o desbordamiento de búfer) se convierte en una columna de categorías y, a continuación, se expande a varios valores de indicador.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Consejos de uso

  • Solamente las columnas que están marcadas como categorías se pueden convertir en columnas de indicador. Si ve este error, es probable que una de las columnas que seleccionó no sea categórica:

    Error 0056: La columna denominada <nombre de columna> no tiene una categoría permitida.

    De forma predeterminada, la mayoría de las columnas de cadena se controlan como características de cadena, por lo que debe marcarlas explícitamente como categóricas mediante Editar metadatos.

  • Se muestra un error si no selecciona al menos una columna de categorías.

  • No hay ningún límite para el número de columnas que se pueden convertir en columnas de indicador. Sin embargo, dado que cada columna de valores puede producir varias columnas de indicador, es posible que desee convertir y revisar solo algunas columnas a la vez.

  • Si la columna contiene valores que faltan, se crea una columna de indicador independiente para la categoría faltante con este nombre: <columna de origen> -Missing.

  • Si la columna que va a convertir en valores de indicador contiene números, se deben marcar como categorías como cualquier otra columna de características. Una vez marcados, los números se tratan como valores discretos. Por ejemplo, si tiene una columna numérica con valores de MPG entre 25 y 30, se creará una nueva columna de indicador para cada valor discreto:

    Asegúrese MPG en autopista - 25 MPG en autopista - 26 MPG en autopista - 27 MPG en autopista - 28 MPG en autopista - 29 MPG en autopista - 30
    Alfa Romeo 0 0 0 0 0 1

    Para evitar obtener un gran número de columnas de indicador, se recomienda comprobar primero el número de valores de la columna y bin o cuantificar los datos adecuadamente.

Entradas esperadas

Nombre Tipo Descripción
Dataset Tabla de datos Conjunto de datos con columnas de categorías

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Columnas de categorías para convertir Any ColumnSelection Selecciona columnas de categorías para convertir en matrices de indicador.
Sobrescribir columnas de categorías Any Boolean false Si es True, sobrescribe las columnas de categorías seleccionadas; en caso contrario, anexa las matrices de indicador resultantes al conjunto de datos.

Output

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Conjunto de datos con columnas de categorías convertidas en matrices de indicador.

Consulte también

Manipulación
Transformación de datos
Lista de módulos A-Z