Seleccionar columnas de conjunto de datos

Selecciona las columnas para incluirlas o excluirlas del conjunto de datos en una operación

Categoría: transformación y manipulación de datos

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo seleccionar columnas de conjunto de los Azure machine learning Studio (clásico) para elegir un subconjunto de columnas para usarlas en operaciones de nivel inferior. El módulo no elimina físicamente las columnas del conjunto de datos de origen; en su lugar, crea un subconjunto de columnas, muy similar a una vista o proyección de una base de datos.

Este módulo es especialmente útil si necesita limitar las columnas disponibles para una operación de nivel inferior, o si desea reducir el tamaño del conjunto de columnas quitando las columnas innecesarias.

Las columnas del conjunto de datos mantienen el mismo orden que en los datos originales, incluso si las especifica en un orden diferente.

Cómo usar SELECT columns in DataSet

Este módulo no tiene parámetros. Utiliza el selector de columnas para elegir las columnas que desea incluir o excluir.

Elegir columnas por nombre

El módulo cuenta con varias opciones para elegir columnas por nombre:

  • Filtrar y buscar

    Haga clic en la opción POR NOMBRE.

    Si ha conectado un conjunto de datos que ya está propagado, se mostrará una lista de columnas disponibles. Si no aparece ninguna columna, es posible que deba ejecutar módulos ascendentes para ver la lista de columnas.

    Para filtrar la lista, escriba en el cuadro de búsqueda. Por ejemplo, si escribe la letra w en el cuadro de búsqueda, la lista se filtrará para mostrar los nombres de columna que contengan la letra w.

    Seleccione las columnas y haga clic en el botón de flecha derecha para mover las columnas seleccionadas a la lista del panel derecho.

    • Para seleccionar un intervalo continuo de nombres de columna, presione Mayús + clic.
    • Para agregar columnas individuales a la selección, presione Ctrl + clic.

    Haga clic en el botón de marca de verificación para guardar y cerrar.

  • Usar nombres en combinación con otras reglas

    Haga clic en la opción CON REGLAS.

    Elija una regla, por ejemplo, que se muestren las columnas de un tipo de datos específico.

    A continuación, haga clic en las columnas individuales de ese tipo por nombre para agregarlas a la lista de la selección.

  • Escribir o pegar una lista de nombres de columna separados por comas

    Si el conjunto de DataSet es muy amplio, podría ser más fácil usar índices o listas generadas de nombres, en lugar de seleccionar columnas individualmente. Suponiendo que ha preparado la lista de antemano:

    1. Haga clic en la opción CON REGLAS.
    2. Seleccione Ninguna columna, seleccione Incluir y, a continuación, haga clic en el cuadro de texto con el signo de exclamación rojo.
    3. Pegue o escriba una lista de nombres de columna validados previamente separados por comas. No puede guardar el módulo si alguna columna tiene un nombre no válido, por lo que deberá comprobar los nombres de antemano.

    También puede usar este método para especificar una lista de columnas utilizando sus valores de índice. Vea la sección ejemplos para obtener sugerencias sobre cómo trabajar con índices de columna.

Elegir por tipo

Si usa la opción CON REGLAS, puede aplicar varias condiciones a las selecciones de columnas. Por ejemplo, es posible que necesite obtener solo las columnas de característica de un tipo de datos numérico.

La opción Begin with determina el punto de inicio y es muy importante para comprender los resultados.

  • Si selecciona la opción TODAS LAS COLUMNAS, se agregarán todas las columnas a la lista. A continuación, debe usar la opción Excluir para eliminar las columnas que cumplan ciertas condiciones.

    Por ejemplo, puede comenzar con todas las columnas y, a continuación, eliminar columnas por nombre o por tipo.

  • Si selecciona la opción NINGUNA COLUMNA, la lista de columnas empieza vacía. A continuación, deberá especificar las condiciones para agregar columnas a la lista.

    Si aplica varias reglas, cada condición es aditiva. Por ejemplo, supongamos que comienza sin ninguna columna y, a continuación, agrega una regla para obtener todas las columnas numéricas. En el conjunto de datos de precios de automóviles, que obtiene como resultado 16 columnas. A continuación, haga clic en el + signo para agregar una nueva condición y seleccione incluir todas las características. El conjunto de datos resultante incluye todas las columnas numéricas, además de todas las columnas de característica, incluidas algunas columnas de característica de cadena.

Elegir por índice de columna

El índice de columna hace referencia al orden de la columna dentro del conjunto de datos original.

  • Las columnas se numeran secuencialmente, comenzando en el 1.
  • Para obtener un intervalo de columnas, use un guion.
  • No se permiten especificaciones abiertas como 1- o -3.
  • No se permiten valores de índice (o nombres de columna) duplicados, que podrían producir un error.

Por ejemplo, suponiendo que el conjunto de datos tiene al menos ocho columnas, puede pegar cualquiera de los ejemplos siguientes para devolver varias columnas no contiguas:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

el último ejemplo no produce un error; sin embargo, devuelve una única instancia de la columna 4.

Para obtener sugerencias adicionales sobre cómo trabajar con índices de columna, vea la sección ejemplos .

Cambiar el orden de las columnas

La opción Permitir duplicados y conservar el orden de las columnas en la selección comienza con una lista vacía y agrega las columnas que especifica por nombre o por índice. A diferencia de otras opciones, que siempre devuelven las columnas en su "orden natural", esta opción muestra las columnas en el orden en que las nombre o enumere.

Por ejemplo, en un conjunto de datos con las columnas Col1, Col2, Col3 y Col4, podría invertir el orden de las columnas y omitir la columna 2 especificando las listas siguientes:

  • Col4, Col3, Col1
  • 4,3,1

Ejemplos

Para obtener ejemplos de cómo usar seleccionar columnas en el conjuntode código, vea estos experimentos de ejemplo en la Galería de modelos:

Escenarios comunes para la selección de columnas

En los siguientes ejemplos se describen algunas formas típicas en las que los usuarios aplican columnas SELECT en el conjunto de elementos en machine learning y se ofrecen algunas sugerencias para seleccionar las columnas:

  • Deseo quitar columnas de texto del conjunto de valores para poder aplicar una operación matemática a todas las columnas numéricas.

    Muchas operaciones requieren que solo existan columnas numéricas en el conjunto de DataSet. Puede quitar temporalmente las columnas que causan un error excluyendo el texto y excluyendo las columnas de categorías (números que representan categorías discretas).

    1. Haga clic en iniciar el selector de columnas.

    2. En empezar con, seleccione todas las columnas.

    3. Seleccione la opción excluir , seleccione tipo de columna y, a continuación, seleccione cadena.

    4. Haga clic en el signo más (+) para agregar una nueva condición.

    5. Seleccione la opción excluir , seleccione tipo de columna y, a continuación, seleccione categorías.

  • Necesito aplicar la selección de características solo a las columnas de características de categorías.

    Si necesita separar columnas de un tipo similar, puede aplicar varias condiciones. Por ejemplo, las características pueden ser categorías o numéricas, pero algunos módulos de selección de características no permiten campos no numéricos, por lo que primero debe obtener características y, a continuación, agregar una condición para obtener solo las características numéricas.

    1. Haga clic en iniciar el selector de columnas.

    2. En empezar con, seleccione sin columnas.

    3. Seleccione la opción incluir y seleccione todas las características.

    4. Haga clic en el signo más (+) para agregar una nueva condición.

    5. Seleccione la opción incluir , seleccione tipo de columna y, a continuación, seleccione categorías.

  • Necesito aplicar una operación de normalización diferente a diferentes columnas numéricas.

    Antes de aplicar las operaciones matemáticas, es posible que necesite separar enteros de números de punto flotante, etc. Para ello, utilice los tipos de datos y aplique varias condiciones.

    1. Haga clic en iniciar el selector de columnas.

    2. En empezar con, seleccione sin columnas.

    3. Seleccione la opción incluir , seleccione tipo de columna y, a continuación, seleccione numérico.

    4. Haga clic en el signo más (+) para agregar una nueva condición.

    5. Seleccione la opción incluir , seleccione tipo de columna y, a continuación, seleccione el tipo numérico que sea incompatible con la operación de bajada.

  • Hay demasiadas columnas para elegir mediante el selector.

    A menudo, después de importar un conjunto de cambios, observa que tiene muchas columnas que no son necesarias para el modelado. Sin embargo, desea conservarlos para la salida más adelante o para identificar los casos. Puede hacer esto dividiendo el conjunto de datos en dos partes (metadatos y columnas usadas para el modelado) y, posteriormente, volver a combinar las columnas según sea necesario, mediante el uso de Agregar columnas.

    1. Haga clic en iniciar el selector de columnas.

    2. En empezar con, seleccione sin columnas.

    3. Seleccione la opción incluir , seleccione tipo de columna y, a continuación, seleccione característica.

    4. Haga clic en el signo más (+) para agregar una nueva condición.

    5. Seleccione la opción incluir , seleccione tipo de columna y, a continuación, seleccione etiqueta.

    6. Repita estos pasos, pero empiece con todas las columnas y, a continuación, excluya las columnas de características y etiquetas para crear un conjunto de datos solo de los metadatos.

  • No sé los valores de índice de las columnas que necesito.

    Si solo hay unas pocas columnas en el conjunto de elementos, puede utilizar la opción visualizar para ver las primeras 100 filas y, a continuación, averiguar qué columna es el índice 1, 2, etc.

    • Los índices de Azure Machine Learning comienzan en 1, por lo que la primera columna siempre es 1.

    • Para obtener el índice de la última columna, examine las dos listas de columnas en el selector de columnas: columnas disponibles y columnas seleccionadas. La barra gris situada debajo de la lista de columnas muestra el recuento de columnas en cada lista. Por lo tanto, si hay 24 columnas disponibles y se seleccionan dos columnas, hay un total de 26 columnas y el índice de la última columna es 26.

    Otra opción para extraer el esquema del conjunto de DataSet es usar el módulo Ejecutar script de R para obtener los nombres de columna con números de índice.

    1. Conecte el conjunto de DataSet al módulo Ejecutar script de R .

    2. En el módulo, escriba un script similar al siguiente para generar los nombres de columna. La línea que comienza con myindex genera una secuencia que representa los índices en orden.

      dataset1 <- maml.mapInputPort(1) # class: data.frame
      mycolnames <-names(dataset1);
      myindex <- seq(from = 1, to = length(mycolnames), by=1);
      outdata <- as.data.frame(cbind(myindex, mycolnames));
      maml.mapOutputPort("outdata"); 
      

    Resultados del conjunto de

    Índice mycolnames
    1 symboling
    2 normalizados: pérdidas
    3 make

Notas técnicas

Si está familiarizado con las bases de datos relacionales, este módulo crea una proyección de los datos; por lo tanto, el nombre original, las columnas del proyecto. En términos de base de datos, una proyección es una función, como una instrucción Transact-SQL o LINQ, que toma los datos en formato tabular como entrada y genera una salida relacionada.

En álgebra relacional, una proyección es una operación unaria, que se escribe como un conjunto de nombres de atributo. El resultado de una proyección es el conjunto de dichos atributos, con otros atributos que se descartan.

Entradas esperadas

Nombre Tipo Descripción
Dataset Tabla de datos Conjunto de datos de entrada

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Select columns cualquiera ColumnSelection Selecciona las columnas que se van a mantener en el conjunto de datos proyectado.

Salidas

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Conjunto de datos de salida

Excepciones

Excepción Descripción
Error 0001 Se produce una excepción si no se encuentran una o varias de las columnas especificadas del conjunto de datos.
Error 0003 Se produce una excepción si uno o varios de los conjuntos de datos de entrada son nulos o están vacíos.

Para obtener una lista de los errores específicos de los módulos de Studio (clásico), consulte Machine Learning de los códigos de error.

Para obtener una lista de excepciones de API, consulte códigos de error de la API de REST de machine learning.

Vea también

Manipulación