Dividir un conjunto de filas mediante una expresión relativa

En este artículo se describe cómo usar la opción de División de expresión relativa en el módulo dividir datos de Azure machine learning Studio (clásico). Esta opción es útil si necesita dividir un conjunto de los conjuntos de valores de entrenamiento y de prueba mediante una expresión numérica. Por ejemplo:

  • Edad mayor que 40 frente a 40 o menos
  • Evaluación de prueba de 60 o superior frente a 60
  • Valor de rango de 1 frente a todos los demás valores

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

Para dividir los datos, elija una sola columna numérica en los datos y defina una expresión que se usará para evaluar cada fila. La expresión relativa debe incluir el nombre de columna, el valor y un operador como mayor que y menor que, igual a y no es igual a.

Esta opción divide el conjunto de los dos grupos.

Para obtener información general sobre la creación de particiones de datos para experimentos de aprendizaje automático, consulte dividir datos y partición y dividir.

Otras opciones del módulo Split Data :

Usar una expresión relativa para dividir un conjunto de

  1. Agregue el módulo Split Data (dividir datos ) al experimento en Studio y conéctelo como entrada al conjunto de datos que desea dividir.

  2. Para Splitting mode, seleccione Relative expression split.

  3. En el cuadro de texto expresión relacional , escriba una expresión que realice una operación de comparación numérica en una sola columna:

    • La columna contiene números de cualquier tipo de datos numéricos, incluidos los tipos de datos de fecha y hora.

    • La expresión puede hacer referencia a un máximo de un nombre de columna.

    • Utilice el carácter "y" comercial (&) para la operación AND y use el carácter de barra vertical (|) para la operación OR.

    • Se admiten los siguientes operadores: <, >, <=, >=, ==, !=.

    • No puede agrupar las operaciones con ( y ).

    Para obtener ideas, consulte la sección ejemplos .

  4. Ejecute el experimento o haga clic con el botón derecho en el módulo y seleccione Ejecutar seleccionado.

    La expresión divide el conjunto de datos en dos conjuntos de filas: las filas con valores que cumplen la condición y todas las filas restantes.

    Si necesita realizar operaciones de división adicionales, puede Agregar una segunda instancia de *dividir datos, o bien usar el módulo aplicar transformación de SQL y definir una instrucción Case.

Ejemplos de expresiones Relatve

En los siguientes ejemplos se muestra cómo dividir un conjunto de datos mediante la opción de expresión relativa en el módulo Split Data :

Uso del año natural

Un escenario común consiste en dividir un conjunto de datos por años. La expresión siguiente selecciona todas las filas donde los valores de la columna Year son mayores que 2010.

\"Year" > 2010

La expresión de fecha debe tener en cuenta todas las partes de fecha que se incluyen en la columna de datos y el formato de las fechas de la columna de datos debe ser coherente.

Por ejemplo, en una columna de fecha con el formato mmddyyyy , la expresión debe ser similar a la siguiente:

\"Date" > 1/1/2010

Usar índices de columna

La siguiente expresión muestra cómo puede utilizar el índice de columna para seleccionar todas las filas de la primera columna del conjunto de datos que contienen valores menores o iguales a 30, pero no iguales a 20.

(\0)<=30 & !=20

Operación compuesta en valores de hora mediante varias divisiones

Supongamos que quiere dividir una tabla de datos del registro para agrupar las consultas que se ejecutan demasiado tiempo. Puede usar la siguiente expresión relativa en la columna, Elapsed , para obtener las consultas que se ejecutaron durante más de 1 minuto.

\"Elapsed" >00:01:00

Para obtener las consultas con tiempos de respuesta en menos de un minuto pero más de 30 segundos, agregue otra instancia de datos divididos en el resultado de la derecha y use una expresión como la siguiente:

\"Elapsed" <:00:01:00 & >00:00:30

Dividir conjunto de datos en valores de fecha

La siguiente expresión relativa divide el conjunto de datos utilizando los valores de fecha de la columna dt1 .

\"dt1" > 10-08-2015

Las filas con una fecha superior a 10-08-2015 se agregan al primer conjunto de datos de salida (izquierdo).

Las filas con una fecha de 10-08-2015 o anterior se agregan al segundo conjunto de datos de salida (derecho).

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Restricciones

Las restricciones siguientes se aplican a las expresiones relativas de un conjunto de elementos:

  • Las expresiones relativas solo se pueden aplicar a tipos de datos numéricos y tipos de datos de fecha y hora.
  • Las expresiones relativas pueden hacer referencia a un nombre de columna como máximo.
  • Use el carácter de y comercial (&) para la operación AND y el carácter de barra vertical (|) para la operación o.
  • Se permiten los siguientes operadores para las expresiones relativas: < ,, > <= , >= , == , !=
  • No se admite la agrupación de operaciones con paréntesis.

Vea también

Ejemplo y división
Partición y ejemplo