Dividir los datos mediante la división de filas

En este artículo se describe cómo usar la opción dividir filas en el módulo Split Data (dividir datos) de Azure machine learning Studio (clásico). Esta opción es especialmente útil cuando es necesario dividir los conjuntos de valores que se usan para el entrenamiento y las pruebas, ya sea de forma aleatoria o según criterios.

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

La opción Split Rows admite las divisiones Random y estratificado. Por ejemplo, puede especificar una división 70-30 o una división 10-90 con la variable de destino representada equitativamente en ambos conjuntos de valores.

Para obtener información general sobre la creación de particiones de datos para experimentos de aprendizaje automático, consulte dividir datos y partición y dividir.

Otras opciones del módulo Split Data admiten diferentes formas de dividir los datos:

Dividir un conjunto de un conjunto de los dos grupos

  1. Agregue el módulo Split Data (dividir datos ) al experimento en Studio (clásico) y conecte el conjunto de datos que desea dividir.

  2. Para Splitting mode, elija Split rows.

  3. Fraction of rows in the first output dataset (Fracción de filas del primer conjunto de datos de salida). Use esta opción para determinar cuántas filas pertenecen a la primera salida (izquierda). Todas las demás filas irán a la segunda salida (derecha).

    El coeficiente representa el porcentaje de filas que se envían para el primer conjunto de datos de salida, por lo que debe escribir un número decimal comprendido entre 0 y 1.

    Por ejemplo, si escribe 0,75 como valor, el conjunto de datos se dividiría usando una relación de 75:25, donde el 75 % de las filas se enviará al primer conjunto de datos de salida, y el 25 % se enviará al segundo conjunto de datos de salida.

  4. Seleccione la opción Randomized split (División aleatoria) si quiere realizar la selección de datos en los dos grupos de forma aleatoria. Esta es la opción preferida cuando se crean conjuntos de datos de entrenamiento y de prueba.

  5. Inicialización aleatoria: escriba un valor entero no negativo para inicializar la secuencia pseudoaleatorios de instancias que se va a usar. Este valor de inicialización predeterminado se usa en todos los módulos que generan números aleatorios.

    Especificar un valor de inicialización hace que los resultados sean reproducibles en general. Si tiene que repetir los resultados de una operación de división, debe especificar un valor de inicialización para el generador de números aleatorios. De lo contrario, el valor de inicialización aleatorio se establece de forma predeterminada en 0, lo que significa que el valor de inicialización inicial se obtiene a partir del reloj del sistema. Como consecuencia, la distribución de datos puede ser ligeramente diferente cada vez que haga una división.

  6. Stratified split (División estratificada): Establezca esta opción en True para garantizar que los dos conjuntos de datos de resultados contengan una muestra representativa de los valores de la columna de estratos o la columna de clave de estratificación.

    Con el muestreo estratificado, los datos se dividen de forma que cada conjunto de datos de salida obtiene aproximadamente el mismo porcentaje de cada valor de destino. Por ejemplo, puede que desee asegurarse de que los conjuntos de entrenamiento y de prueba están aproximadamente equilibrados con respecto al resultado o con respecto a alguna otra columna, como el sexo.

  7. Ejecute el experimento o haga clic con el botón derecho en el módulo y seleccione Ejecutar seleccionado.

Ejemplos

En los siguientes ejemplos se muestra cómo realizar divisiones simples mediante el modo dividir filas .

Dividir en dos partes iguales

Agregue el módulo Split Data después del conjunto de datos sin realizar ningún otro cambio. De forma predeterminada, el módulo divide el conjunto de datos en dos partes iguales. Si los datos tienen un número impar de filas, la segunda salida obtiene el resto.

Dividir en tercios

Suponga que desea dividir un conjunto de datos en dos partes, con un tercio de los datos usados para el entrenamiento y el resto de las pruebas o divisiones adicionales.

Para ello, agregue un módulo Split Data (dividir datos ) y establezca la fracción de filas de la primera salida en 0,33. La segunda salida contiene los dos tercios restantes.

Para dividir la segunda salida en partes iguales, agregue otra instancia del módulo Split Data (dividir datos ) y esta vez use el valor predeterminado para una división 50-50.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Detalles de la implementación

  • Este módulo requiere que el conjunto de filas contenga al menos dos filas; de lo contrario, se produce un error.

  • Si usa la opción de especificar el número de filas que quiere, el número especificado debe ser un entero positivo y el número debe ser menor que el número total de filas del conjunto de datos.

  • Todos los valores de porcentaje deben estar en el intervalo comprendido entre 0 y 1.

  • Si especifica un número o porcentaje como un número de punto flotante inferior a uno y no usa el símbolo de porcentaje (%), el número se interpreta como un valor proporcional.

Requisitos adicionales para el muestreo de estratificado

  • La columna estratos solo puede contener datos nominales o de categorías. Si la columna contiene datos numéricos continuos, se genera un mensaje de error.

  • Una columna con demasiados valores únicos no es una buena candidata para la estratificación. Podría intentar contraer algunas categorías o agrupar valores de antemano.

Vea también

Ejemplo y partición dividida y muestra