Transformación de datos: ejemplo y división

En este artículo se describen los módulos de Azure Machine Learning Studio (clásico) que puede usar para crear particiones o datos de ejemplo.

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

Los conjuntos de valores de división y muestreo son tareas importantes del aprendizaje automático. Por ejemplo, es una práctica común dividir los datos en conjuntos de entrenamiento y de prueba para ayudarlo a evaluar un modelo en un conjunto de datos de exclusión. El muestreo también es cada vez más importante en la era de Big Data, para asegurarse de que hay una distribución equitativa de las clases en los datos de entrenamiento. El muestreo también ayuda a garantizar que no está procesando más datos de los necesarios.

Puede usar los módulos Machine Learning Studio (clásico) para personalizar la manera en que divide o muestra los conjuntos de valores:

  • Filtre los datos de entrenamiento en función de un atributo en los datos.
  • Realice un muestreo estratificado para dividir la variable de clase por igual entre n número de grupos.
  • Divida los datos de origen en un conjunto de datos de entrenamiento y pruebas mediante una relación personalizada.
  • Aplique expresiones regulares a los datos para filtrar los valores no válidos.

Elección de la operación correcta: división o muestreo

Machine Learning Studio (clásico) proporciona dos módulos que encapsulan las tareas. Los módulos suenan de forma similar, pero tienen usos diferentes y proporcionan funcionalidad complementaria. Es probable que use ambos módulos en un experimento para obtener la cantidad correcta y la combinación correcta de datos.

A continuación, comparamos el módulo Split Data (dividir datos ) y el módulo Partition y sample (ejemplo ) para ver en qué tareas se usa normalmente cada módulo.

Usos del módulo Split Data

  • Divida los datos en dos grupos. Use el módulo Split Data (dividir datos ). El módulo produce exactamente dos divisiones de los datos. Puede especificar la condición en la que se dividen los datos y la proporción de los datos que se colocan en cada subconjunto. Dividir datos siempre guarda el subconjunto de datos que no cumple las condiciones.
  • Asignar los valores de etiqueta por igual a los conjuntos de valores. Los dos módulos admiten la opción de le interese estratificar en una columna especificada. Sin embargo, si desea crear dos conjuntos de datos y están interesados principalmente en la columna de etiqueta, el módulo Split Data es una solución rápida.

Ejemplo de uso del módulo Split Data

Supongamos que ha importado un conjunto de archivos de gran tamaño desde un archivo CSV. El conjunto de datos contiene datos demográficos del cliente. Desea crear modelos diferentes para clientes en distintos países, por lo que decide dividir los datos mediante el valor de la Country-Region columna. Estos son los pasos que debe seguir para realizar esta tarea:

  1. Agregue el módulo dividir datos y, a continuación, especifique una expresión en el Country-Region campo. El resto de los datos está disponible en la salida secundaria.
  2. Agregue otra instancia del módulo Split Data (dividir datos ).
  3. Repita los pasos 1 y 2. Especifique un país diferente en la expresión para cada iteración.

El módulo Split Data (dividir datos ) admite tanto expresiones regulares, como datos de texto, como expresiones relativas, para datos numéricos.

El módulo Split Data (dividir datos ) también proporciona una funcionalidad sofisticada que puede usar para dividir conjuntos de datos especializados. Use la funcionalidad para crear modelos de recomendación y para generar predicciones.

Usos de la partición y el módulo de ejemplo

  • Muestreo. Use siempre la partición y el módulo de ejemplo. El módulo proporciona varios métodos de muestreo personalizables, incluidas varias opciones para el muestreo de estratificado.
  • Asignar casos a varios grupos. Use las opciones asignar a plegamiento o seleccionar subconjunto en el módulo partición y ejemplo .
  • Devuelve solo un subconjunto de los datos. Use el módulo Partition y Sample . El módulo le proporciona el subconjunto especificado en el resultado principal. Los datos restantes están disponibles en una salida secundaria.
  • Obtiene solo las primeras 2.000 filas de un conjunto de filas. Use el módulo Partition y Sample . Seleccione la opción principal . Esto es especialmente útil cuando se prueba un experimento nuevo y se desea ejecutar breves pruebas de un flujo de trabajo.

Ejemplo de uso de la partición y el módulo de ejemplo

La partición y el módulo de ejemplo pueden generar varias particiones de los datos, no solo dos. Al mismo tiempo, puede realizar varias operaciones de muestreo.

Por ejemplo, supongamos que necesita obtener solo el 10 por ciento de los datos, asegurándose de que la distribución del atributo de destino es la misma que en los datos de origen. Estos son los pasos que debe seguir para realizar esta tarea:

  1. Agregue la partición y el módulo de ejemplo.
  2. Elija el modo de muestreo y, a continuación, especifique 10%.
  3. Seleccione la opción de muestreo estratificado y, a continuación, elija la columna que contiene el atributo de destino.

Si no necesita conservar todos los datos, use el módulo de ejemplo y la partición . Los datos restantes siguen presentes en el área de trabajo, pero no es necesario procesarlos más como parte del experimento.

Lista de módulos

Esta categoría incluye los siguientes módulos:

  • Partición y ejemplo: crea varias particiones de un conjunto de un objeto basándose en el muestreo.
  • Split Data: crea particiones de las filas de un conjunto de datos en dos conjuntos distintos.

Consulte también