Dividir los datos mediante una expresión regular

En este artículo se describe cómo usar la opción de División de expresiones regulares en el módulo dividir datos de Azure machine learning Studio (clásico). Esta opción es útil cuando es necesario aplicar un criterio de filtro a una columna de texto. Por ejemplo, puede dividir el conjunto de datos por si se menciona un producto determinado.

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

Puede usar una División de expresión regular en una sola columna de texto. Se define una expresión regular que incluye el nombre de la columna de texto y, a continuación, se establecen las condiciones que se aplican a la columna, como "comienza por", "contiene" o "no contiene".

Para obtener información general sobre la creación de particiones de datos para experimentos de aprendizaje automático, consulte dividir datos y partición y dividir.

Otras opciones del módulo Split Data :

Usar una expresión regular para dividir un conjunto de

  1. Agregue el módulo Split Data al experimento y conéctelo como entrada en el conjunto de datos que quiere dividir.

  2. Para Splitting mode, seleccione Regular expression split.

  3. En el cuadro Expresión regular, escriba una expresión regular válida. Aquíse proporcionan algunos ejemplos.

    La expresión regular se aplica solo a la columna especificada, que debe ser un tipo de datos de cadena.

    Para obtener ayuda para la creación de expresiones regulares, vea el lenguaje de expresiones regulares: referencia rápida.

  4. Ejecute el experimento o haga clic con el botón derecho en el módulo y seleccione Ejecutar seleccionado.

    En función de la expresión regular que proporcione, el conjunto de datos se divide en dos conjuntos de filas: las filas con valores que coinciden con la expresión y todas las filas restantes.

Ejemplos

En los siguientes ejemplos se muestra cómo dividir un conjunto de elementos mediante la opción de expresión regular .

Palabra completa única

En este ejemplo se coloca en el primer conjunto de datos todas las filas que contienen el texto Gryphon de la columna Text y se colocan otras filas en la segunda salida de Split Data:

    \"Text" Gryphon  

Substring

En este ejemplo se busca la cadena especificada en cualquier posición dentro de la segunda columna del conjunto de valores, indicada aquí por el valor de índice de 1. La coincidencia distingue entre mayúsculas y minúsculas.

(\1) ^[a-f]

El primer conjunto de datos de resultados contiene todas las filas en las que la columna de índice comienza con uno de estos caracteres: a, b, c, d, e, f. Todas las demás filas se dirigen a la segunda salida.

Coincidencia de cadena en direcciones IP

En este ejemplo se dividen algunos datos de registro del servidor en dos categorías para el análisis: conexiones detrás del firewall y conexiones con direcciones IP fuera del firewall. La expresión regular se aplica al IP_Address campo (un tipo de datos de cadena ).

(\IP_Address) ^[10]

La primera salida contiene todas las direcciones que comienzan por 10 .

Vea también

Ejemplo y división
Partición y ejemplo