Supresión de filas duplicadas

Quita las filas duplicadas de un conjunto de datos

Categoría: transformación y manipulación de datos

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo quitar filas duplicadas en Azure machine learning Studio (clásico) para quitar posibles duplicados de un conjunto de registros.

Por ejemplo, supongamos tiene unos datos parecidos a los siguientes y que representan varios registros de pacientes.

PatientID Initials Sexo Age Admitido
1 F.M. M 53 Jan
2 F.A.M. M 53 Jan
3 F.A.M. M 24 Jan
3 F.M. M 24 Feb
4 F.M. M 23 Feb
F.M. M 23
5 F.A.M. M 53

Claramente, este ejemplo tiene varias columnas con datos potencialmente duplicados. Que sean duplicados reales depende de su conocimiento de los datos.

  • Por ejemplo, es posible que sepa que muchos pacientes se llaman igual. No eliminará los duplicados utilizando las columnas de nombre, solo la columna Identificador. De este modo, solo se filtran las filas con valores de identificador duplicados, independientemente de si los pacientes se llaman igual o no.

  • Como alternativa, puede optar por permitir duplicados en el campo ID y usar otra combinación de registros para buscar registros únicos, como el nombre, el apellido, la edad y el sexo.

Para establecer los criterios para determinar si una fila está duplicada o no, especifica una sola columna o un conjunto de columnas que se usarán como claves. Dos filas se consideran duplicadas solo cuando los valores de todas las columnas de clave son iguales.

Al ejecutar el módulo, este crea un conjunto de datos candidato y devuelve un conjunto de filas que no tienen duplicados en el conjunto de columnas que ha especificado.

Importante

El conjunto de datos de origen no se modifica; este módulo crea un conjunto de datos nuevo que se filtra para excluir duplicados según los criterios que especifique.

Cómo usar Supresión de filas duplicadas

  1. Agregue el módulo al experimento. Puede encontrar el módulo Supresión de filas duplicadas en Transformación de datos, Manipulación.

  2. Conecte el conjunto de datos para el que desea comprobar las filas duplicadas.

  3. En el panel Propiedades, en Expresión de filtro de selección de columnas de clave, haga clic en Iniciar selector de columnas para elegir las columnas que usará para identificar los duplicados.

    En este contexto, Clave no tiene el sentido de identificador único. Todas las columnas que seleccione mediante el Selector de columnas se designan como columnas de clave. Todas las columnas no seleccionadas se consideran columnas que no son de clave. La combinación de columnas que seleccione como claves determina la unicidad de los registros. (Considérelo como una instrucción SQL que usa varias combinaciones de igualdad).

    Ejemplos:

    • "Quiero asegurarme de que los identificadores son únicos": Elija solo la columna de identificador.
    • "Quiero asegurarme de que la combinación de nombre, apellido e identificador es única": Seleccione las tres columnas.
  4. Use la casilla Conservar primera fila duplicada para indicar qué fila debe devolverse cuando se encuentran duplicados:

    • Si se selecciona, se devuelve la primera fila y se descartan las demás.
    • Si desactiva esta opción, se mantiene la última fila duplicada en los resultados y se descartan las demás.

    Vea la sección notas técnicas para obtener información sobre cómo se administran los valores de missinng.

  5. Ejecute el experimento o haga clic en el módulo y seleccione Ejecutar seleccionado.

  6. Para revisar los resultados, haga clic con el botón derecho en el módulo, seleccione Conjunto de datos de resultados y haga clic en Visualizar.

Sugerencia

Si los resultados son difíciles de entender, o bien si desea excluir algunas columnas de la consideración, puede quitar las columnas mediante el módulo Seleccionar columnas en conjunto de datos.

Ejemplos

Para ver ejemplos de cómo se usa este módulo, consulte la Azure AI Gallery:

  • Detección de cáncer de mama: quitar filas duplicadas se utiliza para consolidar los conjuntos de los de entrenamiento y de prueba después de Agregar columnas de características.

  • Recomendación de películas: usa quitar filas duplicadas para asegurarse de que solo hay una clasificación de usuario por película.

  • Análisis de opiniones de Twitter: quitar filas duplicadas se aplica solo a las columnas de identificador y popularidad, para asegurarse de que solo hay un valor de clasificación ordinal por película. En otras palabras, una película no puede ser la primera y la tercera, por lo que se usa un solo valor incluso si los usuarios clasificaron la película de manera diferente.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Detalles de la implementación

El módulo funciona recorriendo en bucle todas las filas del conjunto de datos de entrada. Recopila en un conjunto de resultados de salida candidato todas las filas donde la combinación única de valores de columna de clave aparece por primera vez.

El tipo de matriz de columna se conserva independientemente de los resultados del filtrado de filas. No se puede forzar la matriz a un tipo de datos concreto filtrando valores no válidos; el tipo de matriz de columna se basa en todos los valores de la columna. Esta restricción también se aplica al filtrar los valores que faltan.

El algoritmo utilizado para comparar valores de datos se fuerza mediante hash.

Valores que faltan

El conjunto de datos de entrada puede tener valores que faltan en columnas que no son de clave y columnas de clave. Estas reglas se aplican a los valores que faltan:

  • Un valor que falta se considera un valor válido en las columnas de clave. Los valores que faltan pueden estar presentes en ambas claves.

  • En un conjunto de datos disperso, el valor que falta solamente se considera igual si coincide con la representación predeterminada de un valor disperso.

  • En las columnas de clave, un valor que falta se considera igual que otros valores que faltan, pero no igual que los valores que no faltan.

Entrada prevista

Nombre Tipo Descripción
Dataset Tabla de datos Conjunto de datos de entrada

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Expresión de filtro de selección de columna de clave cualquiera ColumnSelection Elegir las columnas de clave que se usarán al buscar duplicados.
Conservar la primera fila duplicada cualquiera Boolean true Indique si desea mantener la primera fila de un conjunto de duplicados y descartar otros. Si es False, se mantiene la última fila duplicada encontrada.

Output

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Conjunto de datos filtrado

Excepciones

Excepción Descripción
Error 0003 Se produce una excepción si uno o varios conjuntos de datos de entrada son null o están vacíos.
Error 0020 Se produce una excepción si el número de columnas de algunos de los conjuntos de datos que se pasan al módulo es demasiado pequeño.
Error 0017 Se produce una excepción si una o varias columnas especificadas tienen un tipo no compatible con el módulo actual.

Para obtener una lista de los errores específicos de los módulos de Studio (clásico), consulte Machine Learning de los códigos de error.

Para obtener una lista de excepciones de API, consulte códigos de error de la API de REST de machine learning.

Vea también

Manipula
Lista de módulos A-Z