Supresión de filas duplicadas

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Quita las filas duplicadas de un conjunto de datos

Categoría: Transformación y manipulación de datos

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Quitar filas duplicadas en Machine Learning Studio (clásico) para quitar posibles duplicados de un conjunto de datos.

Por ejemplo, supongamos tiene unos datos parecidos a los siguientes y que representan varios registros de pacientes.

PatientID Initials Sexo Age Admitido
1 F.M. M 53 Jan
2 F.A.M. M 53 Jan
3 F.A.M. M 24 Jan
3 F.M. M 24 Feb
4 F.M. M 23 Feb
F.M. M 23
5 F.A.M. M 53

Claramente, este ejemplo tiene varias columnas con datos potencialmente duplicados. Que sean duplicados reales depende de su conocimiento de los datos.

  • Por ejemplo, es posible que sepa que muchos pacientes se llaman igual. No eliminará los duplicados utilizando las columnas de nombre, solo la columna Identificador. De este modo, solo se filtran las filas con valores de identificador duplicados, independientemente de si los pacientes se llaman igual o no.

  • Como alternativa, puede decidir permitir duplicados en el campo id. y usar alguna otra combinación de archivos para buscar registros únicos, como el nombre, el apellido, la edad y el sexo.

Para establecer los criterios para determinar si una fila está duplicada o no, especifica una sola columna o un conjunto de columnas que se usarán como claves. Dos filas se consideran duplicadas solo cuando los valores de todas las columnas de clave son iguales.

Al ejecutar el módulo, este crea un conjunto de datos candidato y devuelve un conjunto de filas que no tienen duplicados en el conjunto de columnas que ha especificado.

Importante

El conjunto de datos de origen no se modifica; este módulo crea un conjunto de datos nuevo que se filtra para excluir duplicados según los criterios que especifique.

Cómo usar Supresión de filas duplicadas

  1. Agregue el módulo al experimento. Puede encontrar el módulo Supresión de filas duplicadas en Transformación de datos, Manipulación.

  2. Conecte el conjunto de datos para el que desea comprobar las filas duplicadas.

  3. En el panel Propiedades, en Expresión de filtro de selección de columnas de clave, haga clic en Iniciar selector de columnas para elegir las columnas que usará para identificar los duplicados.

    En este contexto, Clave no tiene el sentido de identificador único. Todas las columnas que seleccione mediante el Selector de columnas se designan como columnas de clave. Todas las columnas no seleccionadas se consideran columnas que no son de clave. La combinación de columnas que seleccione como claves determina la unicidad de los registros. (Consúltese como una instrucción SQL que usa varias combinaciones de igualdad).

    Ejemplos:

    • "Quiero asegurarme de que los identificadores son únicos": Elija solo la columna de identificador.
    • "Quiero asegurarme de que la combinación de nombre, apellido e identificador es única": Seleccione las tres columnas.
  4. Use la casilla Conservar primera fila duplicada para indicar qué fila debe devolverse cuando se encuentran duplicados:

    • Si se selecciona, se devuelve la primera fila y se descartan las demás.
    • Si desactiva esta opción, se mantiene la última fila duplicada en los resultados y se descartan las demás.

    Consulte la sección Notas técnicas para obtener información sobre cómo se controlan los valores que se pierden.

  5. Ejecute el experimento o haga clic en el módulo y seleccione Ejecutar seleccionado.

  6. Para revisar los resultados, haga clic con el botón derecho en el módulo, seleccione Conjunto de datos de resultados y haga clic en Visualizar.

Sugerencia

Si los resultados son difíciles de entender, o bien si desea excluir algunas columnas de la consideración, puede quitar las columnas mediante el módulo Seleccionar columnas en conjunto de datos.

Ejemplos

Para ver ejemplos de cómo se usa este módulo, consulte el Azure AI Gallery:

  • Detección de cáncer de seno: quitar filas duplicadas se usa para consolidar los conjuntos de datos de entrenamiento y prueba después de agregar columnas de características.

  • Recomendación de películas: usa Quitar filas duplicadas para asegurarse de que solo hay una clasificación de usuario por película.

  • Análisis de opiniones de Twitter: Quitar filas duplicadas solo se aplica a las columnas de identificador y popularidad, para asegurarse de que solo hay un valor de clasificación ordinal por película. En otras palabras, una película no puede ser 1 y 3ª, por lo que se usa un solo valor incluso si los usuarios clasifican la película de forma diferente.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Detalles de la implementación

El módulo funciona recorriendo en bucle todas las filas del conjunto de datos de entrada. Recopila en un conjunto de datos de salida candidato todas las filas en las que la combinación única de valores de columna de clave aparece por primera vez.

El tipo de matriz de columna se conserva independientemente de los resultados del filtrado de filas. No se puede forzar la matriz a un tipo de datos concreto filtrando valores no válidos; el tipo de matriz de columna se basa en todos los valores de la columna. Esta restricción también se aplica al filtrar los valores que faltan.

El algoritmo utilizado para comparar valores de datos se fuerza mediante hash.

Valores que faltan

Es posible que el conjunto de datos de entrada tenga valores que faltan en columnas que no son de clave y columnas de clave. Estas reglas se aplican a los valores que faltan:

  • Un valor que falta se considera un valor válido en las columnas de clave. Los valores que faltan pueden estar presentes en ambas claves.

  • En un conjunto de datos disperso, el valor que falta solamente se considera igual si coincide con la representación predeterminada de un valor disperso.

  • En las columnas de clave, un valor que falta se considera igual que otros valores que faltan, pero no igual que los valores que no faltan.

Entrada prevista

Nombre Tipo Descripción
Dataset Tabla de datos Conjunto de datos de entrada

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Expresión de filtro de selección de columna de clave cualquiera ColumnSelection Elegir las columnas de clave que se usarán al buscar duplicados.
Conservar la primera fila duplicada cualquiera Boolean true Indique si desea mantener la primera fila de un conjunto de duplicados y descartar otros. Si es False, se mantiene la última fila duplicada encontrada.

Output

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Conjunto de datos filtrado

Excepciones

Excepción Descripción
Error 0003 Se produce una excepción si uno o varios conjuntos de datos de entrada son null o están vacíos.
Error 0020 Se produce una excepción si el número de columnas de algunos de los conjuntos de datos que se pasan al módulo es demasiado pequeño.
Error 0017 Se produce una excepción si una o varias columnas especificadas tienen un tipo no compatible con el módulo actual.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Manipulación
Lista de módulos A-Z