Remover Linhas Duplicadas

Artigo
05/06/2019

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos do Estúdio de ML (clássico). Até 31 de agosto de 2024, pode continuar a utilizar os recursos existentes do Estúdio de ML (clássico).

Consulte informações sobre projetos de machine learning em movimento de ML Studio (clássico) para Azure Machine Learning.
Saiba mais sobre Azure Machine Learning.

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Remove as linhas duplicadas de um conjunto de dados

Categoria: Transformação de Dados / Manipulação

Nota

Aplica-se a: Machine Learning Studio (clássico) apenas

Módulos semelhantes de arrasto e queda estão disponíveis em Azure Machine Learning designer.

Visão geral do módulo

Este artigo descreve como utilizar o módulo Remove Duplicate Rows no Machine Learning Studio (clássico), para remover potenciais duplicados de um conjunto de dados.

Por exemplo, assuma que os seus dados são os seguintes, e representa vários registos para pacientes.

PatientID	Iniciais	Sexo	Idade	Admitido
1	F.M.	M	53	Jan
2	F.A.M.	M	53	Jan
3	F.A.M.	M	24	Jan
3	F.M.	M	24	Feb
4	F.M.	M	23	Feb
	F.M.	M	23
5	F.A.M.	M	53

Claramente, este exemplo tem várias colunas com dados potencialmente duplicados. Se são realmente duplicados depende do seu conhecimento dos dados.

Por exemplo, pode saber que muitos pacientes têm o mesmo nome. Não eliminaria duplicados usando colunas de nome, apenas a coluna de identificação . Desta forma, apenas as linhas com valores de ID duplicados são filtradas, independentemente de os pacientes terem ou não o mesmo nome.
Em alternativa, pode decidir permitir duplicados no campo de ID e utilizar outra combinação de arquivos para encontrar registos únicos, como o primeiro nome, apelido, idade e sexo.

Para definir os critérios para se uma linha é duplicada ou não, especifica uma única coluna ou um conjunto de colunas para usar como teclas. Duas linhas são consideradas duplicadas apenas quando os valores em todas as colunas-chave são iguais.

Quando executam o módulo, cria um conjunto de dados de candidatos e devolve um conjunto de linhas que não têm duplicados no conjunto de colunas especificadas.

Importante

O conjunto de dados de origem não é alterado; este módulo cria um novo conjunto de dados que é filtrado para excluir duplicados, com base nos critérios especificados.

Como utilizar removem linhas duplicadas

Adicione o módulo à sua experiência. Pode encontrar o módulo Remover Linhas Duplicadas sob Transformação de Dados, Manipulação.
Ligação o conjunto de dados que pretende verificar se há linhas duplicadas.
No painel Propriedades , sob a expressão do filtro de seleção de colunas Chave, clique no seletor de colunas de lançamento, para escolher colunas a utilizar na identificação de duplicados.

Neste contexto, Key não significa um identificador único. Todas as colunas que selecionar utilizando o Seletor de Colunas são designadas como colunas-chave. Todas as colunas não selecionadas são consideradas colunas não-chave. A combinação de colunas que seleciona como teclas determina a singularidade dos registos. (Pense nisso como uma SQL declaração que usa múltiplas uniões de igualdade.)

Exemplos:
- "Quero garantir que os IDs são únicos": Escolha apenas a coluna ID.
- "Quero garantir que a combinação de nome próprio, apelido e ID é única": Selecione as três colunas.
Utilize a primeira caixa de verificação de linha duplicada para indicar qual a linha a devolver quando forem encontradas duplicações:
- Se selecionada, a primeira linha é devolvida e outras descartadas.
- Se desmarque esta opção, a última linha duplicada é mantida nos resultados e outras são descartadas.
Consulte a secção de notas técnicas para obter informações sobre a forma como os valores de falha são tratados.
Executar a experiência, ou clicar no módulo e selecionar Run Selected.
Para rever os resultados, clique no módulo com direito, selecione Conjunto de dados de Resultados e clique em Visualizar.

Dica

Se os resultados forem difíceis de entender, ou se pretender excluir algumas colunas de consideração, pode remover colunas utilizando o módulo Select Columns in Dataset .

Exemplos

Para ver exemplos de como este módulo é usado, consulte a Galeria Azure AI:

Deteção do cancro da mama: Remover Linhas Duplicadas é usada para consolidar os conjuntos de dados de treino e teste após a adição de colunas de funcionalidades.
Recomendação do filme: Usa removem linhas duplicadas para garantir que existe apenas uma classificação de utilizador por filme.
Análise de sentimento do Twitter: Remove Duplicate Rows é aplicado apenas às colunas de ID e popularidade, para garantir que existe apenas um valor de classificação ordinal por filme. Por outras palavras, um filme não pode ser simultaneamente 1º e 3º, pelo que um único valor é usado mesmo que os utilizadores classificassem o filme de forma diferente.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Detalhes de implementação

O módulo funciona rodando através de todas as linhas do conjunto de dados de entrada. Recolhe num conjunto de dados de saída de candidatos todas as linhas onde a combinação única de valores de coluna-chave aparece pela primeira vez.

O tipo de matriz de coluna é preservado independentemente dos resultados da filtragem de linha. Não é possível forçar a matriz a um determinado tipo de dados filtrando valores inválidos; o tipo de matriz de coluna baseia-se em todos os valores da coluna. Esta restrição também se aplica ao filtrar valores em falta.

O algoritmo usado para comparar valores de dados é forçado a hash.

Valores em falta

O conjunto de dados de entrada pode ter valores em falta em colunas e colunas-chave não-chave. Estas regras aplicam-se aos valores em falta:

Um valor em falta é considerado um valor válido nas colunas-chave. Os valores em falta podem estar presentes em ambas as teclas.
Num conjunto de dados escasso, o valor em falta só é considerado igual se for igual à representação padrão de um valor escasso.
Nas colunas-chave, um valor em falta é considerado igual a outros valores em falta, mas não igual a valores não em falta.

Entrada esperada

Nome	Tipo	Description
Conjunto de dados	Tabela de Dados	Conjunto de dados de entrada

Parâmetros do módulo

Nome	Intervalo	Tipo	Predefinição	Description
Expressão de filtro de seleção de colunas chave	qualquer	Seleção de Colunas		Escolha as colunas-chave a utilizar quando procurar duplicados.
Reter primeira linha duplicada	qualquer	Booleano	true	Indicar se deve manter a primeira linha de um conjunto de duplicados e descartar outros. Se falso, a última linha duplicada encontrada é mantida.

Saída

Nome	Tipo	Description
Conjunto de dados de resultados	Tabela de Dados	Conjunto de dados filtrado

Exceções

Exceção	Description
Erro 0003	Uma exceção ocorre se um ou mais dos conjuntos de dados de entrada forem nulos ou vazios.
Erro 0020	Uma exceção ocorre se o número de colunas em alguns dos conjuntos de dados passados para o módulo for demasiado pequeno.
Erro 0017	Uma exceção ocorre se uma ou mais colunas especificadas tiverem um tipo que não é suportado pelo módulo atual.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte Machine Learning Códigos de Erro.

Para obter uma lista de exceções da API, consulte Machine Learning CÓDIGOs de Erro da API REST.

Ver também

Manipulação
Lista de Módulos A-Z