Selecionar Colunas no Conjunto de Dados

Seleciona colunas para incluir ou excluir de um conjunto de dados numa operação

Categoria: Transformação de Dados / Manipulação

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como utilizar o módulo Select Columns in Dataset no Azure Machine Learning Studio (clássico), para escolher um subconjunto de colunas para utilizar em operações a jusante. O módulo não remove fisicamente as colunas do conjunto de dados de origem; em vez disso, cria um subconjunto de colunas, tal como uma visão ou projeçãode bases de dados.

Este módulo é particularmente útil quando é necessário limitar as colunas disponíveis para uma operação a jusante, ou se pretende reduzir o tamanho do conjunto de dados removendo colunas não necessárias.

As colunas no conjunto de dados são saídas na mesma ordem que nos dados originais, mesmo que as especifique numa ordem diferente.

Como utilizar Colunas Selecionadas no Conjunto de Dados

Este módulo não tem parâmetros. Utilize o seletor de colunas para escolher as colunas para incluir ou excluir.

Escolha colunas pelo nome

Existem múltiplas opções no módulo para escolher colunas pelo nome:

  • Filtrar e pesquisar

    Clique na opção POR NOME.

    Se tiver ligado um conjunto de dados que já está povoado, deve aparecer uma lista de colunas disponíveis. Se não aparecerem colunas, poderá ter de executar módulos a montante para visualizar a lista de colunas.

    Para filtrar a lista, digite a caixa de pesquisa. Por exemplo, se escrever a letra w na caixa de pesquisa, a lista é filtrada para mostrar os nomes das colunas que contêm a letra w .

    Selecione colunas e clique no botão de seta direita para mover as colunas selecionadas para a lista no painel direito.

    • Para selecionar uma gama contínua de nomes de colunas, prima Shift + Click.
    • Para adicionar colunas individuais à seleção, prima Ctrl + Click.

    Clique no botão de marca de verificação para guardar e fechar.

  • Use nomes em combinação com outras regras

    Clique na opção COM REGRAS.

    Escolha uma regra, como mostrar colunas de um tipo de dados específico.

    Em seguida, clique em colunas individuais desse tipo por nome, para adicioná-las à lista de seleção.

  • Digite ou cole uma lista separada por vírgulas de nomes de colunas

    Se o seu conjunto de dados for muito amplo, poderá ser mais fácil usar índices ou listas de nomes geradas, em vez de selecionar colunas individualmente. Assumindo que preparou a lista com antecedência:

    1. Clique na opção COM REGRAS.
    2. Selecione Não colunas, selecione Incluire, em seguida, clique no interior da caixa de texto com o ponto de exclamação vermelho.
    3. Cole ou digite uma lista separada por vírgula de nomes de colunas previamente validados. Não é possível guardar o módulo se alguma coluna tiver um nome inválido, por isso certifique-se de verificar previamente os nomes.

    Também pode utilizar este método para especificar uma lista de colunas utilizando os seus valores de índice. Consulte a secção Exemplos para obter dicas sobre como trabalhar com índices de colunas.

Escolha por tipo

Se utilizar a opção COM REGRAS, pode aplicar várias condições nas seleções das colunas. Por exemplo, pode precisar de obter apenas colunas de recurso de um tipo de dados numérico.

A opção START WITH determina o seu ponto de partida e é muito importante para compreender os resultados.

  • Se selecionar a opção TODAS AS COLUNAS, todas as colunas são adicionadas à lista. Em seguida, deve utilizar a opção Excluir para remover colunas que satisfaçam determinadas condições.

    Por exemplo, pode começar com todas as colunas e depois remover colunas pelo nome, ou por tipo.

  • Se selecionar a opção NO COLUMNS, a lista de colunas começa a ficar vazia. Em seguida, especifique as condições para adicionar colunas à lista.

    Se aplicar várias regras, cada condição é aditiva. Por exemplo, digamos que se começa sem colunas e depois adiciona-se uma regra para obter todas as colunas numéricas. No conjunto de dados de preços do Automóvel, isso resulta em 16 colunas. Em seguida, clique no + sinal para adicionar uma nova condição e selecione Inclua todas as funcionalidades. O conjunto de dados resultante inclui todas as colunas numéricas, além de todas as colunas de funcionalidades, incluindo algumas colunas de características de cordas.

Escolha por índice de coluna

O índice da coluna refere-se à ordem da coluna dentro do conjunto de dados original.

  • As colunas são numeradas sequencialmente a partir de 1.
  • Para obter uma gama de colunas, use um hífen.
  • Especificações abertas, tais como 1- ou -3 não são permitidas.
  • Os valores de índice duplicados (ou nomes de colunas) não são permitidos e podem resultar num erro.

Por exemplo, assumindo que o seu conjunto de dados tem pelo menos oito colunas, pode colar em qualquer um dos seguintes exemplos para devolver várias colunas não contíguas:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

o exemplo final não resulta num erro; no entanto, devolve uma única instância de coluna 4 .

Para obter dicas adicionais sobre o trabalho com índices de colunas, consulte a secção Exemplos.

Alterar a ordem das colunas

A opção Permitir duplicar e preservar a ordem da coluna na seleção começa com uma lista vazia e adiciona colunas que especifica pelo nome ou por índice. Ao contrário de outras opções, que devolvem sempre as colunas na sua "ordem natural", esta opção produz as colunas na ordem que nomeia ou enumera.

Por exemplo, num conjunto de dados com as colunas Col1, Col2, Col3 e Col4, pode inverter a ordem das colunas e deixar de fora a coluna 2, especificando qualquer uma das seguintes listas:

  • Col4, Col3, Col1
  • 4,3,1

Exemplos

Por exemplo, como utilizar colunas selecionadas no conjunto de dados,consulte estas experiências de amostra na Galeria dos Modelos:

Cenários comuns para a seleção de colunas

Os exemplos a seguir descrevem algumas formas típicas de os utilizadores aplicarem Colunas Selecionadas no Conjunto de Dados na aprendizagem automática, e fornecem algumas dicas para como selecionar as colunas:

  • Quero remover colunas de texto do conjunto de dados para poder aplicar uma operação matemática a todas as colunas numéricas.

    Muitas operações exigem que apenas colunas numéricas estejam presentes no conjunto de dados. Pode remover temporariamente colunas que causem um erro, excluindo texto e excluindo colunas categóricas (números que representam categorias discretas).

    1. Clique no seletor de colunas de lançamento.

    2. Para Começar Com, selecione Todas as colunas.

    3. Selecione a opção Excluir, selecione o tipo de colunae, em seguida, selecione String.

    4. Clique no sinal de mais (+) para adicionar uma nova condição.

    5. Selecione a opção Excluir, selecione o tipo de colunae, em seguida, selecione Categorical.

  • Preciso de aplicar a seleção de recursos apenas às colunas de características categóricas.

    Se precisar de separar colunas de um tipo semelhante, pode aplicar várias condições. Por exemplo, as funcionalidades podem ser categóricas ou numéricas, mas alguns módulos de seleção de recursos não permitem campos não numéricos, por isso primeiro tem de obter funcionalidades e depois adicionar uma condição para obter apenas as características numéricas.

    1. Clique no seletor de colunas de lançamento.

    2. Para começar com, selecione Sem colunas.

    3. Selecione a opção Incluir e selecione todas as funcionalidades.

    4. Clique no sinal de mais (+) para adicionar uma nova condição.

    5. Selecione a opção Incluir, selecione o tipo de colunae, em seguida, selecione Categorical.

  • Preciso aplicar uma operação de normalização diferente a diferentes colunas numéricas.

    Antes de aplicar operações matemáticas, pode precisar de separar os inteiros dos números de pontos flutuantes, etc. Para isso utilize os tipos de dados e aplique múltiplas condições.

    1. Clique no seletor de colunas de lançamento.

    2. Para começar com, selecione Sem colunas.

    3. Selecione a opção Incluir, selecione o tipo de colunae, em seguida, selecione Numérico.

    4. Clique no sinal de mais (+) para adicionar uma nova condição.

    5. Selecione a opção Incluir, selecione o tipo de colunae, em seguida, selecione o tipo numérico que é incompatível com a operação a jusante.

  • Há demasiadas colunas para escolher usando o seletor.

    Muitas vezes, depois de importar um conjunto de dados, descobre-se que tem muitas colunas que não são necessárias para modelar. No entanto, pretende preservá-los para a produção posterior, ou para identificar casos. Pode fazê-lo dividindo o conjunto de dados em duas partes (metadados e colunas utilizadas para modelação) e posteriormente recombinar colunas, se necessário, utilizando Colunas adicionais.

    1. Clique no seletor de colunas de lançamento.

    2. Para começar com, selecione Sem colunas.

    3. Selecione a opção Incluir, selecione o tipo de colunae, em seguida, selecione 'Função'.

    4. Clique no sinal de mais (+) para adicionar uma nova condição.

    5. Selecione a opção Incluir, selecione o tipo de colunae, em seguida, selecione Label.

    6. Repita estes passos, mas comece com todas as colunas e, em seguida, exclua as colunas de funcionalidades e etiquetas para criar um conjunto de dados apenas dos metadados.

  • Não sei os valores dos índices das colunas de que preciso.

    Se houver apenas algumas colunas no seu conjunto de dados, pode usar a opção Visualize para ver as primeiras 100 linhas e, em seguida, descobrir qual coluna é o índice 1, 2 e assim por diante.

    • Os índices em Azure Machine Learning começam em 1, por isso a primeira coluna é sempre 1.

    • Para obter o índice da última coluna, veja as duas listas de colunas no Seletor de Colunas: COLUNAS DISPONÍVEIS e COLUNAS SELECIONADAS. A barra cinzenta por baixo da lista de colunas mostra a contagem de colunas em cada lista. Assim, se 24 colunas estão disponíveis e duas colunas são selecionadas, há um total de 26 colunas, e o índice da coluna final é 26.

    Outra opção para extrair o esquema do seu conjunto de dados é utilizar o módulo executo R Script para obter os nomes das colunas com números de índice.

    1. Ligue o conjunto de dados ao módulo executar o script R.

    2. No módulo, digite um script como o seguinte para des output os nomes das colunas. A linha que começa myindex com gera uma sequência que representa os índices em ordem.

      dataset1 <- maml.mapInputPort(1) # class: data.frame
      mycolnames <-names(dataset1);
      myindex <- seq(from = 1, to = length(mycolnames), by=1);
      outdata <- as.data.frame(cbind(myindex, mycolnames));
      maml.mapOutputPort("outdata"); 
      

    Resultados do conjunto de dados de preços do automóvel

    myindex mycolnames
    1 symboling
    2 perdas normalizadas
    3 modelo

Notas técnicas

Se estiver familiarizado com bases de dados relacionais, este módulo cria uma projeção dos dados; daí o nome original, Project Columns. Em termos de base de dados, uma projeção é uma função, como uma declaração Transact-SQL ou LINQ, que toma um dado em formato tabular como entrada e produz uma saída relacionada.

Em álgebra relacional, uma projeção é uma operação unary, que é escrita como um conjunto de nomes de atributos. O resultado de uma projeção é o conjunto desses atributos, com outros atributos descartados.

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados Conjunto de dados de entrada

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Descrição
Selecionar colunas qualquer Seleção de Colunas Selecione colunas para manter no conjunto de dados projetado.

Saídas

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados de saída

Exceções

Exceção Descrição
Erro 0001 Uma exceção ocorre se uma ou mais colunas especificadas do conjunto de dados não puderem ser encontradas.
Erro 0003 Uma exceção ocorre se um ou mais conjuntos de dados de entrada forem nulos ou vazios.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte códigos de erro de aprendizagem automática.

Para obter uma lista de exceções da API, consulte códigos de erro da API de aprendizagem automática.

Ver também

Manipulação