Projetar Colunas no Conjunto de Dados

Seleciona colunas a serem incluídas ou excluídas de um conjunto de dados em uma operação

Categoria: transformação/manipulação de dados

Observação

Aplica-se a: Machine Learning Studio (clássico)

Esse conteúdo pertence apenas ao estúdio (clássico). Módulos de arrastar e soltar semelhantes foram adicionados ao designer de Azure Machine Learning. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo selecionar colunas no conjunto de conjuntos de Azure Machine Learning Studio (clássico) para escolher um subconjunto de colunas a ser usado em operações de downstream. O módulo não remove fisicamente as colunas do conjunto de fonte de origem; em vez disso, ele cria um subconjunto de colunas, assim como uma exibição ou projeção de banco de dados.

Esse módulo é particularmente útil quando você precisa limitar as colunas disponíveis para uma operação downstream, ou se quiser reduzir o tamanho do conjunto de um removendo colunas desnecessárias.

As colunas no DataSet são geradas na mesma ordem que nos dados originais, mesmo se você especificá-las em uma ordem diferente.

Como usar selecionar colunas no conjunto de linhas

Este módulo não tem parâmetros. Use o seletor de coluna para escolher as colunas a serem incluídas ou excluídas.

Escolher colunas por nome

Há várias opções no módulo para escolher colunas por nome:

  • Filtrar e Pesquisar

    Clique na opção por nome .

    Se você tiver conectado um conjunto de um que já está populado, uma lista de colunas disponíveis deverá aparecer. Se nenhuma coluna aparecer, talvez seja necessário executar módulos upstream para exibir a lista de colunas.

    Para filtrar a lista, digite na caixa de pesquisa. Por exemplo, se você digitar a letra w na caixa de pesquisa, a lista será filtrada para mostrar os nomes de coluna que contêm a letra w .

    Selecione colunas e clique no botão de seta para a direita para mover as colunas selecionadas para a lista no painel à direita.

    • Para selecionar um intervalo contínuo de nomes de coluna, pressione Shift + clique.
    • Para adicionar colunas individuais à seleção, pressione Ctrl + clique.

    Clique no botão de marca de seleção para salvar e fechar.

  • Usar nomes em combinação com outras regras

    Clique na opção com regras .

    Escolha uma regra, como mostrar colunas de um tipo de dados específico.

    Em seguida, clique em colunas individuais desse tipo por nome para adicioná-las à lista de seleção.

  • Digite ou cole uma lista separada por vírgulas de nomes de coluna

    Se o conjunto de seus conjuntos de um for muito grande, pode ser mais fácil usar índices ou listas geradas de nomes, em vez de selecionar colunas individualmente. Supondo que você preparou a lista com antecedência:

    1. Clique na opção com regras .
    2. Selecione nenhuma coluna, selecione incluir e, em seguida, clique dentro da caixa de texto com o ponto de exclamação vermelho.
    3. Cole ou digite uma lista separada por vírgulas de nomes de coluna validados anteriormente. Você não poderá salvar o módulo se alguma coluna tiver um nome inválido, portanto, certifique-se de verificar os nomes com antecedência.

    Você também pode usar esse método para especificar uma lista de colunas usando seus valores de índice. Consulte a seção exemplos para obter dicas sobre como trabalhar com índices de coluna.

Escolher por tipo

Se você usar a opção with Rules , poderá aplicar várias condições nas seleções de coluna. Por exemplo, talvez seja necessário obter apenas colunas de recursos de um tipo de dados numérico.

A opção begin with determina seu ponto de partida e é muito importante para entender os resultados.

  • Se você selecionar a opção todas as colunas , todas as colunas serão adicionadas à lista. Em seguida, você deve usar a opção excluir para remover colunas que atendam a determinadas condições.

    Por exemplo, você pode iniciar com todas as colunas e, em seguida, remover colunas por nome ou por tipo.

  • Se você selecionar a opção sem colunas , a lista de colunas começará vazia. Em seguida, especifique as condições para Adicionar colunas à lista.

    Se você aplicar várias regras, cada condição será aditiva. Por exemplo, digamos que você inicie sem colunas e, em seguida, adicione uma regra para obter todas as colunas numéricas. No conjunto de linhas de preço do automóvel, isso resulta em 16 colunas. Em seguida, clique no + sinal para adicionar uma nova condição e selecione incluir todos os recursos. O conjunto de resultados resultante inclui todas as colunas numéricas, além de todas as colunas de recurso, incluindo algumas colunas de recursos de cadeia de caracteres.

Escolher por índice de coluna

O índice de coluna refere-se à ordem da coluna dentro do DataSet original.

  • As colunas são numeradas sequencialmente a partir de 1.
  • Para obter um intervalo de colunas, use um hífen.
  • Especificações abertas, como 1- ou -3 não são permitidas.
  • Valores de índice duplicados (ou nomes de coluna) não são permitidos e podem resultar em um erro.

Por exemplo, supondo que o conjunto de seus conjuntos de seus tem pelo menos oito colunas, você pode colar qualquer um dos seguintes exemplos para retornar várias colunas não contíguas:

  • 8,1-4,6
  • 1,3-8
  • 1,3-6,4

o exemplo final não resulta em um erro; no entanto, ele retorna uma única instância da coluna 4 .

Para obter dicas adicionais sobre como trabalhar com índices de coluna, consulte a seção exemplos .

Alterar a ordem das colunas

A opção permitir duplicatas e preservar a ordem das colunas na seleção começa com uma lista vazia e adiciona colunas que você especifica por nome ou por índice. Ao contrário de outras opções, que sempre retornam colunas em sua "ordem natural", essa opção gera as colunas na ordem em que você as nomeou ou lista.

Por exemplo, em um conjunto de linhas com as colunas Col1, Col2, Col3 e COL4, você pode inverter a ordem das colunas e deixar a coluna 2, especificando uma das seguintes listas:

  • Col4, Col3, Col1
  • 4,3,1

Exemplos

Para obter exemplos de como usar colunas SELECT no conjuntode testes, consulte estes experimentos de exemplo na Galeria de modelos:

Cenários comuns para seleção de coluna

Os exemplos a seguir descrevem algumas maneiras típicas de os usuários aplicarem colunas SELECT no conjunto de informações no Machine Learning e fornece algumas dicas sobre como selecionar as colunas:

  • Quero remover colunas de texto do conjunto de valores para que eu possa aplicar uma operação matemática a todas as colunas numéricas.

    Muitas operações exigem que apenas colunas numéricas estejam presentes no conjunto de linhas. Você pode remover temporariamente as colunas que causaram um erro, excluindo texto e excluindo colunas categóricas (números que representam categorias discretas).

    1. Clique em Iniciar seletor de coluna.

    2. Para começar com, selecione todas as colunas.

    3. Selecione a opção excluir , selecione tipo de coluna e, em seguida, selecione cadeia de caracteres.

    4. Clique no sinal de mais (+) para adicionar uma nova condição.

    5. Selecione a opção excluir , selecione tipo de coluna e, em seguida, selecione categórico.

  • Preciso aplicar a seleção de recursos somente às colunas de recursos categóricos.

    Se você precisar separar colunas de um tipo semelhante, poderá aplicar várias condições. Por exemplo, os recursos podem ser categóricos ou numéricos, mas alguns módulos de seleção de recursos não permitem campos não numéricos, portanto, primeiro você precisa obter recursos e, em seguida, adicionar uma condição para obter apenas os recursos numéricos.

    1. Clique em Iniciar seletor de coluna.

    2. Para começar com, selecione nenhuma coluna.

    3. Selecione a opção incluir e selecione todos os recursos.

    4. Clique no sinal de mais (+) para adicionar uma nova condição.

    5. Selecione a opção incluir , selecione tipo de coluna e, em seguida, selecione categórico.

  • Preciso aplicar uma operação de normalização diferente a diferentes colunas numéricas.

    Antes de aplicar operações matemáticas, talvez seja necessário separar os inteiros dos números de ponto flutuante e assim por diante. Para fazer isso, use os tipos de dados e aplique várias condições.

    1. Clique em Iniciar seletor de coluna.

    2. Para começar com, selecione nenhuma coluna.

    3. Selecione a opção incluir , selecione tipo de coluna e, em seguida, selecione numérica.

    4. Clique no sinal de mais (+) para adicionar uma nova condição.

    5. Selecione a opção incluir , selecione tipo de coluna e, em seguida, selecione o tipo numérico que é incompatível com a operação de downstream.

  • Há muitas colunas para escolher usando o seletor.

    Geralmente, depois de importar um conjunto de um DataSet, você descobre que ele tem muitas colunas que não são necessárias para modelagem. No entanto, você deseja preservá-los para saída mais tarde ou para identificar casos. Você pode fazer isso dividindo o conjunto de um em duas partes (metadados e colunas usadas para modelagem) e, posteriormente, recombinar colunas conforme necessário, usando adicionar colunas.

    1. Clique em Iniciar seletor de coluna.

    2. Para começar com, selecione nenhuma coluna.

    3. Selecione a opção incluir , selecione tipo de coluna e, em seguida, selecione recurso.

    4. Clique no sinal de mais (+) para adicionar uma nova condição.

    5. Selecione a opção incluir , selecione tipo de coluna e, em seguida, selecione rótulo.

    6. Repita essas etapas, mas inicie com todas as colunas e, em seguida, exclua as colunas de recurso e rótulo para criar um conjunto de apenas os metadados.

  • Não sei os valores de índice das colunas de que preciso.

    Se houver apenas algumas colunas em seu conjunto de registros, você poderá usar a opção Visualizar para ver as primeiras 100 linhas e, em seguida, descobrir qual coluna é o índice 1, 2 e assim por diante.

    • Os índices no Azure Machine Learning começam em 1, portanto, a primeira coluna é sempre 1.

    • Para obter o índice da última coluna, examine as duas listas de colunas no seletor de coluna: colunas disponíveis e colunas selecionadas. A barra cinza abaixo da lista de colunas exibe a contagem de colunas em cada lista. Assim, se 24 colunas estiverem disponíveis e duas colunas forem selecionadas, haverá um total de 26 colunas e o índice da coluna final será 26.

    Outra opção para extrair o esquema de seu conjunto de seus conjuntos de módulos é usar o módulo Executar script R para obter os nomes de coluna com números de índice.

    1. Conecte seu conjunto de módulos ao módulo Executar script R .

    2. No módulo, digite um script como o seguinte para gerar os nomes de coluna. A linha que começa com myindex gera uma sequência que representa os índices na ordem.

      dataset1 <- maml.mapInputPort(1) # class: data.frame
      mycolnames <-names(dataset1);
      myindex <- seq(from = 1, to = length(mycolnames), by=1);
      outdata <- as.data.frame(cbind(myindex, mycolnames));
      maml.mapOutputPort("outdata"); 
      

    Resultados no conjunto de conjuntos de preços de automóvel

    MyIndex mycolnames
    1 simbologia
    2 normalizadas-perdas
    3 Make

Observações técnicas

Se você estiver familiarizado com bancos de dados relacionais, esse módulo criará uma projeção dos mesmos. Portanto, o nome original, as colunas do projeto. Em termos de banco de dados, uma projeção é uma função, como uma instrução Transact-SQL ou LINQ, que usa dados em formato tabular como entrada e produz uma saída relacionada.

Em Algebra relacional, uma projeção é uma operação unário, que é gravada como um conjunto de nomes de atributo. O resultado de uma projeção é o conjunto desses atributos, com outros atributos descartados.

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados Conjunto de dados de entrada

Parâmetros do módulo

Name Intervalo Type Padrão Descrição
Selecionar colunas any ColumnSelection Seleciona as colunas para manter no conjunto de dados projetado.

Saídas

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados de saída

Exceções

Exceção Descrição
Erro 0001 Ocorre uma exceção se uma ou mais colunas especificadas do conjunto de dados não podem ser encontradas.
Erro 0003 Ocorrerá uma exceção se um ou mais conjuntos de dados de entrada for nulo ou estiver vazio.

Para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

Para obter uma lista de exceções de API, consulte Machine Learning códigos de erro da API REST.

Consulte também

Manipulação