Resumir dados

Gera um relatório de estatísticas descritivas básicas para as colunas em um conjunto de dados

Categoria: funções estatísticas

Observação

Aplica-se a: Machine Learning Studio (clássico)

Esse conteúdo pertence apenas ao estúdio (clássico). Módulos de arrastar e soltar semelhantes foram adicionados ao designer de Azure Machine Learning. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo resumir dados no Azure Machine Learning Studio (clássico) para criar um conjunto de medidas estatísticas padrão que descrevem cada coluna na tabela de entrada.

Essas estatísticas de resumo são úteis quando você deseja entender as características do conjunto de todos. Por exemplo, talvez seja necessário saber:

  • Quantos valores ausentes existem em cada coluna?
  • Quantos valores exclusivos existem em uma coluna de recurso?
  • Qual é a média e o desvio padrão de cada coluna?

O módulo calcula as pontuações importantes para cada coluna e retorna uma linha de estatísticas de resumo para cada variável (coluna de dados) fornecida como entrada.

Dica

Talvez você já saiba que pode obter uma lista curta de estatísticas usando a opção Visualizar no Studio (clássico). No entanto, essa visualização é criada com base em um número superior de linhas. Por outro lado, o módulo resumir dados computa suas estatísticas em todas as linhas de dados.

Como usar resumir dados

  1. Adicione o módulo resumir dados ao seu experimento. Você pode encontrar esse módulo na categoria funções estatísticas no Studio (clássico).

  2. Conecte o conjunto de um para o qual você deseja gerar um relatório.

    Se você quiser relatar apenas algumas colunas, use o módulo selecionar colunas no conjunto de DataSet para projetar um subconjunto de colunas com o qual trabalhar.

  3. Nenhum parâmetro adicional é necessário. Por padrão, o módulo analisa todas as colunas fornecidas como entrada e, dependendo do tipo de valores nas colunas, gera um conjunto de estatísticas relevante, conforme descrito na seção resultados .

  4. Execute o experimento, ou clique com o botão direito do mouse no módulo e selecione executar selecionado.

Resultados

O relatório do módulo pode incluir as estatísticas a seguir.

  • As estatísticas exatas que são geradas dependem do tipo de dados da coluna. Consulte a seção observações técnicas para obter detalhes.

  • Pressupõe-se que as instâncias pertençam a uma amostra representativa de uma população. Se você precisar computar estatísticas em uma população, use as opções no módulo de estatísticas elementares de computação , que pode computar estatísticas de amostra ou população.

Nome da coluna Descrição
Recurso Nome da coluna
Count Contagem de todas as linhas
Contagem de valor exclusivo Número de valores exclusivos na coluna
Contagem de valor ausente Número de valores exclusivos na coluna
Min Valor mais baixo na coluna
Max Valor mais alto na coluna
Mean Média de todos os valores de coluna
Desvio médio Desvio médio de valores de coluna
Primeiro quartil Valor no primeiro quartil
Mediana Valor da coluna mediana
Terceiro quartil Valor no terceiro quartil
Modo Modo de valores de coluna
Intervalo Inteiro que representa o número de valores entre os valores máximo e mínimo
Variação de amostra Variação para a coluna; consulte a observação
Desvio padrão de exemplo Desvio padrão para a coluna; consulte a observação
Distorção de exemplo Distorção para a coluna; consulte a observação
Curtose de amostra Curtose da coluna; consulte a observação
P 0,5 Percentual de 0,5%
P1 1% percentil
P5 5% percentil
P95 95% percentil
P 99,5 99,5% percentil

Dica

Saída do relatório de estatísticas como um conjunto de dados tabular, para que você possa usar os data nas ferramentas de relatório de BI ou usar os valores como entrada para outra operação no experimento.

Exemplos

Para obter exemplos de como usar o módulo resumir dados em um experimento, consulte o Galeria de ia do Azure:

Notas técnicas

  • Para colunas numéricas e booleanas, você pode produzir a média, mediana, modo e desvio padrão.

  • Para colunas não numéricas, apenas os valores para Contagem, Contagem de valor exclusivo e Contagem de valor ausente são calculados. As outras estatísticas retornarão um valor nulo.

  • As colunas que contêm valores Boolianos são processadas usando estas regras:

    • Ao calcular Mín, um AND lógico é aplicado.

    • Ao calcular Max, um OR lógico é aplicado

    • Ao calcular Intervalo, o módulo primeiro verifica se o número de valores exclusivos na coluna é igual a 2.

    • Ao calcular qualquer estatística que requeira cálculos de ponto flutuante, os valores True são tratados como 1,0 e os valores False são tratados como 0,0.

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados Conjunto de dados de entrada

Saída

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Um perfil do conjunto de dados de entrada que contém estatísticas descritivas

Exceções

Exceção Descrição
Erro 0003 Ocorrerá uma exceção se uma ou mais entradas forem nulas ou estiverem vazias.
Erro 0020 Ocorre uma exceção se o número de colunas em alguns dos conjuntos de dados transmitidos para o módulo for muito pequeno.
Erro 0021 Ocorre uma exceção se o número de linhas em alguns dos conjuntos de dados passados para o módulo for muito pequeno.

Para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

Para obter uma lista de exceções de API, consulte Machine Learning códigos de erro da API REST.

Consulte também

Funções estatísticas
Computar estatísticas elementares