Resumir Dados

Gera um relatório básico de estatísticas descritivas para as colunas num conjunto de dados

Categoria: Funções Estatísticas

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como usar o módulo de dados sumário no Azure Machine Learning Studio (clássico), para criar um conjunto de medidas estatísticas padrão que descrevem cada coluna na tabela de entrada.

Tais estatísticas sumárias são úteis quando se pretende compreender as características do conjunto completo de dados. Por exemplo, talvez precise de saber:

  • Quantos valores em falta existem em cada coluna?
  • Quantos valores únicos existem numa coluna de recursos?
  • Qual é o desvio médio e padrão para cada coluna?

O módulo calcula as pontuações importantes para cada coluna e devolve uma linha de estatísticas sumárias para cada variável (coluna de dados) fornecida como entrada.

Dica

Já pode saber que pode obter uma pequena lista de estatísticas utilizando a opção Visualize em Studio (clássico). No entanto, esta visualização é criada com base em alguns números superiores de linhas. Em contraste, o módulo Summarize Data calcula as suas estatísticas em todas as linhas de dados.

Como utilizar o Resumo dados

  1. Adicione o módulo de Dados Sumário à sua experiência. Pode encontrar este módulo na categoria Funções Estatísticas em Estúdio (clássico).

  2. Ligue o conjunto de dados para o qual pretende gerar um relatório.

    Se pretender reportar apenas algumas colunas, utilize o módulo Colunas Select no conjunto de dados para projetar um subconjunto de colunas para trabalhar.

  3. Não são necessários parâmetros adicionais. Por predefinição, o módulo analisa todas as colunas que são fornecidas como entrada, e dependendo do tipo de valores nas colunas, produz um conjunto relevante de estatísticas conforme descrito na secção Resultados.

  4. Executar a experiência, ou clicar à direita no módulo, e selecione Executar selecionado.

Resultados

O relatório do módulo pode incluir as seguintes estatísticas.

  • As estatísticas exatas que são geradas dependem do tipo de dados da coluna. Consulte a secção de notas técnicas para mais detalhes.

  • Supõe-se que os casos pertencem a uma amostra representativa de uma população. Se precisar de calcular estatísticas sobre uma população, utilize as opções no módulo de Estatísticas Elementares computacional, que pode calcular as estatísticas da amostra ou da população.

Nome da coluna Descrição
Funcionalidade Nome da coluna
Contagem Contagem de todas as linhas
Contagem de valor única Número de valores únicos na coluna
Contagem de valor em falta Número de valores únicos na coluna
Rio Min Valor mais baixo na coluna
Max Valor mais alto na coluna
Média Média de todos os valores da coluna
Desvio médio Desvio médio dos valores das colunas
1º Quartil Valor no primeiro quartil
Mediana Valor mediano da coluna
3º Quartil Valor no terceiro quartil
Modo Modo de valores de coluna
Intervalo Inteiro representando o número de valores entre os valores máximo e mínimo
Variação da amostra Variação para coluna; ver Nota
Desvio padrão da amostra Desvio padrão para colunas; ver Nota
Distorção da amostra Skewness para a coluna; ver Nota
Amostra de Kurtose Kurtose para coluna; ver Nota
P0.5 Percentil de 0,5%
P1 1% percentil
P5 Percentil de 5%
P95 Percentil de 95%
P99.5 Percentil de 99,5%

Dica

A produção do relatório estatístico como um conjunto de dados tabular, para que possa utilizar os dados em ferramentas de reporte de BI, ou utilizar os valores como entrada para outra operação na experiência.

Exemplos

Por exemplo, como utilizar o módulo De Dados Sumize numa experiência, consulte a Galeria Azure AI:

Notas técnicas

  • Para colunas numéricas e booleanas, pode desausar o desvio médio, mediano, e padrão.

  • Para colunas não numéricas, apenas são calculados os valores para Count, Contagem de valor únicoe contagem de valor em falta. Para outras estatísticas, é devolvido um valor nulo.

  • As colunas que contêm valores Boolean são processadas utilizando estas regras:

    • Ao calcular Min, é aplicado um E lógico.

    • Ao calcular Max, um OR lógico é aplicado

    • Ao calcular Range, o módulo verifica primeiro se o número de valores únicos na coluna é igual a 2.

    • Ao calcular qualquer estatística que exija cálculos de pontos flutuantes, os valores de True são tratados como 1.0, e os valores de False são tratados como 0.0.

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados Conjunto de dados de entrada

Saída

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Um perfil do conjunto de dados de entrada que contém estatísticas descritivas

Exceções

Exceção Descrição
Erro 0003 A exceção ocorre se uma ou mais entradas forem nulas ou vazias.
Erro 0020 A exceção ocorre se o número de colunas em alguns dos conjuntos de dados passados para o módulo for demasiado pequeno.
Erro 0021 A exceção ocorre se o número de linhas em alguns dos conjuntos de dados passados para o módulo for demasiado pequeno.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte códigos de erro de aprendizagem automática.

Para obter uma lista de exceções da API, consulte códigos de erro da API de aprendizagem automática.

Ver também

Funções Estatísticas
Estatísticas Elementares do Cálculo