Estatísticas Elementares do Cálculo

Calcula estatísticas sumárias especificadas para colunas de conjuntos de dados selecionadas

Categoria: Funções Estatísticas

Nota

Aplica-se a: Machine Learning Studio (clássico)

Este conteúdo diz respeito apenas ao Studio (clássico). Módulos semelhantes de arrasto e queda foram adicionados ao designer de Aprendizagem automática Azure. Saiba mais neste artigo comparando as duas versões.

Visão geral do módulo

Este artigo descreve como utilizar o módulo de Estatísticas Elementares computacional no Azure Machine Learning Studio (clássico), para gerar um relatório sumário para o seu conjunto de dados que lista estatísticas-chave como o desvio médio, padrão e a gama de valores para cada uma das colunas selecionadas.

Este relatório é útil para analisar a tendência central, a dispersão e a forma dos dados.

Como configurar estatísticas elementares do computacional

  1. Adicione o módulo de Estatísticas Elementares computacional à sua experiência. Pode encontrar este módulo na categoria Funções Estatísticas no Azure Machine Learning Studio (clássico).

  2. Conecte um conjunto de dados que contenha as colunas que pretende analisar.

  3. Clique na lista de dropdown do método e escolha o tipo de valor que pretende calcular para cada coluna.

    Consulte a secção de Estatísticas Apoiadas para obter uma lista completa das estatísticas disponíveis e o que significam.

  4. Por predefinição, o valor selecionado na lista de retirada do Método será calculado para todas as colunas do conjunto de dados que tenham um tipo de dados numérico. Se alguma coluna tiver valores que impeçam o valor de ser calculado, será levantado um erro e o relatório não será criado.

    Para evitar este erro, utilize o seletor de colunas para escolher as colunas numéricas para as quais pretende um relatório. Todas as colunas que escolher devem ser numéricas.

  5. Execute a experimentação.

Resultados

O relatório gerado inclui o nome de cada coluna e a estatística que foi calculada. Por exemplo, o quadro seguinte mostra estatísticas geradas para a coluna MPG.

DesvioSquared(mpg) Max(mpg) Min(mpg)
9674.312 25.21951 13

Dica

Cada vez que executar Estatísticas Elementares do Cálculo,pode gerar apenas uma estatística resumida para cada uma das colunas selecionadas. No entanto, pode utilizar os módulos Add Columns ou Add Rows para fundir os resultados numa única tabela, como no exemplo anterior.

Estatísticas apoiadas

Este módulo suporta as seguintes estatísticas descritivas padrão.

Desvio ao quadrado

Calcula o desvio ao quadrado dos valores da coluna. Também conhecida como a soma dos quadrados.

O desvio ao quadrado é uma medida da distância que os valores estão dispersos da média.

Média geométrica

Calcula a média geométrica dos valores da coluna.

A média geométrica pode ser usada para medir a tendência central de um conjunto de números. Em comparação com a média aritmética, é menos afetada por um pequeno número de valores extremos. Também pode ser usado para comparar medições em escalas diferentes, uma vez que normaliza eficazmente as escalas dos números que estão a ser comparados. Os meios geométricos são por vezes usados para estimar taxas de crescimento anuais compostas.

A função equivalente no Excel é GEOMEAN.

Média harmónica

Calcula a média harmónica dos valores da coluna.

Para calcular a média harmónica, todos os valores são convertidos para os seus recíprocos, e então a média é tomada desses valores. A média harmónica é a recíproca dessa média. Se os valores da coluna forem positivos, os números maiores são ponderados menos do que números menores.

A média harmónica é sempre inferior à média geométrica, que é sempre inferior à média aritmética. A média harmónica é útil para uma média de variáveis que representam taxas, tais como velocidade (distância ao longo do tempo) ou vendas por trimestre.

A função equivalente no Excel é HARMEAN.

Distância interquartile

Calcula a diferença interquátil para o primeiro e último quartil dos valores da coluna. Também chamado de intervalo de quartil. Quando o quartil cai entre dois números, o valor do quartil é a média dos dois valores em ambos os lados do corte.

O valor do quartil divide a coluna de valores em quatro grupos com um número igual de valores. Assim, um quarto dos valores são inferiores ou iguais ao percentil 25. Três quartos dos valores são inferiores ou iguais ao percentil 75. Ao rever a gama de quartil, pode ter uma ideia de quão amplamente difundem os valores de dados.

K-th momento central

Calcula o momento central K-th para os valores da coluna.

Ao calcular o momento central do K-th, também deve especificar a Ordem, ou seja, o valor de k. O valor de k pode variar de 0 a qualquer valor inteiro permitido, embora valores de ordem mais elevados geralmente não sejam significativos.

Geralmente, em estatísticas descritivas, um momento é uma medida que descreve a forma de um conjunto de pontos. Momentos centrais são momentos sobre a média, que são normalmente usadas porque fornecem melhor informação sobre a forma da distribuição. Uma ordem de 2 geralmente representa a variação; uma ordem de 4 é usada para a kurtose. O primeiro momento de ordem é o mau. Assim, a coleção de todos os momentos descreve de forma única a distribuição de valores na coluna.

Max

Encontra o valor máximo na coluna.

Média

Calcula a média aritmética dos valores da coluna.

A função equivalente no Excel é MÉDIA.

Desvio médio

Calcula o desvio absoluto médio para os valores da coluna.

Ou seja, a média é calculada para a coluna, e o desvio calculado para cada valor na coluna. A média dos valores absolutos dos valores de desvio individual é o desvio médio.

Esta estatística diz-te como está espalhada da média que a tua coluna de números está.

Mediana

Devolve a mediana dos valores da coluna.

A mediana é o número no meio de uma coluna de números. Se houver um número par de números na coluna, a mediana é a média dos dois números no meio.

A mediana, juntamente com a média e o modo, é uma das três estatísticas que mede a tendência central. Se os valores forem simétricos em torno da média, os três números serão quase os mesmos. No entanto, a mediana é mais robusta para os forasteiros do que a média.

Desvio mediano

Calcula o desvio mediano para a coluna.

Ou seja, a mediana é calculada para a coluna, e o desvio calculado para cada valor na coluna. O valor mediano dos valores absolutos dos valores de desvio individual é tomado.

O desvio absoluto mediano também é conhecido como MAD, e é usado para descrever a variabilidade de uma amostra de números. Mad diz-lhe como se espalhou da média a sua coluna de números.

Mín

Devolve o valor mínimo dos valores da coluna.

Modo

Encontra todos os modos para a coluna.

O modo é o valor que aparece mais na coluna. Se vários valores aparecerem no mesmo número de vezes, a coluna pode ter vários modos.

Como medida de tendência central, o modo é mais robusto para os outliers do que a média, e pode ser usado com dados nominais também.

Desvio padrão da população

Calcula o desvio padrão da população para os valores da coluna.

Esta estatística pressupõe que os valores da coluna representam toda a população. Se os seus dados forem apenas uma amostra da população, deve calcular o desvio padrão utilizando o desvio padrão da amostra. No entanto, em grandes conjuntos de dados, as duas estatísticas retornam valores aproximadamente iguais.

O desvio padrão é calculado como a raiz quadrada da variação da coluna. Esta estatística capta a quantidade de variabilidade na coluna.

Variação populacional

Calcula a variação populacional para os valores da coluna.

A variação mede o número que um conjunto de números é distribuído. Se a variação é zero, todos os números são os mesmos.

Esta estatística pressupõe que a coluna de valores representa toda a população. Se os seus dados contiver apenas uma amostra dos valores, deverá calcular a variação utilizando a variação da amostra.

A função Excel equivalente é VAR.P .

Produto

Calcula o produto dos elementos da coluna.

Para obter o produto, você tem vários todos os números na coluna. O resultado não é, por si só, útil como estatística descritiva, mas a função é útil para uma variedade de outros cálculos.

Intervalo

Calcula o alcance dos valores da coluna. A gama é definida como o valor máximo menos o valor mínimo

A kurtose da amostra

Calcula a kurtose da amostra para os valores da coluna.

A kurtose descreve a forma da distribuição de valores... isto é, o quão alta ou plana é a distribuição dos valores, em comparação com a distribuição normal.

  • A distribuição normal tem uma kurtose de 0.

  • Os elevados valores de kurtose indicam que a massa de probabilidade está concentrada em torno de um pico, ou na cauda da distribuição.

  • Os valores negativos da kurtose indicam uma distribuição relativamente plana.

Distorção da amostra

Calcula a distorção da amostra para os valores da coluna.

Skew descreve se a maior parte dos valores estão no centro, deslocados para a esquerda, ou deslocados para a direita. Duas distribuições podem ter o mesmo desvio médio e padrão, mas ser moldada de forma muito diferente. Você pode usar a vermelhidão e a kurtose para caracterizar a forma.

  • Valores negativos significam que a distribuição é desviada para a esquerda.

  • 0 denota a distribuição normal.

  • Valores positivos significam que a distribuição é desviada para a direita.

Desvio padrão da amostra

Calcula o desvio padrão da amostra para os valores da coluna.

O desvio padrão da amostra mede a propagação dos valores na coluna da média. Representa a distância média entre os valores dos dados do conjunto e a média.

Esta estatística pressupõe que os valores da coluna representam uma amostra da população. Se os seus dados representarem toda a população, deve calcular o desvio padrão usando o desvio padrão da População.

A função Excel equivalente é ST. DEV.S.

Variação da amostra

Calcula a variação da amostra para os valores da coluna.

Este método pressupõe que os valores da coluna representam uma amostra da população. Se a coluna contiver toda a população, deve utilizar a variação padrão da População.

A função Excel equivalente é VAR.S.

Soma

Calcula a soma dos valores da coluna.

Exemplos

As seguintes experiências na Galeria Azure AI demonstram como pode criar um relatório sumário que contenha estatísticas descritivas para todo um conjunto de dados. O relatório resumida contém apenas estatísticas gerais; no entanto, pode guardá-lo como um conjunto de dados e, em seguida, adicionar estatísticas mais detalhadas, utilizando as opções em Estatísticas Elementares computacional.

Notas técnicas

Esta secção contém detalhes de implementação, dicas e respostas a perguntas frequentes.

Dica

As seguintes condições devem ser satisfeitas ao utilizar o módulo de Estatísticas Elementares do Cálculo:

  • Deve haver um número suficiente de pontos de dados (linhas) para calcular a estatística selecionada. Por exemplo, calcular o desvio padrão da amostra requer pelo menos dois pontos de dados; caso contrário, o resultado é NaN.
  • As colunas de entrada devem ser numéricas ou booleanas.

Por predefinição, todas as colunas numéricas são selecionadas. No entanto, se alguma coluna numérica for marcada como categórica, poderá obter o seguinte erro: " Erro 0056: Coluna com nome <column name> não está numa categoria permitida." Para corrigir o erro, adicione uma instância do módulo de metadados editar, selecione a coluna com o problema e use a opção Remover categórico.

Detalhes de implementação

As colunas booleanas são processadas da seguinte forma:

  • MIN é calculado como lógico e.

  • MAX é calculado como lógico OR.

  • RANGE verifica se o número de valores únicos na coluna é igual a 2.

  • Os valores em falta são ignorados.

  • Para estatísticas que requerem cálculos de pontos flutuantes, True = 1.0 e False = 0.0

Entradas esperadas

Nome Tipo Descrição
Conjunto de dados Tabela de Dados Conjunto de dados de entrada

Parâmetros do módulo

Nome Intervalo Tipo Predefinição Descrição
Método Lista Método das estatísticas elementares Seleciona um método estatístico para usar em cálculos. Veja como utilizar a secção para obter a lista de valores.
Conjunto de colunas qualquer Seleção de Colunas NumericAll Seleciona as colunas para as quais calcular a estatística
Encomenda >=1 Número inteiro 3 Especifica um valor para a ordem de momento central (usado apenas para o kth momento central)

Saída

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Conjunto de dados de saída

Exceções

Exceção Descrição
Erro 0017 A exceção ocorre se uma ou mais colunas especificadas tiverem um tipo que não é suportado pelo módulo atual.

Para obter uma lista de erros específicos dos módulos Studio (clássicos), consulte códigos de erro de aprendizagem automática.

Para obter uma lista de exceções da API, consulte códigos de erro da API de aprendizagem automática.

Ver também

Funções Estatísticas
elementar
Resumir dados
Lista de Módulos A-Z