Resumir dados

Importante

O suporte para o Machine Learning Studio (clássico) terminará em 31 de agosto de 2024. É recomendável fazer a transição para o Azure Machine Learning até essa data.

A partir de 1º de dezembro de 2021, você não poderá criar recursos do Machine Learning Studio (clássico). Até 31 de agosto de 2024, você pode continuar usando os recursos existentes do Machine Learning Studio (clássico).

A documentação do ML Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.

Gera um relatório de estatísticas descritivas básicas para as colunas em um conjunto de dados

Categoria: Funções Estatísticas

Observação

Aplica-se a: Machine Learning Studio (clássico) somente

Módulos semelhantes do tipo "arrastar e soltar" estão disponíveis no designer do Azure Machine Learning.

Visão geral do módulo

Este artigo descreve como usar o módulo Resumir Dados no Machine Learning Studio (clássico) para criar um conjunto de medidas estatísticas padrão que descrevem cada coluna na tabela de entrada.

Essas estatísticas resumidas são úteis quando você deseja entender as características do conjuntos de dados completo. Por exemplo, talvez seja necessário saber:

  • Quantos valores ausentes existem em cada coluna?
  • Quantos valores exclusivos existem na coluna de recursos?
  • Qual é a média e o desvio padrão de cada coluna?

O módulo calcula as pontuações importantes de cada coluna e retorna uma linha de estatísticas de resumo para cada variável (coluna de dados) fornecida como entrada.

Dica

Talvez você já saiba que pode obter uma breve lista de estatísticas usando a opção Visualizar no Studio (clássico). No entanto, essa visualização é criada com base em um número superior de linhas. Por outro lado, o módulo Resumir Dados calcula suas estatísticas em todas as linhas de dados.

Como usar Resumir Dados

  1. Adicione o módulo Resumir Dados ao seu experimento. Você pode encontrar este módulo na categoria Funções Estatísticas no Studio (clássico).

  2. Conecte o conjunto de dados para gerar o relatório.

    Se você quiser fazer o relatório de apenas algumas colunas, use o módulo Selecionar colunas no conjunto de dados para projetar um subconjunto de colunas para trabalhar.

  3. Nenhum parâmetro adicional é necessário. Por padrão, o módulo analisa todas as colunas fornecidas como entrada e, dependendo do tipo de valores nas colunas, gera um conjunto de estatísticas relevante, como descrito na seção Resultados.

  4. Execute o experimento ou clique com o botão direito do mouse no módulo e selecione Executar selecionado.

Resultados

O relatório do módulo pode incluir as estatísticas a seguir.

  • As estatísticas exatas geradas dependem do tipo de dados da coluna. Consulte a seção Notas técnicas para obter detalhes.

  • É feita a suposição de que as instâncias pertencem a uma amostra representativa de uma população. Se você precisar calcular estatísticas em uma população, use as opções no módulo Estatísticas Elementares de Computação, que pode computar estatísticas de amostra ou população.

Nome da coluna Descrição
Recurso Nome da coluna
Count Contagem de todas as linhas
Contagem de valores exclusivos Número de valores exclusivos na coluna
Contagem de valores ausentes Número de valores exclusivos na coluna
Min Valor mais baixo na coluna
Max Valor mais alto na coluna
Mean Média de todos os valores de coluna
Desvio médio Desvio médio dos valores da coluna
Primeiro quartil Valor no primeiro quartil
Median Mediana do valor da coluna
Terceiro quartil Valor no terceiro quartil
Modo Modo de valores de coluna
Intervalo Inteiro que representa o número de valores entre os valores máximo e mínimo
Variância do exemplo Variância da coluna. Confira a observação
Desvio padrão do exemplo Desvio padrão da coluna. Confira a observação
Assimetria do exemplo Assimetria da coluna. Confira a observação
Curtose do exemplo Curtose da coluna. Confira a observação
P0.5 Percentual de 0,5%
P1 Percentil 1%
P5 Percentil 5%
P95 Percentil 95%
P99,5 Percentil 99,5%

Dica

Saída do relatório de estatísticas como um conjuntos de dados tabular, para que você possa usar os dados nas ferramentas de relatório de BI ou usar os valores como entrada para outra operação no experimento.

Exemplos

Para ver exemplos de como usar o módulo Resumir Dados em um experimento, consulte o Galeria de IA do Azure:

  • Baixar o conjuntos de dados do UCI: lê um conjuntos de dados no formato CSV usando sua URL no repositório UCI Machine Learning e gera algumas estatísticas básicas sobre o conjuntos de dados.

  • Processamento e análise de conjuntos de dados: carrega o conjuntos de dados no workspace, altera os nomes das colunas e adiciona metadados.

  • Previsão do desempenho do aluno: lê os dados armazenados no formato TSV do Armazenamento de Blob do Azure.

Observações técnicas

  • Para colunas numéricas e boolianas, você pode fazer a saída da média, da mediana, do modo e do desvio padrão.

  • Para colunas não numéricas, apenas os valores para Contagem, Contagem de valor exclusivo e Contagem de valor ausente são calculados. As outras estatísticas retornarão um valor nulo.

  • As colunas que contêm valores boolianos são processadas com estas regras:

    • Ao calcular Mín, um AND lógico é aplicado.

    • Ao calcular Max, um OR lógico é aplicado

    • Ao calcular Intervalo, o módulo primeiro verifica se o número de valores exclusivos na coluna é igual a 2.

    • Ao calcular qualquer estatística que requeira cálculos de ponto flutuante, os valores True são tratados como 1,0 e os valores False são tratados como 0,0.

Entradas esperadas

Nome Tipo Descrição
Dataset Tabela de Dados Conjunto de dados de entrada

Saída

Nome Tipo Descrição
Conjunto de dados de resultados Tabela de Dados Um perfil do conjunto de dados de entrada que contém estatísticas descritivas

Exceções

Exceção Descrição
Erro 0003 Ocorrerá uma exceção se uma ou mais entradas forem nulas ou estiverem vazias.
Erro 0020 Ocorre uma exceção se o número de colunas em alguns dos conjuntos de dados transmitidos para o módulo for muito pequeno.
Erro 0021 Ocorre uma exceção se o número de linhas em alguns dos conjuntos de dados passados para o módulo for muito pequeno.

para obter uma lista de erros específicos para módulos do Studio (clássicos), consulte Machine Learning códigos de erro.

para obter uma lista de exceções de api, consulte Machine Learning códigos de erro da api REST.

Confira também

Funções estatísticas
Computar estatísticas elementares