Cálculo de estadísticas elementales

Calcula las estadísticas de resumen especificado de las columnas del conjunto de datos seleccionado

Categoría: funciones estadísticas

Nota

Se aplica a: machine learning Studio (clásico)

Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo de estadísticas básicas de proceso en Azure machine learning Studio (clásico) para generar un informe de resumen para el conjunto de valores que muestra estadísticas clave como la media, la desviación estándar y el intervalo de valores para cada una de las columnas seleccionadas.

Este informe es útil para analizar la tendencia central, la dispersión y la forma de los datos.

Cómo configurar estadísticas elementales de proceso

  1. Agregue el módulo calcular estadísticas elementales al experimento. Puede encontrar este módulo en la categoría funciones estadísticas de Azure machine learning Studio (clásico).

  2. Conecte un conjunto de DataSet que contenga las columnas que desea analizar.

  3. Haga clic en la lista desplegable método y elija el tipo de valor que desea calcular para cada columna.

    Vea la sección estadísticas admitidas para obtener una lista completa de las estadísticas disponibles y lo que significan.

  4. De forma predeterminada, el valor seleccionado en la lista desplegable método se calculará para todas las columnas del conjunto de datos que tengan un tipo de datos numérico. Si alguna columna tiene valores que impiden que se calcule el valor, se producirá un error y no se creará el informe.

    Para evitar este error, use el selector de columnas para elegir las columnas numéricas para las que desea un informe. Todas las columnas que elija deben ser numéricas.

  5. Ejecute el experimento.

Results

El informe generado incluye el nombre de cada columna y la estadística que se calculó. Por ejemplo, en la tabla siguiente se muestran las estadísticas generadas para la columna MPG .

DeviationSquared (MPG) Max (MPG) Min (MPG)
9674,312 25,21951 13

Sugerencia

Cada vez que se ejecutan las estadísticas elementales de proceso, solo se puede generar una estadística de resumen para cada una de las columnas seleccionadas. Sin embargo, puede usar los módulos Agregar columnas o Agregar filas para combinar los resultados en una sola tabla, como en el ejemplo anterior.

Estadísticas admitidas

Este módulo admite las siguientes estadísticas descriptivas estándar.

Desviación cuadrada

Calcula la desviación cuadrada de los valores de columna. También se conoce como la suma de los cuadrados.

La desviación cuadrada es una medida de la distancia de los valores de la media.

Media geométrica

Calcula la media geométrica de los valores de columna.

La media geométrica se puede usar para medir la tendencia central de un conjunto de números. En comparación con la media aritmética, es menos afectado por un pequeño número de valores extremos. También se puede usar para comparar medidas en diferentes escalas, ya que de hecho normaliza las escalas de los números que se están comparando. El medio geométrico se usa a veces para calcular las tasas de crecimiento anuales compuestas.

La función equivalente en Excel es GEOMEAN.

Media armónica

Calcula la media armónica de los valores de columna.

Para calcular la media armónica, todos los valores se convierten en sus recíprocos y, a continuación, se toma la media de esos valores. La media armónica es el recíproco de esa media. Si los valores de columna son positivos, los números mayores se ponderan menos que los números menores.

La media armónica siempre es menor que la media geométrica, que siempre es menor que la media aritmética. La media armónica es útil para calcular el promedio de las variables que representan las tarifas, como la velocidad (distancia a lo largo del tiempo) o las ventas por trimestre.

La función equivalente en Excel es HARMEAN.

Distancia intercuartil

Calcula la diferencia de intercuartil para el primer y el último cuartil de los valores de columna. También se denomina intervalo del cuartil. Cuando el cuartil está entre dos números, el valor de cuartil es el promedio de los dos valores de cada lado del corte.

El valor de cuartil divide la columna de valores en cuatro grupos con un número igual de valores. Por lo tanto, un cuarto de los valores es menor o igual que el percentil 25. Tres cuartos de los valores son menores o iguales que el percentil º. Al revisar el intervalo de cuartil, puede hacerse una idea de la dispersión de los valores de los datos.

Momento central k-ésimo

Calcula el momento central K-ésimo de los valores de columna.

Al calcular el momento central K-ésimo, también debe especificar el orden, es decir, el valor de k. El valor de k puede oscilar entre 0 y cualquier valor entero permitido, aunque los valores de orden superiores no suelen ser significativos.

Por lo general, en las estadísticas descriptivas, un momento es una medida que describe la forma de un conjunto de puntos. Los momentos centrales son momentos de la media, que suelen usarse porque proporcionan mejor información acerca de la forma de la distribución. Un orden de 2 normalmente representa la varianza; se utiliza un orden de 4 para la curtosis. El primer momento del pedido es la media. Por lo tanto, la colección de todos los momentos describe de forma única la distribución de los valores de la columna.

Max

Busca el valor máximo de la columna.

Media

Calcula la media aritmética de los valores de columna.

La función equivalente en Excel es AVERAGE.

Desviación media

Calcula la desviación absoluta media de los valores de columna.

Es decir, la media se calcula para la columna y la desviación calculada para cada valor de la columna. La media de los valores absolutos de los valores de desviación individuales es la desviación media.

Esta estadística le indica cómo se reparte de la media de la columna de números.

Mediana

Devuelve la mediana de los valores de columna.

La mediana es el número en medio de una columna de números. Si hay un número par de números en la columna, la mediana es el promedio de los dos números del centro.

La mediana, junto con la media y el modo, es una de las tres estadísticas que mide la tendencia central. Si los valores son simétricos alrededor de la media, los tres números serán aproximadamente los mismos. Sin embargo, la mediana es más sólida para los valores atípicos que la media.

Desviación mediana

Calcula la desviación mediana de la columna.

Es decir, la mediana se calcula para la columna y la desviación calculada para cada valor de la columna. Se toma el valor medio de los valores absolutos de los valores de la desviación individual.

La desviación absoluta mediana también se conoce como MAD y se usa para describir la variabilidad de una muestra de números. MAD le indica cómo se reparte de la media de la columna de números.

Min

Devuelve el valor mínimo de los valores de columna.

Modo

Busca todos los modos de la columna.

El modo es el valor que aparece más en la columna. Si aparecen varios valores el mismo número de veces, la columna puede tener varios modos.

Como medida de tendencia central, el modo es más sólido para los valores atípicos que la media, y también se puede usar con datos nominales.

Desviación estándar de población

Calcula la desviación estándar de población para los valores de columna.

Esta estadística supone que los valores de columna representan todo el rellenado. Si los datos son solo un ejemplo del rellenado, debe calcular la desviación estándar mediante la desviación estándar de ejemplo. Sin embargo, en conjuntos de valores de gran tamaño, las dos estadísticas devuelven aproximadamente los mismos valores.

La desviación estándar se calcula como la raíz cuadrada de la varianza de la columna. Esta estadística captura la cantidad de variabilidad de la columna.

Varianza de población

Calcula la varianza de población para los valores de columna.

Varianza mide cuánto se extiende un conjunto de números. Si Variance es cero, todos los números son iguales.

Esta estadística supone que la columna de valores representa todo el rellenado. Si los datos contienen solo una muestra de los valores, debe calcular la varianza mediante la varianza de ejemplo.

La función de Excel equivalente es VAR.P .

Producto

Calcula el producto de los elementos de la columna.

Para obtener el producto, se han de varios números en la columna. El resultado no es tan útil como una estadística descriptiva, pero la función es útil para otros cálculos.

Intervalo

Calcula el intervalo de valores de columna. El intervalo se define como el valor máximo menos el valor mínimo

Curtosis muestral

Calcula la curtosis de ejemplo para los valores de columna.

La curtosis describe la forma de la distribución de los valores, es decir, el pico o la distribución de los valores, en comparación con la distribución normal.

  • La distribución normal tiene una curtosis de 0.

  • Los valores de gran curtosis indican que la masa de probabilidad se concentra en torno a un pico o en el final de la distribución.

  • Los valores de curtosis negativos indican una distribución relativamente plana.

Asimetría muestral

Calcula el sesgo de ejemplo para los valores de columna.

Sesgar describe si la mayor parte de los valores se encuentran en el centro, desplazarse a la izquierda o desplazarse a la derecha. Dos distribuciones pueden tener la misma media y desviación estándar, pero tienen una forma muy diferente. Puede usar la asimetría y la curtosis para caracterizar la forma.

  • Los valores de sesgo negativos significan que la distribución se sesga a la izquierda.

  • 0 denota la distribución normal.

  • Los valores de sesgo positivos significan que la distribución se sesga a la derecha.

Desviación estándar muestral

Calcula la desviación estándar de ejemplo para los valores de columna.

La desviación estándar del ejemplo mide el modo en que los valores de la columna provienen de la media. Representa la distancia media entre los valores de los datos del conjunto y la media.

Esta estadística supone que los valores de columna representan una muestra del rellenado. Si los datos representan todo el rellenado, debe calcular la desviación estándar mediante la desviación estándar de población.

La función de Excel equivalente es ST. DEV. S.

Varianza muestral

Calcula la varianza de ejemplo para los valores de columna.

Este método supone que los valores de columna representan una muestra del rellenado. Si la columna contiene todo el rellenado, debe usar la varianza estándar de rellenado.

La función de Excel equivalente es VAR. S.

Sum

Calcula la suma de los valores de columna.

Ejemplos

En los siguientes experimentos del Azure AI Gallery se muestra cómo se puede crear un informe de resumen que contiene estadísticas descriptivas de un conjunto de información completo. El informe de Resumen solo contiene estadísticas generales; sin embargo, puede guardarlo como un conjunto de información y, a continuación, agregar estadísticas más detalladas con las opciones de calcular estadísticas elementales.

Notas técnicas

Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.

Sugerencia

Se deben satisfacer las siguientes condiciones al usar el módulo calcular estadísticas elementales :

  • Debe haber un número suficiente de puntos de datos (filas) para calcular la estadística seleccionada. Por ejemplo, para calcular la desviación estándar de ejemplo se requieren al menos dos puntos de datos; de lo contrario, el resultado es NaN.
  • Las columnas de entrada deben ser numéricas o booleanas.

De forma predeterminada, se seleccionan todas las columnas numéricas. Sin embargo, si alguna columna numérica está marcada como de categoría, podría recibir el siguiente error: "error 0056: la columna con el nombre <column name> no está en una categoría permitida". Para corregir el error, agregue una instancia del módulo editar metadatos , seleccione la columna con el problema y use la opción quitar categorías.

Detalles de la implementación

Las columnas booleanas se procesan como se indica a continuación:

  • MIN se calcula como operador AND lógico.

  • MAX se calcula como operador OR lógico.

  • RANGE comprueba si el número de valores únicos de la columna es igual a 2.

  • Los valores que faltan se omiten.

  • En el caso de las estadísticas que requieren cálculos de punto flotante, True = 1.0 y False = 0.0

Entradas esperadas

Nombre Tipo Descripción
Dataset Tabla de datos Conjunto de datos de entrada

Parámetros del módulo

Nombre Intervalo Tipo Valor predeterminado Descripción
Método List Método de estadística elemental Selecciona un método estadístico para usarlo en los cálculos. Vea la sección sobre cómo usar para obtener una lista de valores.
Conjunto de columnas cualquiera ColumnSelection NumericAll Selecciona las columnas para las que se va a calcular la estadística
Pedido >=1 Entero 3 Especifica un valor para el orden de momento central (solo usado para el momento central de k-ésimo)

Output

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Conjunto de datos de salida

Excepciones

Excepción Descripción
Error 0017 Se producen excepciones si una o más columnas especificadas tienen un tipo no compatible con el módulo actual.

Para obtener una lista de los errores específicos de los módulos de Studio (clásico), consulte Machine Learning de los códigos de error.

Para obtener una lista de excepciones de API, consulte códigos de error de la API de REST de machine learning.

Consulte también

Funciones estadísticas
básicas
Resumir datos
Lista de módulos A-Z