Cálculo de estadísticas elementales
Calcula las estadísticas de resumen especificado de las columnas del conjunto de datos seleccionado
Categoría: funciones estadísticas
Nota
Se aplica a: machine learning Studio (clásico)
Este contenido solo pertenece a Studio (clásico). Se han agregado módulos similares de arrastrar y colocar al diseñador de Azure Machine Learning. Obtenga más información en este artículo comparativa de las dos versiones.
Información general sobre el módulo
En este artículo se describe cómo usar el módulo de estadísticas básicas de proceso en Azure machine learning Studio (clásico) para generar un informe de resumen para el conjunto de valores que muestra estadísticas clave como la media, la desviación estándar y el intervalo de valores para cada una de las columnas seleccionadas.
Este informe es útil para analizar la tendencia central, la dispersión y la forma de los datos.
Cómo configurar estadísticas elementales de proceso
Agregue el módulo calcular estadísticas elementales al experimento. Puede encontrar este módulo en la categoría funciones estadísticas de Azure machine learning Studio (clásico).
Conecte un conjunto de DataSet que contenga las columnas que desea analizar.
Haga clic en la lista desplegable método y elija el tipo de valor que desea calcular para cada columna.
Vea la sección estadísticas admitidas para obtener una lista completa de las estadísticas disponibles y lo que significan.
De forma predeterminada, el valor seleccionado en la lista desplegable método se calculará para todas las columnas del conjunto de datos que tengan un tipo de datos numérico. Si alguna columna tiene valores que impiden que se calcule el valor, se producirá un error y no se creará el informe.
Para evitar este error, use el selector de columnas para elegir las columnas numéricas para las que desea un informe. Todas las columnas que elija deben ser numéricas.
Ejecute el experimento.
Results
El informe generado incluye el nombre de cada columna y la estadística que se calculó. Por ejemplo, en la tabla siguiente se muestran las estadísticas generadas para la columna MPG .
DeviationSquared (MPG) | Max (MPG) | Min (MPG) |
---|---|---|
9674,312 | 25,21951 | 13 |
Sugerencia
Cada vez que se ejecutan las estadísticas elementales de proceso, solo se puede generar una estadística de resumen para cada una de las columnas seleccionadas. Sin embargo, puede usar los módulos Agregar columnas o Agregar filas para combinar los resultados en una sola tabla, como en el ejemplo anterior.
Estadísticas admitidas
Este módulo admite las siguientes estadísticas descriptivas estándar.
Desviación cuadrada
Calcula la desviación cuadrada de los valores de columna. También se conoce como la suma de los cuadrados.
La desviación cuadrada es una medida de la distancia de los valores de la media.
Media geométrica
Calcula la media geométrica de los valores de columna.
La media geométrica se puede usar para medir la tendencia central de un conjunto de números. En comparación con la media aritmética, es menos afectado por un pequeño número de valores extremos. También se puede usar para comparar medidas en diferentes escalas, ya que de hecho normaliza las escalas de los números que se están comparando. El medio geométrico se usa a veces para calcular las tasas de crecimiento anuales compuestas.
La función equivalente en Excel es GEOMEAN.
Media armónica
Calcula la media armónica de los valores de columna.
Para calcular la media armónica, todos los valores se convierten en sus recíprocos y, a continuación, se toma la media de esos valores. La media armónica es el recíproco de esa media. Si los valores de columna son positivos, los números mayores se ponderan menos que los números menores.
La media armónica siempre es menor que la media geométrica, que siempre es menor que la media aritmética. La media armónica es útil para calcular el promedio de las variables que representan las tarifas, como la velocidad (distancia a lo largo del tiempo) o las ventas por trimestre.
La función equivalente en Excel es HARMEAN.
Distancia intercuartil
Calcula la diferencia de intercuartil para el primer y el último cuartil de los valores de columna. También se denomina intervalo del cuartil. Cuando el cuartil está entre dos números, el valor de cuartil es el promedio de los dos valores de cada lado del corte.
El valor de cuartil divide la columna de valores en cuatro grupos con un número igual de valores. Por lo tanto, un cuarto de los valores es menor o igual que el percentil 25. Tres cuartos de los valores son menores o iguales que el percentil º. Al revisar el intervalo de cuartil, puede hacerse una idea de la dispersión de los valores de los datos.
Momento central k-ésimo
Calcula el momento central K-ésimo de los valores de columna.
Al calcular el momento central K-ésimo, también debe especificar el orden, es decir, el valor de k. El valor de k puede oscilar entre 0 y cualquier valor entero permitido, aunque los valores de orden superiores no suelen ser significativos.
Por lo general, en las estadísticas descriptivas, un momento es una medida que describe la forma de un conjunto de puntos. Los momentos centrales son momentos de la media, que suelen usarse porque proporcionan mejor información acerca de la forma de la distribución. Un orden de 2 normalmente representa la varianza; se utiliza un orden de 4 para la curtosis. El primer momento del pedido es la media. Por lo tanto, la colección de todos los momentos describe de forma única la distribución de los valores de la columna.
Max
Busca el valor máximo de la columna.
Media
Calcula la media aritmética de los valores de columna.
La función equivalente en Excel es AVERAGE.
Desviación media
Calcula la desviación absoluta media de los valores de columna.
Es decir, la media se calcula para la columna y la desviación calculada para cada valor de la columna. La media de los valores absolutos de los valores de desviación individuales es la desviación media.
Esta estadística le indica cómo se reparte de la media de la columna de números.
Mediana
Devuelve la mediana de los valores de columna.
La mediana es el número en medio de una columna de números. Si hay un número par de números en la columna, la mediana es el promedio de los dos números del centro.
La mediana, junto con la media y el modo, es una de las tres estadísticas que mide la tendencia central. Si los valores son simétricos alrededor de la media, los tres números serán aproximadamente los mismos. Sin embargo, la mediana es más sólida para los valores atípicos que la media.
Desviación mediana
Calcula la desviación mediana de la columna.
Es decir, la mediana se calcula para la columna y la desviación calculada para cada valor de la columna. Se toma el valor medio de los valores absolutos de los valores de la desviación individual.
La desviación absoluta mediana también se conoce como MAD y se usa para describir la variabilidad de una muestra de números. MAD le indica cómo se reparte de la media de la columna de números.
Min
Devuelve el valor mínimo de los valores de columna.
Modo
Busca todos los modos de la columna.
El modo es el valor que aparece más en la columna. Si aparecen varios valores el mismo número de veces, la columna puede tener varios modos.
Como medida de tendencia central, el modo es más sólido para los valores atípicos que la media, y también se puede usar con datos nominales.
Desviación estándar de población
Calcula la desviación estándar de población para los valores de columna.
Esta estadística supone que los valores de columna representan todo el rellenado. Si los datos son solo un ejemplo del rellenado, debe calcular la desviación estándar mediante la desviación estándar de ejemplo. Sin embargo, en conjuntos de valores de gran tamaño, las dos estadísticas devuelven aproximadamente los mismos valores.
La desviación estándar se calcula como la raíz cuadrada de la varianza de la columna. Esta estadística captura la cantidad de variabilidad de la columna.
Varianza de población
Calcula la varianza de población para los valores de columna.
Varianza mide cuánto se extiende un conjunto de números. Si Variance es cero, todos los números son iguales.
Esta estadística supone que la columna de valores representa todo el rellenado. Si los datos contienen solo una muestra de los valores, debe calcular la varianza mediante la varianza de ejemplo.
La función de Excel equivalente es VAR.P
.
Producto
Calcula el producto de los elementos de la columna.
Para obtener el producto, se han de varios números en la columna. El resultado no es tan útil como una estadística descriptiva, pero la función es útil para otros cálculos.
Intervalo
Calcula el intervalo de valores de columna. El intervalo se define como el valor máximo menos el valor mínimo
Curtosis muestral
Calcula la curtosis de ejemplo para los valores de columna.
La curtosis describe la forma de la distribución de los valores, es decir, el pico o la distribución de los valores, en comparación con la distribución normal.
La distribución normal tiene una curtosis de 0.
Los valores de gran curtosis indican que la masa de probabilidad se concentra en torno a un pico o en el final de la distribución.
Los valores de curtosis negativos indican una distribución relativamente plana.
Asimetría muestral
Calcula el sesgo de ejemplo para los valores de columna.
Sesgar describe si la mayor parte de los valores se encuentran en el centro, desplazarse a la izquierda o desplazarse a la derecha. Dos distribuciones pueden tener la misma media y desviación estándar, pero tienen una forma muy diferente. Puede usar la asimetría y la curtosis para caracterizar la forma.
Los valores de sesgo negativos significan que la distribución se sesga a la izquierda.
0 denota la distribución normal.
Los valores de sesgo positivos significan que la distribución se sesga a la derecha.
Desviación estándar muestral
Calcula la desviación estándar de ejemplo para los valores de columna.
La desviación estándar del ejemplo mide el modo en que los valores de la columna provienen de la media. Representa la distancia media entre los valores de los datos del conjunto y la media.
Esta estadística supone que los valores de columna representan una muestra del rellenado. Si los datos representan todo el rellenado, debe calcular la desviación estándar mediante la desviación estándar de población.
La función de Excel equivalente es ST. DEV. S.
Varianza muestral
Calcula la varianza de ejemplo para los valores de columna.
Este método supone que los valores de columna representan una muestra del rellenado. Si la columna contiene todo el rellenado, debe usar la varianza estándar de rellenado.
La función de Excel equivalente es VAR. S.
Sum
Calcula la suma de los valores de columna.
Ejemplos
En los siguientes experimentos del Azure AI Gallery se muestra cómo se puede crear un informe de resumen que contiene estadísticas descriptivas de un conjunto de información completo. El informe de Resumen solo contiene estadísticas generales; sin embargo, puede guardarlo como un conjunto de información y, a continuación, agregar estadísticas más detalladas con las opciones de calcular estadísticas elementales.
Descargar DataSet desde UCI: el módulo resumir datos se usa para generar un informe de resumen en todas las columnas del conjunto de datos.
Procesamiento y análisis de conjuntosde datos: el módulo resumir datos se usa para generar un informe de resumen en todas las columnas del conjunto de datos.
Notas técnicas
Esta sección contiene detalles de implementación, sugerencias y respuestas a las preguntas más frecuentes.
Sugerencia
Se deben satisfacer las siguientes condiciones al usar el módulo calcular estadísticas elementales :
- Debe haber un número suficiente de puntos de datos (filas) para calcular la estadística seleccionada. Por ejemplo, para calcular la desviación estándar de ejemplo se requieren al menos dos puntos de datos; de lo contrario, el resultado es NaN.
- Las columnas de entrada deben ser numéricas o booleanas.
De forma predeterminada, se seleccionan todas las columnas numéricas. Sin embargo, si alguna columna numérica está marcada como de categoría, podría recibir el siguiente error: "error 0056: la columna con el nombre <column name> no está en una categoría permitida". Para corregir el error, agregue una instancia del módulo editar metadatos , seleccione la columna con el problema y use la opción quitar categorías.
Detalles de la implementación
Las columnas booleanas se procesan como se indica a continuación:
MIN se calcula como operador AND lógico.
MAX se calcula como operador OR lógico.
RANGE comprueba si el número de valores únicos de la columna es igual a 2.
Los valores que faltan se omiten.
En el caso de las estadísticas que requieren cálculos de punto flotante, True = 1.0 y False = 0.0
Entradas esperadas
Nombre | Tipo | Descripción |
---|---|---|
Dataset | Tabla de datos | Conjunto de datos de entrada |
Parámetros del módulo
Nombre | Intervalo | Tipo | Valor predeterminado | Descripción |
---|---|---|---|---|
Método | List | Método de estadística elemental | Selecciona un método estadístico para usarlo en los cálculos. Vea la sección sobre cómo usar para obtener una lista de valores. | |
Conjunto de columnas | cualquiera | ColumnSelection | NumericAll | Selecciona las columnas para las que se va a calcular la estadística |
Pedido | >=1 | Entero | 3 | Especifica un valor para el orden de momento central (solo usado para el momento central de k-ésimo) |
Output
Nombre | Tipo | Descripción |
---|---|---|
Conjunto de datos de resultados | Tabla de datos | Conjunto de datos de salida |
Excepciones
Excepción | Descripción |
---|---|
Error 0017 | Se producen excepciones si una o más columnas especificadas tienen un tipo no compatible con el módulo actual. |
Para obtener una lista de los errores específicos de los módulos de Studio (clásico), consulte Machine Learning de los códigos de error.
Para obtener una lista de excepciones de API, consulte códigos de error de la API de REST de machine learning.
Consulte también
Funciones estadísticas
básicas
Resumir datos
Lista de módulos A-Z