Resumen de datos

Importante

El soporte técnico de Machine Learning Studio (clásico) finalizará el 31 de agosto de 2024. Se recomienda realizar la transición a Azure Machine Learning antes de esa fecha.

A partir del 1 de diciembre de 2021 no se podrán crear recursos de Machine Learning Studio (clásico). Hasta el 31 de agosto de 2024, puede seguir usando los recursos de Machine Learning Studio (clásico) existentes.

La documentación de ML Studio (clásico) se está retirando y es posible que no se actualice en el futuro.

Genera un informe de estadísticas descriptivas básicas de las columnas de un conjunto de datos

Categoría: Funciones estadísticas

Nota:

Solo se aplica a: Machine Learning Studio (clásico)

Hay módulos para arrastrar y colocar similares en el diseñador de Azure Machine Learning.

Información general sobre el módulo

En este artículo se describe cómo usar el módulo Resumir datos en Machine Learning Studio (clásico) para crear un conjunto de medidas estadísticas estándar que describen cada columna de la tabla de entrada.

Estas estadísticas de resumen son útiles cuando se quieren comprender las características del conjunto de datos completo. Por ejemplo, podría necesitar saber:

  • ¿Cuántos valores faltan en cada columna?
  • ¿Cuántos valores únicos hay en una columna de características?
  • ¿Cuál es la media y la desviación típica de cada columna?

El módulo calcula las puntuaciones importantes de cada columna y devuelve una fila de estadísticas resumidas para cada variable (columna de datos) que se proporciona como entrada.

Sugerencia

Es posible que ya sepa que puede obtener una breve lista de estadísticas mediante la opción Visualizar en Studio (clásico). Sin embargo, esta visualización se crea en función de un número superior de filas. Por el contrario, el módulo Resumir datos calcula sus estadísticas en todas las filas de datos.

Cómo usar Resumir datos

  1. Agregue el módulo Resumir datos al experimento. Puede encontrar este módulo en la categoría Funciones estadísticas de Studio (clásico).

  2. Seleccione el conjunto de datos para el que desea generar un informe.

    Si desea notificar solo algunas columnas, use el módulo Select Columns in Dataset (Seleccionar columnas del conjunto de datos) para proyectar un subconjunto de columnas con el que trabajar.

  3. No hay ningún otro parámetro obligatorio. De forma predeterminada, el módulo analiza todas las columnas que se proporcionan como entrada y, en función del tipo de valores de las columnas, genera un conjunto de estadísticas pertinente, tal como se describe en la sección Resultados.

  4. Ejecute el experimento o haga clic con el botón derecho en el módulo y seleccione Ejecutar seleccionado.

Results

El informe del módulo puede incluir las siguientes estadísticas.

  • Las estadísticas exactas que se generan dependen del tipo de datos de columna. Consulte la sección Notas técnicas para obtener más información.

  • Se supone que las instancias pertenecen a una muestra representativa de una población. Si necesita calcular las estadísticas de una población, use las opciones del módulo Compute Elementary Statistics (Estadísticas elementales de proceso), que puede calcular las estadísticas de muestreo o de población.

Nombre de la columna Descripción
Característica Nombre de la columna
Recuento Recuento de filas
Número de valores únicos Recuento de valores únicos en la columna
Missing Value Count (Número de valores ausentes) Recuento de valores únicos en la columna
Mín. Valor más bajo de la columna
Máx. Valor más alto de la columna
Promedio Promedio de todos los valores de la columna
Mean Deviation (Desviación media) Desviación media de los valores de la columna
1st Quartile (1er cuartil) Valor en el primer cuartil
Valor medio Valor de la mediana de la columna
3rd Quartile (3er cuartil) Valor en el tercer cuartil
Modo Modo de los valores de la columna
Range Entero que representa el número de valores entre los valores máximo y mínimo
Sample Variance (Varianza de la muestra) Varianza de la columna; consulte la nota
Sample Standard Deviation (Desviación típica de la muestra) Desviación típica de la columna; consulte la nota
Sample Skewness (Sesgo de la muestra) Sesgo de la columna; consulte la nota
Sample Kurtosis (Curtosis de la muestra) Curtosis de la columna; consulte la nota
P0.5 Percentil 0,5 %
P1 Percentil 1 %
P5 Percentil 5 %
P95 Percentil 95 %
P99.5 Percentil 99,5 %

Sugerencia

Generar el informe de estadísticas como un conjunto de datos tabular, para que pueda usar los datos en las herramientas de informes de BI o usar los valores como entrada para otra operación en el experimento.

Ejemplos

Para obtener ejemplos de cómo usar el módulo Resumir datos en un experimento, vea el Azure AI Gallery:

Notas técnicas

  • Para las columnas numéricas y booleanas, puede generar la media, la mediana, el modo y la desviación estándar.

  • Para las columnas no numéricas, solo se calculan los valores para Recuento, Recuento de valores únicos y Recuento de valores que faltan. En el caso de otras estadísticas, se devuelve un valor nulo.

  • Las columnas que contienen valores booleanos se procesan mediante las siguientes reglas:

    • Al calcular Min, se aplica un operador lógico AND.

    • Al calcular max, se aplica un OPERADOR lógico

    • Al calcular Range, el módulo comprueba primero si el número de valores únicos de la columna es igual a 2.

    • Cuando se calcula cualquier estadística que requiere cálculos de punto flotante, los valores True se tratan como 1,0 y los valores False se tratan como 0,0.

Entradas esperadas

Nombre Tipo Descripción
Dataset Tabla de datos Conjunto de datos de entrada

Output

Nombre Tipo Descripción
Conjunto de datos de resultados Tabla de datos Un perfil del conjunto de datos de entrada que contiene estadísticas descriptivas

Excepciones

Excepción Descripción
Error 0003 Se produce una excepción si una o varias de las entradas son nulas o están vacías.
Error 0020 Se produce una excepción si el número de columnas de algunos de los conjuntos de datos que se pasan al módulo es demasiado pequeño.
Error 0021 Se produce una excepción si el número de filas de algunos de los conjuntos de datos que se pasan al módulo es demasiado pequeño.

Para obtener una lista de errores específicos de los módulos de Studio (clásico), consulte Machine Learning códigos de error.

Para obtener una lista de excepciones de API, consulte Machine Learning códigos de error de la API REST.

Consulte también

Funciones estadísticas
Cálculo de estadísticas elementales