Totaliser les données

Article
06/01/2023

Cet article décrit un composant du concepteur Azure Machine Learning.

Utilisez le composant Synthétiser les données pour créer un ensemble de mesures statistiques standard qui décrivent chaque colonne de la table d’entrée.

Les statistiques récapitulatives sont utiles pour comprendre les caractéristiques du jeu de données complet. Par exemple, vous pouvez vous poser les questions suivantes :

Combien y a-t-il de valeurs manquantes dans chaque colonne ?
Combien y a-t-il de valeurs uniques dans une colonne de caractéristiques ?
Quels sont la moyenne et l’écart type de chaque colonne ?

Le composant calcule les scores importants de chaque colonne et retourne une ligne de statistiques récapitulatives pour chaque variable (colonne de données) fournie comme entrée.

Comment configurer le module Synthétiser les données

Ajoutez le composant Synthétiser les données à votre pipeline. Ce composant se trouve dans la catégorie Fonctions statistiques du concepteur.
Connectez le jeu de données pour lequel vous voulez générez un rapport.

Si vous voulez créer un rapport sur certaines colonnes seulement, utilisez le composant Sélectionner des colonnes dans le jeu de données pour projeter un sous-ensemble de colonnes à utiliser.
Aucun paramètre supplémentaire n’est nécessaire. Par défaut, le composant analyse toutes les colonnes fournies en entrée et, en fonction du type des valeurs dans les colonnes, génère un ensemble de statistiques pertinent, comme décrit dans la section Résultats.
Envoyez le pipeline.

Résultats

Le rapport du composant peut comprendre les statistiques suivantes.

Nom de la colonne	Description
Fonctionnalité	Nom de la colonne
Count	Nombre total des lignes
Unique Value Count	Nombre de valeurs uniques dans la colonne
Missing Value Count	Nombre de valeurs uniques dans la colonne
Min	Valeur la plus basse de la colonne
Max	Valeur la plus haute de la colonne
Mean	Moyenne de toutes les valeurs de colonne
Mean Deviation	Écart moyen des valeurs de colonne
1st Quartile	Valeur au premier quartile
Median	Valeur de colonne médiane
3rd Quartile	Valeur au troisième quartile
Mode	Mode des valeurs de colonne
Plage	Entier représentant le nombre de valeurs comprises entre les valeurs maximale et minimale
Sample Variance	Variance de la colonne. Voir la section Note
Sample Standard Deviation	Écart type de la colonne. Voir la section Note
Sample Skewness	Asymétrie de la colonne. Voir la section Note
Sample Kurtosis	Kurtosis de la colonne. Voir la section Note
P0.5	0,5e centile
P1	1er centile
P5	5e centile
P95	95e centile
P99.5	99,5e centile

Notes techniques

Pour les colonnes non numériques, seules les valeurs de Count, d'Unique value count et de Missing value count sont calculées. Pour les autres statistiques, une valeur Null est renvoyée.
Les colonnes contenant des valeurs booléennes sont traitées à l'aide des règles suivantes :
- Lors du calcul de Min, un opérateur logique AND est appliqué.
- Lors du calcul de Max, un opérateur logique OR est appliqué.
- Lors du calcul de Range, le composant vérifie d’abord si le nombre de valeurs uniques dans la colonne est égal à 2.
- Lors du calcul des statistiques nécessitant des calculs à virgule flottante, les valeurs True sont traitées comme 1,0, et les valeurs False comme 0,0.

Étapes suivantes

Consultez les composants disponibles pour Azure Machine Learning.

Totaliser les données

Comment configurer le module Synthétiser les données

Résultats

Notes techniques

Étapes suivantes

Ressources supplémentaires