Partager via


Exploration et nettoyage des données

La préparation des données est bien plus que le nettoyage des données. N'oubliez pas que la façon dont les données sont préparées affecte également la façon dont les résultats sont interprétés. La préparation des données implique les tâches suivantes :

  • Exploration et vérification de la distribution des données.

  • Nettoyage des enregistrements incorrects et sélection des colonnes pour l'exploration de données.

  • Gestion des valeurs Null.

  • Placement des valeurs dans un conteneur ou agrégation des valeurs selon différents segments de temps.

  • Ajout d'étiquettes pour améliorer la simplicité d'utilisation des résultats.

  • Conversion des types de données ou classement des valeurs, le cas échéant, pour analyse.

Si vous débutez dans la modélisation des données, nous vous recommandons de lire la rubrique connexe, Check-list of Preparation for Data Mining.

Outils de préparation des données

Les compléments d’exploration de données pour Office incluent les outils suivants pour le nettoyage et la préparation des données :

Explorer les données

Utilisez l’Assistant Explorer les données pour ces tâches de préparation des données :

  • Afficher un aperçu de vos données et identifier les erreurs qui doivent être résolues avant l'analyse.

  • Collecter les statistiques utiles pour comprendre l'équilibre de la distribution des données et les tâches de nettoyage nécessaires.

  • Identifier les colonnes qui sont utiles pour l'analyse, et planifier la phase de modélisation des données.

Explorer les données (SQL Server compléments d’exploration de données).

Détecter et gérer les valeurs hors norme

L’Assistant Valeurs hors norme montre la distribution des valeurs dans vos données et vous aide à supprimer les valeurs extrêmes . Utilisez l’outil Valeurs hors norme pour les tâches de préparation des données suivantes :

  • Déterminer si les valeurs individuelles sont fiables, basées sur les modèles trouvés dans les données.

  • Examiner les valeurs inhabituelles, les supprimez ou les remplacer.

  • Définir l'étendue d'un modèle à une plage de valeurs spécifique. Par exemple, si vous savez que vous avez des valeurs hors norme dans un magasin spécifique, supprimez cette valeur et obtenez un modèle qui améliore les prédictions d'autres magasins.

Valeurs hors norme (SQL Server compléments d’exploration de données).

Réétiqueter et placer les données dans un conteneur

L’Assistant Réétiquetage regroupe les données par valeurs afin que vous puissiez modifier les étiquettes sur les données. Utilisez l'outil Réétiqueter pour les tâches de préparation des données suivantes :

  • Modifier les codes numériques utilisés dans les résultats d'enquête en une description textuelle de la signification du code numérique.

    Par exemple, vous pouvez remplacer des entrées de données telles que Sexe = 1 par Sexe = Féminin.

  • Placez les données dans un conteneur, en créant des groupes pour représenter des plages de nombres.

    Par exemple, vous pouvez remplacer une colonne Revenu de nombres par des étiquettes telles que Revenu - Modéré et Revenu - Élevé.

  • Réduisez les valeurs discrètes dans des catégories.

    Par exemple, si vous disposez de trop de produits individuels pour détecter un schéma parmi les achats, vous pouvez essayer d'affecter des produits dans des catégories plus vastes.

Réétiqueter (Compléments d'exploration de données SQL Server)

Nettoyer les données

Le nettoyage de données comprend une grande variété d'activités, la plupart étant prises en charge par les compléments

  • Identifiez les valeurs nulles et déterminez si elles doivent être remplacées par une valeur réelle ou être gérées en tant que valeurs Missing.

  • Détectez les valeurs manquantes, puis supprimez-les ou imputez une valeur appropriée, comme une moyenne, une valeur NULL ou une autre valeur.

Explorer des données (Compléments d'exploration de données SQL Server)

Réétiqueter (Compléments d'exploration de données SQL Server)

Remplir à partir de l'exemple

Exemples de données

L'Assistant Exemples de données fournit deux méthodes pour créer des jeux de données équilibrés pour des modèles d'apprentissage et de test.

  • Échantillonnage aléatoire. Utilisez cette option pour extraire un jeu de données représentatif d'un plus grand jeu de données, en vue de l'utiliser pour l'apprentissage ou le test. Les compléments d’exploration de données utilisent l’échantillonnage stratifié pour garantir qu’un ensemble équilibré de valeurs est obtenu pour chaque variable échantillonnées.

  • Suréchantillonnage. Utilisez cette option si vous avez moins de données que vous ne le souhaiteriez pour le résultat, et que vous devez pondérer ces données de manière plus importante. Par exemple, la fraude peut être relativement rare, mais vous pouvez suréchantillonner des cas impliquant de la fraude pour obtenir les données adéquates pour la modélisation.

Exemples de données (SQL Server compléments d’exploration de données).

Voir aussi

Création d'un modèle d'exploration de données
Validation des modèles et utilisation des modèles pour la prédiction (compléments d'exploration de données pour Excel)
Déploiement et mise à l'échelle des modèles d'exploration de données (Compléments d'exploration de données pour Excel)