Composant Modifier des métadonnées

Cet article décrit un composant inclus dans le concepteur Azure Machine Learning.

Utilisez le composant Modifier les métadonnées pour modifier les métadonnées associées aux colonnes d’un jeu de données. La valeur et le type de données du jeu de données sont modifiés après l’utilisation du composant Modifier les métadonnées.

Les modifications de métadonnées standard peuvent être les suivantes :

  • Traitement des valeurs booléennes ou numériques des colonnes en tant que valeurs catégorielles

  • Désignation de la colonne qui contient l’étiquette de classe ou les valeurs que vous souhaitez classer ou prédire.

  • Marquage des colonnes en tant que fonctionnalités.

  • Changement des valeurs de date/heure en valeurs numériques ou vice versa.

  • Changement de nom des colonnes.

Utilisez le composant Modifier les métadonnées à chaque fois que vous devez modifier la définition d’une colonne, généralement pour répondre aux besoins d’un composant en aval. Par exemple, certains composants utilisent uniquement des types de données spécifiques ou nécessitent des indicateurs sur les colonnes, comme IsFeature ou IsCategorical.

Après avoir effectué l’opération requise, vous pouvez rétablir l’état d’origine des métadonnées.

Configurer le module Modifier les métadonnées

  1. Dans le concepteur Azure Machine Learning, ajoutez le composant Modifier les métadonnées à votre pipeline et connectez le jeu de données à mettre à jour. Vous pouvez rechercher le composant dans la catégorie Transformation des données.

  2. Cliquez sur Modifier la colonne dans le volet droit du composant, et sélectionnez la colonne ou le jeu de colonnes à utiliser. Vous pouvez sélectionner des colonnes individuellement par nom ou index, ou vous pouvez choisir un groupe de colonnes par type.

  3. Sélectionnez l’option Type de données si vous devez attribuer un autre type de données aux colonnes sélectionnées. Vous devrez peut-être modifier le type de données pour certaines opérations. Par exemple, si votre jeu de données source comporte des nombres traités comme du texte, vous devez les remplacer par un type de données numériques avant d’utiliser des opérations mathématiques.

    • Types de données prises en charge : Chaîne, Entier, Double, Booléen et DateHeure.

    • Si vous sélectionnez plusieurs colonnes, vous devez appliquer les modifications des métadonnées à toutes les colonnes sélectionnées. Par exemple, supposons que vous choisissiez deux ou trois colonnes numériques. Vous pouvez remplacer toutes les données numériques par des données de type chaîne et les renommer en une seule opération. Toutefois, vous ne pouvez pas modifier une colonne en données de type chaîne et remplacer une autre colonne de données de type flottant en données de type entier.

    • Si vous ne spécifiez pas un nouveau type de données, les métadonnées de colonne restent inchangées.

    • Le type de colonne et les valeurs sont modifiés une fois que vous avez effectué l’opération Modifier les métadonnées. Vous pouvez récupérer le type de données d’origine à tout moment à l’aide de Modifier les métadonnées pour rétablir le type de données de colonne.

    Notes

    Le format DateHeure suit le format DateHeure intégré de Python.
    Si vous remplacez un type de nombre par le type DateHeure, laissez le champ Format date et heure vide. Actuellement, il n’est pas possible de spécifier le format cible des données.

  4. Sélectionnez l’option Catégorie pour spécifier que les valeurs indiquées dans les colonnes sélectionnées doivent être considérées comme des catégories.

    Par exemple, une colonne peut contenir les nombres 0, 1 et 2, mais vous savez que ces nombres signifient en fait « Fumeur », « Non fumeur » et « Inconnu ». Dans ce cas, le fait de marquer la colonne comme catégorielle vous assure que les valeurs sont utilisées uniquement pour regrouper les données et non dans des calculs numériques.

  5. Utilisez l’option Champs si vous souhaitez modifier la façon dont Azure Machine Learning utilise les données d’un modèle.

    • Caractéristique : Utilisez cette option pour marquer une colonne en tant que fonctionnalité dans les composants qui fonctionnent uniquement sur les colonnes de fonctionnalité. Par défaut, toutes les colonnes sont traitées initialement comme des fonctionnalités.

    • Étiquette : Utilisez cette option pour marquer l’étiquette, qui est également appelée attribut prédictible ou variable cible. De nombreux composants nécessitent qu’une colonne d’étiquette précisément soit présente dans le jeu de données.

      Dans de nombreux cas, Azure Machine Learning peut déduire qu’une colonne contient une étiquette de classe. En définissant ces métadonnées, vous pouvez vous assurer que la colonne est identifiée correctement. La définition de cette option ne modifie pas les valeurs de données. Elle modifie uniquement la manière dont certains algorithmes d’apprentissage automatique gèrent les données.

    Conseil

    Disposez-vous de données qui ne s’inscrivent pas dans ces catégories ? Par exemple, votre jeu de données peut contenir des valeurs telles que des identificateurs uniques qui ne sont pas utiles en tant que variables. Parfois, ces ID peuvent entraîner des problèmes lorsqu’ils sont utilisés dans un modèle.

    Heureusement, Azure Machine Learning conserve toutes vos données, afin que vous n’ayez pas à supprimer ces colonnes du jeu de données. Lorsque vous devez effectuer des opérations sur un ensemble spécial de colonnes, supprimez simplement toutes les autres colonnes temporairement à l’aide du composant Sélectionner des colonnes dans un jeu de données. Vous pouvez ultérieurement fusionner à nouveau les colonnes dans le jeu de données à l’aide du composant Ajouter des colonnes.

  6. Utilisez les options suivantes pour effacer les sélections précédentes et rétablir les valeurs par défaut des métadonnées.

    • Effacer la fonctionnalité : Utilisez cette option pour supprimer l’indicateur de fonctionnalité.

      Toutes les colonnes sont traitées initialement comme des fonctionnalités. Pour les composants qui effectuent des opérations mathématiques, vous devrez peut-être utiliser cette option afin d’empêcher que les colonnes numériques ne soient considérées comme des variables.

    • Effacer l’étiquette : Utilisez cette option pour supprimer les métadonnées d’étiquette de la colonne spécifiée.

    • Effacer le score : Utilisez cette option pour supprimer les métadonnées de score de la colonne spécifiée.

      Pour le moment, vous ne pouvez pas marquer explicitement une colonne en tant que score dans Azure Machine Learning. Toutefois, certaines opérations entraînent le marquage d’une colonne en tant que score en interne. De même, un composant R personnalisé peut générer des valeurs de score.

  7. Pour le champ Nouveaux noms de colonnes, entrez le nouveau nom de la ou des colonnes sélectionnées.

    • Les noms de colonnes ne peuvent comporter que des caractères pris en charge par l’encodage UTF-8. Les chaînes vides, les valeurs Null ou les noms composés uniquement d’espaces ne sont pas autorisés.

    • Pour renommer plusieurs colonnes, entrez les noms sous forme d’une liste séparée par des virgules dans l’ordre des index de colonne.

    • Toutes les colonnes sélectionnées doivent être renommées. Vous ne pouvez pas omettre ni ignorer des colonnes.

  8. Envoyez le pipeline.

Étapes suivantes

Consultez les composants disponibles pour Azure Machine Learning.