Tutoriel : Créer un jeu de données Machine Teaching (MT)

Suivez ce tutoriel pour savoir comment :

  • Lorsque vous utilisez un jeu de données, il est judicieux.
  • Comment structurer vos données pour Machine Teaching avec Bonsai.
  • Guide pratique pour préparer vos données MT à utiliser avec Bonsai.

Pour suivre ce tutoriel, vous devez disposer d’un compte Microsoft ou Azure et d’un Bonsai espace de travail provisionné dans Azure. Si vous avez besoin d’un compte ou d’une version d’évaluation Azure, suivez les instructions de configuration du compte Microsoft pour Bonsai avant de continuer.

Important

Pour suivre ce didacticiel, vous devez disposer d’un espace de travail Azure Machine Learning existant ou d’une autorisation pour créer et gérer des ressources dans Portail Azure.

Bonsaiprend en charge l’importation de jeux de données à partir de jeux de données Azure Machine Learning (AML). Nous vous recommandons de charger vos données en tant que fichier CSV désinfecté, car il est actuellement le moyen le plus simple d’ajouter des données à AML, mais tout format pris en charge par l’importation AML fonctionnera.

Qu’est-ce qu’un jeu de données Machine Teaching ?

Un jeu de données Machine Teaching (MT) est une collection de éléments de données qu’un ordinateur peut traiter comme une seule unité pendant l’analyse. À l’intention de Machine Teaching, votre jeu de données représente une collection d’épisodes d’entraînement où chaque épisode a plusieurs itérations d’entraînement.

Les jeux de données sont particulièrement utiles lorsque vous disposez déjà d’une quantité importante de données et que vous créez une simulation appropriée pour l’apprentissage de l’IA est impraticable ou coûteuse. Toutefois, pour être efficaces, les jeux de données MT doivent être uniformes, nettoyés, étiquetés et organisés. Pour travailler avec Bonsai, les jeux de données MT doivent également adhérer au schéma de données indiqué ci-dessous.

Vue d’ensemble du schéma

Le jeu de données doit contenir des informations pour au moins un épisode avec une itération par ligne. Les itérations au sein d’un épisode doivent être répertoriées dans l’ordre chronologique. Bonsai ne trie pas les jeux de données lors de l’importation.

Colonne de données Obligatoire Type pris en charge Description
config.FIELD OUI int Démarrage des valeurs de configuration pour l’épisode
state.FIELD OUI int Valeurs d’état de simulation pour l’itération
action.FIELD OUI int Action passée à la simulation pour l’itération
episode Non int, string ID unique pour l’épisode
iteration Non int, string ID unique dans l’épisode pour l’itération
state.terminal Non int, bool Indique si la ligne est un état terminal
state.reward Non int Indique la valeur de récompense de l’itération

Important

La limite entre les épisodes doit être notée de l’une des façons suivantes :

  • Explicitement avec une episode colonne
  • Implicitement avec une state.terminal colonne Individuellement, les deux sont facultatifs, mais au moins un d’entre eux doit être fourni.

Colonnes requises

Chaque ligne doit inclure une colonne par champ dans chacun d’euxSimConfigSimState, et SimAction avec le format suivant : type_keyword.FLATTENED_FIELD_NAME

Type Inkling Type de mot clé Description
SimConfig config Démarrage des valeurs de configuration pour l’épisode
SimState state Valeurs d’état de simulation pour l’itération
SimAction action Action passée à la simulation pour l’itération

Par exemple, étant donné les types d’état et d’action suivants dans Inkling, les colonnes de données correspondantes sont les suivantes :

Inkling Colonnes de données
type SimConfig {
  InitialX: number,
  InitialY: number[2],
  InitialZ: {
    W: number
  }
}
Config. InitialX Config. InitialY[0] Config. InitialY[1] Config. InitialZ.W
0.2349 0.3418 0.1336 0.3940
0.4119 1.9685 9.6974 0.7705
0.2216 0.8252 1.1027 0.3089
0.1416 1.0085 1.5780 0.2878
type SimState {
  X: number,
  Y: number[2],
  Z: {
    W: number
  }
}
État. X État. Y[0] État. Y[1] État. Z.W
0.0102 0.0001 -0.0116 0.0114
0.1783 1.4582 9.9742 0.7264
0.7123 0.4934 1.8133 0.6394
0.4119 1.9685 -1.3089 0.5780
type SimAction {
  A: number,
  B: {
    C: number[2],
    D: number
  }
}
Action. Un Action. B.C[0] Action. B.C[1] Action. B.D
1 -5 1.5136 0.3333
7 3 1.4668 3.7353
3 6 0.6472 6.9262
2 0 5.9677 6.5553
9 1 4.2518 7.2479

Colonnes facultatives

Les lignes de jeu de données peuvent inclure des colonnes supplémentaires pour faciliter Bonsai l’apprentissage ia.

episode

ID unique pour l’épisode. Les ID d’épisode sont attribués par vous pendant l’assainissement et la curation des données.

iteration

ID unique pour l’itération. Les ID d’itération doivent être uniques dans un épisode donné, mais peuvent être répétés entre les épisodes.

Exemple 1 Exemple 2
episode iteration
1 1
1 2
2 1
2 2
state.terminal iteration
0 1
1 2
0 1
1 2

Les ID d’itération sont attribués par vous pendant l’assainissement et la curation des données.

state.reward

Les valeurs de récompense sont des scores numériques qui indiquent la réussite de l’action effectuée dans cette itération. Les valeurs de récompense sont généralement calculées et affectées à une itération pendant l’assainissement et la curation des données.

state.terminal

Indique si la ligne est un état terminal. La state.terminal colonne marque implicitement les limites entre les épisodes.

  • 0, falseou False indique que l’itération n’est pas terminale.
  • 1, trueou True indique que l’itération est terminale.

Exemple de jeu de données

Si vous n’avez pas de jeu de données propre, vous pouvez télécharger un exemple de fichier de jeu de données CSV pour l’exemple de cerveau Moab à suivre.

Étape 1 : Provisionner un espace de travail AML

  1. Connectez-vous au portail Azure.
  2. Créez un groupe de ressources appelé Bonsai-Datasets à l’emplacement (US) West US 2 .
  3. Créez un espace de travail Machine Learning sous votre nouveau groupe de ressources.

Étape 2 : Charger vos données dans AML

  1. Ouvrez votre ressource AML dans le Portail Azure.
  2. Cliquez sur Launch Studio pour ouvrir votre espace de travail Machine Learning.
  3. Cliquez sur + Nouveau.
  4. Sélectionnez « Jeu de données » dans la liste des options.
  5. Cliquez sur + Créer un jeu de données.
  6. Sélectionnez votre source de données dans les options disponibles. et
  7. Suivez les invites pour créer un jeu de données tabulaire .

Une fois votre jeu de données prêt, vous pouvez consulter les informations dans AML Studio pour vérifier que l’importation a réussi.

Étapes suivantes

Ajouter vos données d’entraînement à votre Bonsai espace de travail