Tutoriel : Créer un jeu de données Machine Teaching (MT)
Suivez ce tutoriel pour savoir comment :
- Lorsque vous utilisez un jeu de données, il est judicieux.
- Comment structurer vos données pour Machine Teaching avec Bonsai.
- Guide pratique pour préparer vos données MT à utiliser avec Bonsai.
Pour suivre ce tutoriel, vous devez disposer d’un compte Microsoft ou Azure et d’un Bonsai espace de travail provisionné dans Azure. Si vous avez besoin d’un compte ou d’une version d’évaluation Azure, suivez les instructions de configuration du compte Microsoft pour Bonsai avant de continuer.
Important
Pour suivre ce didacticiel, vous devez disposer d’un espace de travail Azure Machine Learning existant ou d’une autorisation pour créer et gérer des ressources dans Portail Azure.
Bonsaiprend en charge l’importation de jeux de données à partir de jeux de données Azure Machine Learning (AML). Nous vous recommandons de charger vos données en tant que fichier CSV désinfecté, car il est actuellement le moyen le plus simple d’ajouter des données à AML, mais tout format pris en charge par l’importation AML fonctionnera.
Qu’est-ce qu’un jeu de données Machine Teaching ?
Un jeu de données Machine Teaching (MT) est une collection de éléments de données qu’un ordinateur peut traiter comme une seule unité pendant l’analyse. À l’intention de Machine Teaching, votre jeu de données représente une collection d’épisodes d’entraînement où chaque épisode a plusieurs itérations d’entraînement.
Les jeux de données sont particulièrement utiles lorsque vous disposez déjà d’une quantité importante de données et que vous créez une simulation appropriée pour l’apprentissage de l’IA est impraticable ou coûteuse. Toutefois, pour être efficaces, les jeux de données MT doivent être uniformes, nettoyés, étiquetés et organisés. Pour travailler avec Bonsai, les jeux de données MT doivent également adhérer au schéma de données indiqué ci-dessous.
Vue d’ensemble du schéma
Le jeu de données doit contenir des informations pour au moins un épisode avec une itération par ligne. Les itérations au sein d’un épisode doivent être répertoriées dans l’ordre chronologique. Bonsai ne trie pas les jeux de données lors de l’importation.
Colonne de données | Obligatoire | Type pris en charge | Description |
---|---|---|---|
config.FIELD |
OUI | int | Démarrage des valeurs de configuration pour l’épisode |
state.FIELD |
OUI | int | Valeurs d’état de simulation pour l’itération |
action.FIELD |
OUI | int | Action passée à la simulation pour l’itération |
episode |
Non | int, string | ID unique pour l’épisode |
iteration |
Non | int, string | ID unique dans l’épisode pour l’itération |
state.terminal |
Non | int, bool | Indique si la ligne est un état terminal |
state.reward |
Non | int | Indique la valeur de récompense de l’itération |
Important
La limite entre les épisodes doit être notée de l’une des façons suivantes :
- Explicitement avec une
episode
colonne - Implicitement avec une
state.terminal
colonne Individuellement, les deux sont facultatifs, mais au moins un d’entre eux doit être fourni.
Colonnes requises
Chaque ligne doit inclure une colonne par champ dans chacun d’euxSimConfig
SimState
, et SimAction
avec le format suivant : type_keyword.FLATTENED_FIELD_NAME
Type Inkling | Type de mot clé | Description |
---|---|---|
SimConfig |
config |
Démarrage des valeurs de configuration pour l’épisode |
SimState |
state |
Valeurs d’état de simulation pour l’itération |
SimAction |
action |
Action passée à la simulation pour l’itération |
Par exemple, étant donné les types d’état et d’action suivants dans Inkling, les colonnes de données correspondantes sont les suivantes :
Inkling | Colonnes de données | ||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
| ||||||||||||||||||||||||
|
| ||||||||||||||||||||||||
|
|
Colonnes facultatives
Les lignes de jeu de données peuvent inclure des colonnes supplémentaires pour faciliter Bonsai l’apprentissage ia.
episode
ID unique pour l’épisode. Les ID d’épisode sont attribués par vous pendant l’assainissement et la curation des données.
iteration
ID unique pour l’itération. Les ID d’itération doivent être uniques dans un épisode donné, mais peuvent être répétés entre les épisodes.
Exemple 1 | Exemple 2 | ||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
|
|
Les ID d’itération sont attribués par vous pendant l’assainissement et la curation des données.
state.reward
Les valeurs de récompense sont des scores numériques qui indiquent la réussite de l’action effectuée dans cette itération. Les valeurs de récompense sont généralement calculées et affectées à une itération pendant l’assainissement et la curation des données.
state.terminal
Indique si la ligne est un état terminal. La state.terminal
colonne marque implicitement les limites entre les épisodes.
0
,false
ouFalse
indique que l’itération n’est pas terminale.1
,true
ouTrue
indique que l’itération est terminale.
Exemple de jeu de données
Si vous n’avez pas de jeu de données propre, vous pouvez télécharger un exemple de fichier de jeu de données CSV pour l’exemple de cerveau Moab à suivre.
Étape 1 : Provisionner un espace de travail AML
- Connectez-vous au portail Azure.
- Créez un groupe de ressources appelé
Bonsai-Datasets
à l’emplacement(US) West US 2
. - Créez un espace de travail Machine Learning sous votre nouveau groupe de ressources.
Étape 2 : Charger vos données dans AML
- Ouvrez votre ressource AML dans le Portail Azure.
- Cliquez sur Launch Studio pour ouvrir votre espace de travail Machine Learning.
- Cliquez sur + Nouveau.
- Sélectionnez « Jeu de données » dans la liste des options.
- Cliquez sur + Créer un jeu de données.
- Sélectionnez votre source de données dans les options disponibles. et
- Suivez les invites pour créer un jeu de données tabulaire .
Une fois votre jeu de données prêt, vous pouvez consulter les informations dans AML Studio pour vérifier que l’importation a réussi.
Étapes suivantes
Ajouter vos données d’entraînement à votre Bonsai espace de travail