Phase de modélisation du cycle de vie du processus TDSP (Team Data Science Process)

Article
03/04/2024

Cet article présente les objectifs, tâches et livrables associés à la phase de modélisation du processus TDSP. Ce processus indique un cycle de vie recommandé que votre équipe peut utiliser pour structurer vos projets de science des données. Le cycle de vie décrit les principales étapes que votre équipe effectue, souvent par itération :

Présentation de l’entreprise
Acquisition et compréhension des données
Modélisation
Déploiement
Acceptation du client

Voici une représentation visuelle du cycle de vie TDSP :

Objectifs

Les objectifs de la phase de modélisation sont les suivants :

Déterminer les caractéristiques de données optimales pour le modèle de Machine Learning.
Créer un modèle de Machine Learning informatif qui prédit la cible avec le plus de précision.
Créer un modèle de Machine Learning adapté à la production.

Mener à bien les tâches

La phase de modélisation comporte trois tâches principales :

Ingénierie des caractéristiques : Créez des caractéristiques de données à partir des données brutes pour faciliter l’apprentissage du modèle.
Apprentissage du modèle : Recherchez le modèle qui répond le plus précisément à la question en comparant les mesures de réussite des modèles.
Évaluation du modèle : Déterminez si votre modèle est approprié pour la production.

Ingénierie des caractéristiques

L’ingénierie des caractéristiques implique l’inclusion, l’agrégation et la transformation des variables brutes pour créer les caractéristiques utilisées dans l’analyse. Si vous souhaitez obtenir des informations sur la façon dont un modèle est généré, vous devez en étudier les fonctionnalités sous-jacentes.

Cette étape nécessite une combinaison inédite d’expertise dans le secteur et d’informations obtenues à partir de l’étape d’exploration de données. L’ingénierie des caractéristiques consiste à trouver un équilibre entre la recherche et l’inclusion des variables informatives tout en essayant d’éviter un nombre trop élevé de variables non liées. Les variables informatives améliorent vos résultats, alors que les variables non liées introduisent des bruits superflus dans le modèle. Vous devez également générer ces caractéristiques pour toutes les nouvelles données obtenues au cours de l’évaluation. La génération de ces caractéristiques ne peut donc dépendre que des données qui sont disponibles au moment de l’évaluation.

Apprentissage du modèle

Selon le type de question auquel vous essayez de réponse, vous pouvez utiliser de nombreux algorithmes de modélisation. Pour obtenir des conseils sur le choix d’un algorithme prédéfini, consultez Aide-mémoire sur l’algorithme Machine Learning pour le concepteur Azure Machine Learning. D’autres algorithmes sont disponibles via des packages open source dans R ou Python. Bien que cet article se concentre sur Azure Machine Learning, l’aide qu’il fournit est utile pour de nombreux projets Machine Learning.

Le processus d’apprentissage du modèle comprend les étapes suivantes :

Fractionner les données d’entrée de manière aléatoire en vue d’une modélisation dans un jeu de données d’apprentissage et un jeu de données de test.
Créer les modèles à l’aide du jeu de données d’apprentissage.
Évaluer l’apprentissage et le jeu de données de test. Utilisez une série d’algorithmes Machine Learning concurrents. Utilisez divers paramètres associés (balayage de paramètres), destinés à répondre à la question posée avec les données actuelles.
Déterminer la solution optimale pour répondre à la question en comparant les mesures de réussite entre différentes méthodes.

Pour plus d’informations, consultez Entraîner des modèles avec Machine Learning.

Remarque

Éviter la fuite : Une fuite de données peut avoir lieu si vous incluez des données extérieures au jeu de données d’apprentissage, qui permet à un modèle ou à un algorithme de Machine Learning d’effectuer des prédictions anormalement correctes. La nervosité qui gagne les scientifiques de données quand ils obtiennent des résultats prédictifs semblant trop beaux pour être vrais est souvent liée à une fuite. Ces dépendances peuvent être difficiles à détecter. Pour éviter toute fuite, il est souvent nécessaire de jongler entre la création d’un jeu de données d’analyse, la création d’un modèle et l’évaluation de la précision des résultats.

Évaluation du modèle

Après avoir entraîné le modèle, un scientifique des données de votre équipe se concentre sur l’évaluation du modèle.

Prendre une décision : Déterminez si le modèle est suffisamment performant pour la production. Voici certaines questions clés que vous devez vous poser :
- Le modèle répond-il à la question avec une fiabilité suffisante compte tenu des données de test ?
- Devez-vous essayer d’appliquer d’autres approches ?
- Devez-vous collecter des données supplémentaires, poursuivre l’ingénierie des caractéristiques ou faire des essais avec d’autres algorithmes ?
Interpréter le modèle : Utilisez le Kit de développement logiciel (SDK) Python Machine Learning pour effectuer les tâches suivantes :
- Expliquer la totalité du comportement du modèle ou des prédictions individuelles sur votre ordinateur personnel localement
- Activer les techniques d’interprétabilité pour les caractéristiques traitées
- Expliquer le comportement de la totalité du modèle et de prédictions individuelles dans Azure
- Téléchargez des explications sur l’historique des exécutions Machine Learning.
- Utilisez un tableau de bord de visualisation pour interagir avec les explications de votre modèle, à la fois dans un notebook Jupyter et dans l’espace de travail Machine Learning.
- Déployer un explicatif de scoring à côté de votre modèle pour observer les explications au cours de l’inférence
Évaluer l’impartialité : Utilisez le package Python open source Fairlearn avec Machine Learning pour effectuer les tâches suivantes :
- Évaluer l’impartialité des prédictions de votre modèle. Ce processus aide votre équipe à en savoir plus sur l’impartialité dans Machine Learning.
- Charger, répertorier et télécharger des informations d’évaluation de l’impartialité vers et depuis Machine Learning studio.
- Afficher le tableau de bord d’évaluation de l’impartialité dans Machine Learning studio pour interagir avec les informations sur l’impartialité de vos modèles.

Intégrer à MLflow

Machine Learning s’intègre à MLflow pour prendre en charge le cycle de vie de la modélisation. Il utilise le suivi de MLflow pour les expériences, le déploiement de projet, la gestion des modèles et le registre de modèles. Cette intégration garantit un flux de travail de Machine Learning transparent et efficace. Les fonctionnalités suivantes de Machine Learning aident à prendre en charge le cycle de vie de la modélisation :

Suivre des expériences : la fonctionnalité principale de MLflow est largement utilisée dans la phase de modélisation pour suivre les différentes expériences, les paramètres, les métriques et les artefacts.
Déployer des projets : l’empaquetage du code avec MLflow Projects garantit des exécutions cohérentes et un partage facile entre les membres de l’équipe, ce qui est essentiel pendant le développement de modèles itératifs.
Gérer des modèles : la gestion et le contrôle de version des modèles sont essentiels dans cette phase, car différents modèles sont générés, évalués et affinés.
Inscrire des modèles : le registre de modèles est utilisé pour le contrôle de version et la gestion des modèles tout au long de leur cycle de vie.

Documentation examinée par les pairs

Les chercheurs publient des études sur le TDSP dans la documentation examinée par les pairs. Les citations constituent une occasion d’examiner d’autres applications ou de creuser des idées semblables au TDSP, notamment à la phase du cycle de vie de la modélisation.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Mark Tabladillo | Architecte de solution cloud senior

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Les articles suivants décrivent les autres étapes du cycle de vie TDSP :

Phase de modélisation du cycle de vie du processus TDSP (Team Data Science Process)

Objectifs

Mener à bien les tâches

Ingénierie des caractéristiques

Apprentissage du modèle

Évaluation du modèle

Intégrer à MLflow

Documentation examinée par les pairs

Contributeurs

Commentaires

Commentaires

Ressources supplémentaires

Phase de modélisation du cycle de vie du processus TDSP (Team Data Science Process)

Objectifs

Mener à bien les tâches

Ingénierie des caractéristiques

Apprentissage du modèle

Évaluation du modèle

Intégrer à MLflow

Documentation examinée par les pairs

Contributeurs

Ressources associées

Commentaires

Commentaires

Ressources supplémentaires