Qu’est-ce que le processus Team Data Science Process ?

Azure Machine Learning

Le processus TDSP est une méthodologie de science des données agile et itérative que vouez pouvez utiliser afin de fournir des solutions d’analyse prédictive et des applications d'IA avec efficacité. Le TDSP aide à améliorer la collaboration et l’apprentissage en équipe en suggérant une façon dont les rôles d’équipe fonctionnent le mieux ensemble. Le TDSP comprend des bonnes pratiques et structures de Microsoft et d'autres leaders de l'industrie pour aider votre équipe à mettre en œuvre des initiatives de science des données et à réaliser pleinement les avantages de votre programme d'analyse.

Cet article fournit une vue d’ensemble du processus TDSP et de ses principaux éléments. Il présente des conseils sur la façon d’implémenter le TDSP à l’aide des outils et de l’infrastructure Microsoft. Vous trouverez des ressources plus détaillées dans l’article.

Composants clés du processus TDSP

Le TDSP présente les composants clés suivants :

une définition du cycle de vie de la science des données ;
une structure de projet normalisée ;
Infrastructure et ressources recommandées pour les projets de science des données
Outils et utilitaires recommandés pour l’exécution du projet

Cycle de vie de la science des données

Le TDSP propose un cycle de vie que vous pouvez utiliser pour structurer le développement de vos projets de science des données. Le cycle de vie décrit l’ensemble des étapes que suivent les projets réussis.

Vous pouvez combiner le processus TDSP basé sur des tâches avec d'autres cycles de vie des sciences des données, tels que le processus CRISP-DM (Cross Industry Standard Process for Data Mining), la découverte KDD (Knowledge Discovery in Databases) ou un autre processus personnalisé. À haut niveau, ces méthodologies ont beaucoup en commun.

Vous devez utiliser ce cycle de vie si vous avez un projet de science des données qui fait partie d’une application intelligente. Les applications intelligentes déploient des modèles de Machine Learning ou d’intelligence artificielle pour l’analytique prédictive. Vous pouvez également utiliser ce processus pour les projets de science des données exploratoires et les projets d’analytique improvisée.

Le cycle de vie du processus TDSP se compose de cinq phases majeures que votre équipe exécute de manière itérative. Ces étapes sont les suivantes :

Voici une représentation visuelle du cycle de vie TDSP :

Pour plus d’informations sur les objectifs, les tâches et les artefacts de documentation pour chaque étape, consultez Cycle de vie du processus TDSP.

Ces tâches et artefacts sont associés à des rôles de projet tels que les suivants :

Architecte de solution
Responsable de projet.
Ingénieur de données
Scientifique des données.
Développeur d’applications
Coordinateur de projet

Le diagramme suivant présente les tâches (en bleu) et les artefacts (en vert) associés à chaque étape du cycle de vie (sur l’axe horizontal) pour ces rôles (sur l’axe vertical).

Structure de projet normalisée

Votre équipe peut utiliser l’infrastructure Azure pour organiser vos ressources de science des données.

Azure Machine Learning prend en charge la plateforme open source MLflow. Nous vous recommandons d’utiliser MLflow pour la gestion des projets d'IA et de science des données. MLflow est conçu pour gérer le cycle de vie complet du Machine Learning. Il forme et sert des modèles sur différentes plateformes, ce qui vous permet d'utiliser un ensemble cohérent d'outils, quel que soit l'endroit où se déroulent vos expériences. Vous pouvez utiliser MLflow localement sur votre ordinateur, sur une cible de calcul distante, sur une machine virtuelle ou sur une instance de capacité de calcul Machine Learning.

MLflow se compose de plusieurs fonctionnalités clés :

Suivi des expériences : avec MLflow, vous pouvez suivre les expériences, y compris les paramètres, les versions de code, les métriques et les fichiers de sortie. Cette fonctionnalité vous permet de comparer différentes séries et de gérer efficacement le processus d'expérimentation.
Empaquetage du code : cette fonction propose un format standardisé pour l'empaquetage du code de Machine Learning, qui inclut les dépendances et les configurations. Cet empaquetage facilite la reproduction des séries et le partage de code avec d’autres utilisateurs.
Gestion des modèles : MLflow fournit des fonctionnalités pour la gestion des modèles et le contrôle de leur version. Il prend en charge différents frameworks de Machine Learning, ce qui vous permet de stocker des modèles, d'en contrôler les versions et de les mettre en service.
Mise en service et déploiement des modèles : MLflow intègre des fonctionnalités de mise en service et de déploiement des modèles, permettant de déployer facilement des modèles dans différents environnements.
Inscription des modèles : vous pouvez gérer le cycle de vie d’un modèle, notamment le contrôle de version, les transitions de phase et les annotations. MLflow est utile pour maintenir un magasin de modèles centralisé dans un environnement collaboratif.
API et interface utilisateur : dans Azure, MLflow est intégré à la version 2 de l'API Machine Learning, ce qui vous permet d'interagir avec le système de manière programmatique. Vous pouvez utiliser le portail Azure pour interagir avec une interface utilisateur.

MLflow vise à simplifier et à normaliser le processus de développement de Machine Learning, de l’expérimentation au déploiement.

Machine Learning s’intègre aux référentiels Git, ce qui vous permet d'utiliser des services compatibles avec Git, tels que GitHub, GitLab, Bitbucket, Azure DevOps, etc. En plus des ressources déjà suivies dans Machine Learning, votre équipe peut développer sa propre taxonomie au sein de son service compatible Git pour stocker d’autres informations de projet, telles que les suivantes :

Documentation
- Projet (par exemple, le rapport de projet final)
- Rapport de données (par exemple, le dictionnaire de données ou les rapports sur la qualité des données)
- Modèle (par exemple, des rapports de modèle)
Code
- Préparation des données
- Développement d’un modèle
- Opérationnalisation, y compris la sécurité et la conformité

Infrastructure et ressources

Le TDSP fournit des recommandations sur la gestion de l’infrastructure partagée d’analytique et de stockage, notamment :

Systèmes de fichiers cloud pour le stockage des jeux de données
Bases de données
Clusters Big Data (par exemple, SQL ou Spark)
Services Machine Learning

Vous pouvez placer l’infrastructure d’analyse et de stockage, dans laquelle sont stockées les jeux de données bruts et traités, dans le cloud ou en local. Cette infrastructure permet de reproduire les analyses. Elle évite également la duplication, susceptible de provoquer des incohérences et d’entraîner des coûts d’infrastructure inutiles. L'infrastructure fournit des outils pour configurer les ressources partagées, les suivre et permettre à chacun des membres de l’équipe de se connecter à ces ressources en toute sécurité. Il est également recommandé que les participants au projet créent un environnement de calcul homogène. Différents membres de l’équipe pourront alors répliquer et valider les expériences.

Voici l’exemple d’une équipe qui travaille sur plusieurs projets et partage différents composants de l’infrastructure d’analytique cloud :

Outils et utilitaires

Dans la plupart des organisations, il est difficile d’introduire des processus. L'infrastructure fournit des outils pour implémenter le TDSO et le cycle de vie, qui contribuent à réduire les obstacles pour améliorer l’uniformité de leur adoption.

Avec Machine Learning, les scientifiques des données peuvent appliquer des outils open source dans le cadre du pipeline ou du flux de travail de science des données. Dans la solution Machine Learning, Microsoft promeut des outils d’IA responsable qui permettent de se conformer à la norme de l’IA responsable de Microsoft.

Citations examinées par les pairs

Le TDSP est une méthodologie bien établie, utilisée dans le cadre des missions de Microsoft, et qui a donc été documentée et étudiée dans la littérature évaluée par les pairs. Ces citations permettent d'étudier les caractéristiques et les applications du TDSP. Consultez la page de vue d’ensemble du cycle de vie pour obtenir la liste des citations.

Rôles et tâches dans le TDSP

Qu’est-ce que le processus Team Data Science Process ?

Composants clés du processus TDSP

Cycle de vie de la science des données

Structure de projet normalisée

Infrastructure et ressources

Outils et utilitaires

Citations examinées par les pairs

Commentaires

Commentaires

Ressources supplémentaires

Qu’est-ce que le processus Team Data Science Process ?

Composants clés du processus TDSP

Cycle de vie de la science des données

Structure de projet normalisée

Infrastructure et ressources

Outils et utilitaires

Citations examinées par les pairs

Ressources associées

Commentaires

Commentaires

Ressources supplémentaires