Phase de présentation de l’entreprise du cycle de vie Team Data Science Process

Cet article présente les objectifs, tâches et livrables associés à la phase de présentation de l’entreprise du processus TDSP. Ce processus indique un cycle de vie recommandé que votre équipe peut utiliser pour structurer vos projets de science des données. Le cycle de vie décrit les principales étapes que votre équipe effectue, souvent par itération :

  • Présentation de l’entreprise
  • Acquisition et compréhension des données
  • Modélisation
  • Déploiement
  • Acceptation du client

Voici une représentation visuelle du cycle de vie TDSP :

Diagram that shows the stages of the TDSP lifecycle.

Objectifs

Les objectifs de la phase de présentation de l’entreprise sont les suivants :

  • Indiquer les variables clés qui font office d’objectifs pour votre modèle. Indiquer les métriques des objectifs, qui déterminent la réussite du projet.

  • Identifier les sources de données pertinentes auxquelles l’entreprise a ou doit avoir accès.

Mener à bien les tâches

La phase de présentation de l’entreprise comporte deux tâches principales :

  • Définir les objectifs : collaborez avec votre client et d’autres parties prenantes pour comprendre et identifier les problèmes métier. Formulez des questions qui définissent les objectifs commerciaux que les techniques de science des données peuvent cibler.

  • Identifier les sources de données : recherchez les données pertinentes qui vous aident à répondre aux questions définissant les objectifs du projet.

Définir les objectifs

  1. Un objectif central de cette étape consiste à identifier les variables d’activité clés que l’analyse doit prédire. Ces variables sont appelées cibles du modèle et les mesures qui leur sont associées sont utilisées pour déterminer la réussite du projet. Il peut s’agir, par exemple, de prévisions de ventes ou de la probabilité qu’une commande soit frauduleuse.

  2. Pour définir les objectifs du projet, posez des questions précises, pertinentes, spécifiques et claires, puis affinez-les. La science des données est un processus utilisant des noms et des nombres pour répondre à ces questions. En règle générale, vous utilisez la science des données ou l’apprentissage automatique pour répondre à cinq types de question :

    • Quelle quantité (ou combien) ? (régression)
    • Quelle catégorie ? (classification)
    • Quel groupe ? (clustering)
    • Est-ce inhabituel ? (détection des anomalies)
    • Quelle est l’option appropriée ? (recommandation)

    Parmi les questions indiquées ci-dessus, déterminez celle que vous posez et comment le fait d’y répondre vous aide à atteindre vos objectifs professionnels.

  3. Pour définir l’équipe de projet, spécifiez les rôles et responsabilités de ses membres. Développez un plan à étapes général auquel vous vous référez à mesure que vous découvrez de nouvelles informations.

  4. Vous devez définir les mesures de réussite. Par exemple, vous pouvez établir une prédiction d’attrition du client avec un taux d’exactitude de x pour cent à la fin d’un projet de trois mois. Avec ces données, vous pouvez proposer des promotions client pour réduire la désinscription des clients. Les mesures doivent satisfaire à l’acronyme SMART :

    • Spécifiques
    • Mesurables
    • Atteignables
    • Relevant (pertinentes)
    • Time-bound (associées à un délai)

Identifier les sources de données

Identifiez les sources de données qui contiennent des exemples connus de réponses à vos questions. Recherchez les données suivantes :

  • Données pertinentes pour la question. Disposez-vous de mesures de la cible et de caractéristiques qui sont associées à la cible ?
  • Données qui constituent une mesure exacte de votre cible de modèle et des caractéristiques dignes d’intérêt.

Par exemple, un système existant n’a peut-être pas les données dont il a besoin pour résoudre un problème et atteindre un objectif de projet. Dans cette situation, vous pouvez rechercher des sources de données externes ou mettre à jour vos systèmes pour collecter des données récentes.

Intégrer à MLflow

Pour l’étape de présentation de l’entreprise, votre équipe n’utilise pas d’outils MLflow. Toutefois, elle peut indirectement bénéficier de fonctionnalités de documentation et de suivi des expériences de MLflow. Ces fonctionnalités peuvent vous donner un aperçu et un contexte historique pour que le projet soit en phase avec les objectifs métier.

Artifacts

Au cours de cette phase, votre équipe livre :

  • Une charte. La charte est un document interactif. Vous mettez à jour le document dans le projet à mesure que vous effectuez de nouvelles détections et lorsque les besoins métier changent. La clé consiste à effectuer les itérations sur ce document. Ajoutez plus de détails à mesure que vous avancez dans le processus de découverte. Informez le client et les parties prenantes des modifications et des motifs de ces modifications.

  • Sources de données. Vous pouvez utiliser Azure Machine Learning pour la gestion des sources de données. Nous recommandons ce service Azure pour les projets actifs et particulièrement volumineux, car il s’intègre à MLflow.

  • Dictionnaires de données. Ce document contient des descriptions des données fournies par le client. Ces descriptions incluent des informations sur le schéma (types de données et informations sur les règles de validation, le cas échéant) et les diagrammes entité-relation s’ils sont disponibles. Votre équipe doit consigner ces informations en tout ou en partie.

Documentation examinée par les pairs

Les chercheurs publient des études sur le TDSP dans la documentation examinée par les pairs. Les citations constituent une occasion d’examiner d’autres applications ou de creuser des idées semblables au TDSP, notamment à la phase du cycle de vie de compréhension de l’entreprise.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Les articles suivants décrivent les autres étapes du cycle de vie TDSP :