Processus TDSP (Team Data Science Process) pour les scientifiques de données

Cet article donne des conseils pour des objectifs que vous définissez lorsque vous implémentez des solutions complètes de science des données avec les technologies Azure. Vous êtes guidé sur les points suivants :

  • Compréhension d’une charge de travail analytique
  • Utilisation du processus TDSP
  • Utilisation de Azure Machine Learning
  • Compréhension des bases du transfert et du stockage de données
  • Spécification de la documentation de source de données
  • Utilisation des outils pour le traitement analytique

Ces documents de formation sont liés au processus Team Data Science Process (TDSP), ainsi qu’aux kits de ressources et logiciels Microsoft et open source, qui sont utiles pour la conception, l’exécution et la remise de solutions de science des données.

Parcours de la leçon

Vous pouvez utiliser les éléments compris dans le tableau suivant pour guider votre propre apprentissage personnel. Lisez la colonne Description pour suivre le parcours, sélectionnez la Rubrique pour consulter les références d’études et vérifier vos compétences en utilisant la Vérification de la base de connaissances.

Objectif Rubrique Description Contrôle des connaissances
Comprendre les processus pour le développement de projets analytiques Une présentation du processus Team Data Science Process Nous commençons par couvrir une vue d’ensemble du TDSP. Ce processus vous guide le long de chaque étape d’un projet analytique. Lisez chacune de ces sections pour en savoir plus sur le processus et la façon de l’implémenter. Revoyez et téléchargez les artefacts de la structure de projet TDSP sur votre ordinateur local pour votre projet.
Développement agile Le TDSP fonctionne bien avec de nombreuses méthodologies de programmation différentes. Dans ce parcours d’apprentissage, nous utilisons Agile software development. Lisez les articles sur le développement agile et l’instauration d’une culture agile, qui traitent des principes fondamentaux de l’utilisation d’Agile. Il existe également d’autres références sur ce site vous permettant d’en savoir plus. Expliquez l’intégration continue et la diffusion en continu à un collègue.
DevOps pour la science des données Les Opérations de développement (DevOps) impliquent des personnes, des processus et des plateformes que vous pouvez utiliser pour gérer un projet et intégrer votre solution standard au sein de l’installation informatique d’une organisation. Cette intégration est essentielle pour l’adoption, la sûreté et la sécurité. Dans ce cours en ligne, vous en apprendrez plus sur les pratiques DevOps et sur certaines des options de chaîne d’outils que vous possédez. Préparer une présentation de 30 minutes à un public disposant de connaissances techniques sur la façon dont DevOps est essentiel pour les projets analytiques.
Comprendre les technologies pour le stockage et le traitement de données Services Microsoft d’analyse marketing et d’IA Dans ce parcours d’apprentissage, nous nous concentrons sur quelques technologies que vous pouvez utiliser pour créer une solution analytique, mais Microsoft en possède bien plus encore. Pour comprendre les options dont vous disposez, il est important d’examiner les plateformes et les fonctionnalités disponibles dans Microsoft Azure, dans Azure Stack et dans les options locales. Passez en revue cette ressource pour connaître les différents outils disponibles pour répondre aux questions analytiques. Téléchargez et examinez les supports de présentation à partir de cet atelier.
Installer et configurer vos environnements de formation, de développement et de production Microsoft Azure Maintenant, nous allons créer un compte dans Microsoft Azure pour l’entraînement, et pour découvrir comment créer des environnements de développement et de test. Ces ressources de formation gratuites vous aident à démarrer. Faites les parcours Débutant et Intermédiaire. Si vous n’avez pas de compte Azure, créez-en un. Connectez-vous au portail Azure et créez un groupe de ressources pour la formation.
L’interface de ligne de commande (CLI) Azure Il existe plusieurs façons de travailler avec Azure, à partir d’outils graphiques tels que Visual Studio Code et Visual Studio, d’interfaces Web tels que le portail Azure et à partir de lignes de commande telles que les fonctions et les commandes de Azure PowerShell. Dans cet article, nous abordons l’interface CLI, que vous pouvez utiliser localement sur votre station de travail, dans Windows et dans d’autres systèmes d’exploitation, ainsi que dans le portail Azure. Définissez votre abonnement par défaut avec Azure CLI.
Stockage Azure Vous avez besoin d’un emplacement pour stocker vos données. Dans cet article, vous découvrez les options de stockage de Azure, comment créer d’un compte de stockage, et comment copier ou déplacer des données vers le cloud. Lisez cette introduction pour en savoir plus. Créez un compte de stockage dans votre groupe de ressources d’apprentissage, créez un conteneur pour un objet Blob, puis chargez et téléchargez des données.
Microsoft Entra ID Microsoft Entra ID constitue la base de la sécurisation de votre application. Dans cet article, vous allez en savoir plus sur les comptes, les droits et les autorisations. Active Directory et la sécurité sont des sujets complexes, lisez cette ressource pour comprendre les notions de base. Ajoutez un utilisateur à Microsoft Entra ID. REMARQUE : Vous n’avez peut-être pas l’autorisation d’effectuer cette action si vous n’êtes pas l’administrateur de l’abonnement. Si c’est cas, passez en revue ce tutoriel pour en savoir plus.
Azure Data Science Virtual Machine pour PyTorch Vous pouvez installer les outils permettant de travailler avec la science des données localement sur plusieurs systèmes d’exploitation. Mais la Data Science Virtual Machine pour PyTorch contient tous les outils dont vous avez besoin et de nombreux exemples de projet à utiliser. Dans cet article, vous découvrez la Data Science Virtual Machine pour PyTorch et son utilisation grâce à des exemples. Cette ressource décrit la Data Science Virtual Machine pour PyTorch, la façon dont vous pouvez en créer une et quelques options pour le développement de code avec elle. Elle contient également tous les logiciels dont vous avez besoin pour terminer ce parcours d’apprentissage, donc assurez-vous de terminer le parcours de connaissance pour cette rubrique. Créez une Data Science Virtual Machine pour PyTorch et travaillez avec au moins un laboratoire.
Installer et comprendre les outils et technologies pour l’utilisation des solutions de science des données Utilisation de Git Pour suivre nos processus DevOps avec le TDSP, nous devons disposer d’un système de contrôle de version. Machine Learning utilise Git, un système de dépôt distribué open source et populaire. Dans cet article, vous découvrez comment installer, configurer et utiliser Git et un référentiel central, GitHub. Clonez ce projet GitHub pour la structure du projet de votre parcours d’apprentissage.
Visual Studio Code Visual Studio Code est une multiplateforme d’environnement de développement intégré (IDE) que vous pouvez utiliser avec plusieurs langages et outils Azure. Vous pouvez utiliser ce même environnement pour créer l’ensemble de votre solution. Regardez ces vidéos de présentation pour commencer. Installez Visual Studio Code et travaillez avec les fonctionnalités de Visual Studio Code dans l’interface de l’éditeur interactif.
Programmation avec Python Dans cette solution, nous utilisons Python, l’un des langages les plus populaires dans la science des données. Cet article décrit les principes fondamentaux de l’écriture de code analytique avec Python, et des ressources pour en savoir plus. Traversez les sections 1 à 9 de cette référence, puis vérifiez vos connaissances. Ajoutez une entité à une table Azure à l’aide de Python.
Utilisation de Jupyter Notebook Les blocs-notes constituent un moyen de présenter du texte et du code dans un même document. Le Machine Learning fonctionne avec des notebooks. Il est donc utile de comprendre comment utiliser ces derniers. Lisez ce didacticiel, puis faites un essai dans la section de contrôle des connaissances. Ouvrez la page Web Jupyter, puis sélectionnez « Welcome to Python.ipynb ». Parcourez les exemples décrits dans cette page.
Machine Learning La création de solutions d’analyse avancées implique l’utilisation de données avec le Machine Learning, qui forme également la base de l’utilisation de l’IA et le Deep Learning. Ce cours vous en apprend plus sur le Machine Learning. Pour un cours complet sur la science des données, consultez cette certification. Recherchez une ressource sur les algorithmes de Machine Learning. (Conseil : recherchez « Aide-mémoire d’algorithme Machine Learning »)
scikit-learn L’ensemble d’outils scikit-learn vous permet d’effectuer des tâches relatives à la science des données dans Python. Nous utilisons cette infrastructure dans notre solution. Cet article aborde les concepts de base et explique où vous pouvez en apprendre plus. À l’aide du jeu de données Iris, conservez un modèle SVM à l’aide de Pickle.
Utilisation de Docker Docker est une plateforme distribuée permettant de générer, de livrer et d’exécuter des applications. Elle est fréquemment utilisée pour le Machine Learning. Cet article aborde les concepts de base de cette technologie et explique où vous pouvez en apprendre plus. Ouvrez Visual Studio Code, et installez l’extension Docker. Créez un simple conteneur de nœud Docker.
Azure HDInsight HDInsight est une infrastructure open source de Hadoop, disponible en tant que service dans Azure. Vos algorithmes de Machine Learning peuvent impliquer des jeux de données volumineux. Vous pouvez utiliser HDInsight pour stocker, transférer et traiter les données à grande échelle. Cet article décrit l’utilisation de HDInsight. Créez un petit cluster HDInsight. Utilisez les instructions HiveQL pour la projection de colonnes dans un fichier /example/data/sample.log. Vous pouvez également effectuer cette vérification de la base de connaissances sur votre système local.
Créer un flux de traitement des données à partir des exigences de l’entreprise Détermination de la question, suivant le TDSP Avec l’environnement de développement installé et configuré, et une bonne compréhension des technologies et des processus en place, il est temps de mettre tous les éléments ensemble en utilisant le TDSP pour effectuer une analyse. Nous devons commencer par définir la question, sélectionner les sources de données et le reste des étapes dans le processus TDSP. Gardez à l’esprit le processus DevOps pendant que nous travaillons sur ce processus. Dans cet article, vous allez apprendre à prendre les exigences de votre organisation et créer un mappage de flux de données via votre application pour définir votre solution à l’aide du processus TDSP. Recherchez une ressource sur « Les 5 questions de la science des données » et décrivez une question que votre organisation peut avoir dans ces domaines. Sur quels algorithmes devriez-vous vous concentrer pour cette question ?
Utiliser le Machine Learning pour créer une solution prédictive Machine Learning Le Machine Learning utilise l’intelligence artificielle pour le data wrangling et l’ingénierie des caractéristiques, gère les expériences et effectue le suivi des exécutions de modèles. Il utilise un environnement unique, et la plupart des fonctions peuvent s’exécuter localement ou dans Azure. Vous pouvez utiliser un framework PyTorch, le framework TensorFlow ou d’autres frameworks pour réaliser vos expériences. Dans cet article, nous nous concentrons sur un exemple complet de ce processus, en utilisant tout ce dont vous avez appris jusqu’à présent.
Utiliser Power BI pour visualiser les résultats Power BI Power BI est un outil de visualisation des données. Il est disponible sur plusieurs plateformes : version Web, appareils mobiles, ordinateurs de bureau… Dans cet article, vous découvrez comment utiliser le résultat de la solution que vous avez créée en accédant aux résultats dans le stockage Azure et en créant des visualisations avec Power BI. Effectuez le didacticiel sur Power BI. Connectez ensuite Power BI au CSV blob créé dans une exécution d’essai.
Superviser votre solution Application Insights Il existe plusieurs outils utilisables pour surveiller votre solution finale. Application Insights simplifie l’inclusion de la surveillance intégrée dans votre solution. Configurez Application Insights pour surveiller une application.
Journaux Azure Monitor Une autre méthode pour analyser votre application consiste à l’intégrer dans votre processus DevOps. Les journaux Azure Monitor offrent un large ensemble de fonctionnalités pour vous aider à surveiller vos solutions analytiques après leur déploiement. Effectuez ce tutoriel sur l’utilisation des journaux Azure Monitor.
Terminer ce parcours d’apprentissage Félicitations ! Vous avez terminé ce parcours d’apprentissage.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes

Poursuivez votre parcours IA dans le centre d’apprentissage dédié à l’IA.