Was ist der Team Data Science-Prozess (TDSP)?What is the Team Data Science Process?

Der Team Data Science-Prozess (TDSP) ist eine flexible, iterative Data Science-Methodik zur effizienten Bereitstellung von Predictive Analytics-Lösungen und intelligenten Anwendungen.The Team Data Science Process (TDSP) is an agile, iterative data science methodology to deliver predictive analytics solutions and intelligent applications efficiently. Der TDSP kann die Zusammenarbeit und das Lernen im Team verbessern, indem er Vorschläge zur optimalen Zusammenarbeit von Teamrollen macht.TDSP helps improve team collaboration and learning by suggesting how team roles work best together. Der TDSP umfasst Best Practices und Strukturen von Microsoft und anderen Branchenführern, die die erfolgreiche Implementierung von Data Science-Initiativen erleichtern.TDSP includes best practices and structures from Microsoft and other industry leaders to help toward successful implementation of data science initiatives. Ziel ist die Unterstützung von Unternehmen bei der umfassenden Nutzung ihrer Analyseprogramme.The goal is to help companies fully realize the benefits of their analytics program.

Dieser Artikel bietet eine Übersicht über den TDSP und seine Hauptkomponenten.This article provides an overview of TDSP and its main components. Hier finden Sie eine allgemeine Beschreibung des Prozesses, der mit verschiedenen Tools implementiert werden kann.We provide a generic description of the process here that can be implemented with different kinds of tools. Eine ausführlichere Beschreibung der Projektaufgaben und Rollen im Lebenszyklus des Prozesses erfolgt in weiteren verknüpften Themen.A more detailed description of the project tasks and roles involved in the lifecycle of the process is provided in additional linked topics. Zudem wird eine Anleitung zum Implementieren des TDSP mithilfe bestimmter Microsoft-Tools sowie die Infrastruktur, die wir zur Implementierung des TDSP in unseren Teams verwenden, bereitgestellt.Guidance on how to implement the TDSP using a specific set of Microsoft tools and infrastructure that we use to implement the TDSP in our teams is also provided.

Hauptkomponenten des TDSPKey components of the TDSP

TDSP umfasst die folgenden Hauptkomponenten:TDSP has the following key components:

  • Eine Definition des Data Science-LebenszyklusA data science lifecycle definition
  • Eine standardisierte ProjektstrukturA standardized project structure
  • Infrastruktur und Ressourcen, die für Data Science-Projekte empfohlen werdenInfrastructure and resources recommended for data science projects
  • Tools und Hilfsprogramme, die für die Projektausführung empfohlen werdenTools and utilities recommended for project execution

Data Science-LebenszyklusData science lifecycle

Der Team Data Science-Prozess (TDSP) umfasst einen Lebenszyklus zum Strukturieren der Entwicklung Ihrer Data Science-Projekte.The Team Data Science Process (TDSP) provides a lifecycle to structure the development of your data science projects. Der Lebenszyklus beschreibt sämtliche Schritte für erfolgreiche Projekte.The lifecycle outlines the full steps that successful projects follow.

Wenn Sie einen anderen Data Science-Lebenszyklus verwenden (beispielsweise CRISP-DM, KDD oder einen eigenen benutzerdefinierten Prozess Ihrer Organisation), können Sie den aufgabenbasierten TDSP auch im Kontext dieser Entwicklungslebenszyklen verwenden.If you are using another data science lifecycle, such as CRISP-DM, KDD, or your organization's own custom process, you can still use the task-based TDSP in the context of those development lifecycles. Auf allgemeiner Ebene haben diese verschiedenen Methodiken viel gemeinsam.At a high level, these different methodologies have much in common.

Dieser Lebenszyklus wurde für Data Science-Projekte entworfen, die im Lieferumfang von intelligenten Anwendungen enthalten sind.This lifecycle has been designed for data science projects that ship as part of intelligent applications. Mit diesen Anwendungen werden Modelle vom Typ „Machine Learning“ oder „Künstliche Intelligenz“ für Predictive Analytics bereitgestellt.These applications deploy machine learning or artificial intelligence models for predictive analytics. Explorative Data Science-Projekte oder improvisierte Analyseprojekte können von diesem Prozess ebenfalls profitieren.Exploratory data science projects or improvised analytics projects can also benefit from using this process. Aber in diesen Fällen sind einige der beschriebenen Schritte unter Umständen nicht erforderlich.But in such cases some of the steps described may not be needed.

Der Lebenszyklus beschreibt die wichtigsten Phasen, die Projekte typischerweise, oft iterativ, durchlaufen:The lifecycle outlines the major stages that projects typically execute, often iteratively:

  • Geschäftliche AspekteBusiness Understanding
  • Datenerfassung und -auswertungData Acquisition and Understanding
  • ModellierungModeling
  • BereitstellungDeployment

Hier ist der Team Data Science-Prozesslebenszyklus grafisch dargestellt.Here is a visual representation of the Team Data Science Process lifecycle.

TDSP-Lebenszyklus 2

Die Ziele, Aufgaben und Dokumentationsartefakte für die einzelnen Phasen des Lebenszyklus im TDSP werden im Thema Team Data Science-Prozesslebenszyklus beschrieben.The goals, tasks, and documentation artifacts for each stage of the lifecycle in TDSP are described in the Team Data Science Process lifecycle topic. Diese Aufgaben und Artefakte sind Projektrollen zugeordnet:These tasks and artifacts are associated with project roles:

  • LösungsarchitektSolution architect
  • ProjektmanagerProject manager
  • DatentechnikerData engineer
  • Data ScientistData scientist
  • AnwendungsentwicklerApplication developer
  • ProjektleiterProject lead

Im folgenden Diagramm ist eine Rasteransicht der Aufgaben (blau) und Artefakte (grün) dargestellt, die den einzelnen Phasen des Lebenszyklus (auf der horizontalen Achse) für diese Rollen (auf der vertikalen Achse) zugeordnet sind.The following diagram provides a grid view of the tasks (in blue) and artifacts (in green) associated with each stage of the lifecycle (on the horizontal axis) for these roles (on the vertical axis).

TDSP-roles-and-tasksTDSP-roles-and-tasks

Standardisierte ProjektstrukturStandardized project structure

Wenn in allen Projekten die Verzeichnisstruktur gleich ist und Vorlagen für Projektdokumente verwendet werden, können Teammitglieder Informationen zu ihren Projekten mühelos finden.Having all projects share a directory structure and use templates for project documents makes it easy for the team members to find information about their projects. Der gesamte Code und alle Dokumente werden im Hinblick auf die Zusammenarbeit im Team in einem Versionskontrollsystem, z.B. Git, TFS oder Subversion, gespeichert.All code and documents are stored in a version control system (VCS) like Git, TFS, or Subversion to enable team collaboration. Die Erfassung von Aufgaben und Features in einem flexiblen Projektnachverfolgungssystem wie Jira, Rally und Azure DevOps ermöglicht die detaillierte Nachverfolgung des Codes für einzelne Funktionen.Tracking tasks and features in an agile project tracking system like Jira, Rally, and Azure DevOps allows closer tracking of the code for individual features. Durch eine solche Nachverfolgung können Teams bessere Kostenschätzungen erreichen.Such tracking also enables teams to obtain better cost estimates. Der TDSP empfiehlt zur Versionsverwaltung, Informationssicherheit und Zusammenarbeit die Erstellung eines separaten Repositorys für jedes Projekt im Versionskontrollsystem.TDSP recommends creating a separate repository for each project on the VCS for versioning, information security, and collaboration. Die standardisierte Struktur für alle Projekte trägt zum Aufbau des institutionellen Wissens in der gesamten Organisation bei.The standardized structure for all projects helps build institutional knowledge across the organization.

Wir stellen Vorlagen für die Ordnerstruktur und erforderliche Dokumente in Standardspeicherorten bereit.We provide templates for the folder structure and required documents in standard locations. In dieser Ordnerstruktur werden die Dateien organisiert, die Code zur Datenuntersuchung und Featureextraktion enthalten und in denen Modelliterationen erfasst werden.This folder structure organizes the files that contain code for data exploration and feature extraction, and that record model iterations. Anhand dieser Vorlagen können Teammitglieder einfacher die Arbeit von anderen Mitgliedern nachvollziehen und neue Mitglieder zu Teams hinzufügen.These templates make it easier for team members to understand work done by others and to add new members to teams. Die Dokumentvorlagen im Markdown-Format lassen sich einfach anzeigen und aktualisieren.It is easy to view and update document templates in markdown format. Verwenden Sie Vorlagen zum Bereitstellen von Prüflisten mit den wichtigsten Fragen für jedes Projekt, um sicherzustellen, dass das Problem klar definiert ist und die Ergebnisse den erwarteten Qualitätsanforderungen entsprechen.Use templates to provide checklists with key questions for each project to insure that the problem is well defined and that deliverables meet the quality expected. Beispiele:Examples include:

  • Projektauftrag zum Dokumentieren des Geschäftsproblems und des Projektumfangsa project charter to document the business problem and scope of the project
  • Datenberichte zum Dokumentieren der Struktur und Statistik der Rohdatendata reports to document the structure and statistics of the raw data
  • Modellberichte zum Dokumentieren der abgeleiteten Featuresmodel reports to document the derived features
  • Modellleistungsmetriken, z.B. ROC-Kurven oder MSEmodel performance metrics such as ROC curves or MSE

TDSP-directoriesTDSP-directories

Die Verzeichnisstruktur kann vonGitHub geklont werden.The directory structure can be cloned from GitHub.

Infrastruktur und Ressourcen für Data Science-ProjekteInfrastructure and resources for data science projects

Der TDSP umfasst Empfehlungen zum Verwalten der freigegebenen Analyse- und Speicherinfrastruktur, beispielsweise:TDSP provides recommendations for managing shared analytics and storage infrastructure such as:

  • Clouddateisysteme zum Speichern von Datasetscloud file systems for storing datasets
  • databasesdatabases
  • Big Data-Cluster (SQL oder Spark)big data (SQL or Spark) clusters
  • Machine Learning-Dienstmachine learning service

Die Analyse- und Speicherinfrastruktur, in der unverarbeitete und verarbeitete Datasets gespeichert werden, kann sich in der Cloud oder in der lokalen Umgebung befinden.The analytics and storage infrastructure, where raw and processed datasets are stored, may be in the cloud or on-premises. Diese Infrastruktur ermöglicht reproduzierbare Analysen.This infrastructure enables reproducible analysis. Sie verhindert außerdem die Duplizierung, die zu Inkonsistenzen und unnötigen Infrastrukturkosten führen kann.It also avoids duplication, which may lead to inconsistencies and unnecessary infrastructure costs. Tools werden bereitgestellt, um freigegebene Ressourcen bereitzustellen und nachzuverfolgen sowie jedem Teammitglied zu ermöglichen, eine sichere Verbindung mit diesen Ressourcen herzustellen.Tools are provided to provision the shared resources, track them, and allow each team member to connect to those resources securely. Es empfiehlt sich außerdem, dass Projektmitglieder eine einheitliche Computeumgebung erstellen.It is also a good practice to have project members create a consistent compute environment. Verschiedene Teammitglieder können dann Experimente replizieren und überprüfen.Different team members can then replicate and validate experiments.

Es folgt ein Beispiel für ein Team, das an mehreren Projekten arbeitet und verschiedene freigegebene Analyseinfrastrukturkomponenten in der Cloud nutzt.Here is an example of a team working on multiple projects and sharing various cloud analytics infrastructure components.

TDSP-infrastructureTDSP-infrastructure

Tools und Hilfsprogramme für die ProjektausführungTools and utilities for project execution

Die Einführung von Prozessen stellt in den meisten Organisationen eine große Herausforderung dar.Introducing processes in most organizations is challenging. Durch bereitgestellte Tools zur Implementierung des Data Science-Prozesses und Data Science-Lebenszyklus lassen sich die Hürden reduzieren und die Konsistenz der Einführung erhöhen.Tools provided to implement the data science process and lifecycle help lower the barriers to and increase the consistency of their adoption. Der TDSP umfasst ein anfängliches Set von Tools und Skripts für den Schnelleinstieg in die Einführung des TDSP in einem Team.TDSP provides an initial set of tools and scripts to jump-start adoption of TDSP within a team. Darüber hinaus können einige der allgemeinen Aufgaben im Data Science-Lebenszyklus, z.B. die Datenuntersuchung und Basismodellierung, automatisiert werden.It also helps automate some of the common tasks in the data science lifecycle such as data exploration and baseline modeling. Es ist eine klar definierte Struktur für Einzelpersonen festgelegt, die freigegebene Tools und Hilfsprogramme im freigegebenen Coderepository ihres Teams hinzufügen.There is a well-defined structure provided for individuals to contribute shared tools and utilities into their team's shared code repository. Diese Ressourcen können dann in anderen Projekten des Teams oder der Organisation genutzt werden.These resources can then be leveraged by other projects within the team or the organization. Der TDSP plant zudem, die Bereitstellung von Tools und Hilfsprogrammen für die gesamte Community zu ermöglichen.TDSP also plans to enable the contributions of tools and utilities to the whole community. Die TDSP-Hilfsprogramme können von GitHub geklont werden.The TDSP utilities may be cloned from GitHub.

Nächste SchritteNext steps

Team Data Science-Prozess: Rollen und Aufgaben: Beschreibung der wichtigsten Mitarbeiterrollen und der zugeordneten Aufgaben für ein Data Science-Team, das eine Standardisierung entsprechend diesem Prozess durchführt.Team Data Science Process: Roles and tasks Outlines the key personnel roles and their associated tasks for a data science team that standardizes on this process.