Team Data Science Process の役割とタスク

Team Data Science Process (TDSP) は、構造化された手法で予測分析ソリューションと高度なアプリケーションを効率的に構築する Microsoft 開発のフレームワークです。 この記事では、このプロセスを基本とするデータ サイエンス チームの人員の役割と、それに関連した職務の概要について説明します。

この概要の記事には、TDSP 環境の設定方法に関するチュートリアルへのリンクがあります。 これらのチュートリアルでは、Azure DevOps Projects、Azure Repos リポジトリ、および Azure Boards の使用について詳しく説明します。 動機となる目標は、概念をモデリングからデプロイまで移行することです。

このチュートリアルでは、Microsoft が TDSP を実装する方法である Azure DevOps を使用しています。 Azure DevOps には、連携を促進する、ロールベースのセキュリティ、作業項目の管理と追跡、コードのホスト、共有、ソース管理が統合されています。 また、このチュートリアルでは、分析デスクトップとしていくつかの人気のあるデータ サイエンス ツールが事前構成され、Microsoft ソフトウェアおよび Azure サービスと統合されている、Azure Data Science Virtual Machine (DSVM) を使用しています。

このチュートリアルでは、その他のコード ホスティング、アジャイル計画、および開発ツールと環境を使用した TDSP を実装することも可能ですが、使用できない機能がある場合もあります。

データ サイエンス グループおよびチームの構造

多くの場合、企業のデータ サイエンスの職務は次のような階層で組織されます。

  • データ サイエンス グループ
    • グループ内のデータ サイエンス チーム

このような構造では、グループ リーダーとチーム リーダーがいます。 通常、データ サイエンス プロジェクトはデータ サイエンス チームによって行われます。 データ サイエンス チームには、プロジェクト管理とガバナンス タスクを担当するプロジェクト リーダーと、プロジェクトのデータ サイエンスとデータ エンジニアリングの部分を遂行する個々のデータ サイエンティストやエンジニアがいます。 プロジェクトの初期設定とガバナンスは、グループ、チーム、またはプロジェクト リーダーが実行します。

4 つの TDSP の役割の定義と職務

データ サイエンス部がグループ内のチームで構成されていることを前提とした場合、TDSP には次の 4 つの異なる役割があります。

  1. グループ マネージャー:企業のデータ サイエンス部全体を管理します。 データ サイエンス ユニット内には複数のチームがあり、それぞれのチームが、異なるビジネスの複数のデータ サイエンス プロジェクトに携わっている場合があります。 グループ マネージャーは、そのタスクを代理人に委任する場合もありますが、役割に関連付けられているタスクは変わりません。

  2. チーム リーダー:企業のデータ サイエンス部のチームを管理します。 チームは複数のデータ サイエンティストで構成されます。 小規模なデータ サイエンス部では、グループ マネージャーとチーム リーダーが 1 人で兼任される場合があります。

  3. プロジェクト リーダー:特定のデータ サイエンス プロジェクトの個々のデータ サイエンティストの日常業務を管理します。

  4. プロジェクトの個々の共同作成者:データ サイエンティスト、ビジネス アナリスト、データ エンジニア、アーキテクト、およびデータ サイエンス プロジェクトを遂行するその他のユーザー。

注意

企業の構造と規模によっては、1 人が複数の役割を担ったり、1 つの役割に複数の担当者が割り当てられたりすることがあります。

4 つの役割で完了される職務

次の図は、各チーム データ サイエンス プロセスの役割の最上位レベルの職務を示しています。 このスキーマと、以下の各 TDSP の役割の職務の詳細な概要は、あなたの職務に必要なチュートリアルを選択するのに役立ちます。

ロールとタスクの概要

グループ マネージャーのタスク

グループ マネージャーまたは指名された TDSP システム管理者は、TDSP を導入するために次のタスクを実行します。

  • 組織内に、Azure DevOps 組織 およびグループ プロジェクトを作成します。
  • Azure DevOps グループ プロジェクト内に プロジェクト テンプレート リポジトリ を作成し、Microsoft TDSP チームが開発したプロジェクト テンプレート リポジトリからシードします。 Microsoft の TDSP プロジェクト テンプレート リポジトリには、以下があります。
    • データ、コード、およびドキュメント ディレクトリなどの 標準化されたディレクトリ構造 があります。
    • データ サイエンス プロセスを効率的に導くための一連の 標準化されたドキュメント テンプレート があります。
  • ユーティリティ リポジトリ を作成し、Microsoft TDSP チームが開発したユーティリティ リポジトリからそれを設定します。 Microsoft の TDSP ユーティリティ リポジトリには、データ サイエンティストの仕事の効率を上げる便利なユーティリティのセットが用意されています。 Microsoft ユーティリティ リポジトリには、対話型のデータ探索、分析、レポート、およびベースラインのモデリングとレポートのためのユーティリティが含まれています。
  • 組織アカウントの セキュリティ制御ポリシー を設定します。

詳細な手順については、データ サイエンス チームのグループ マネージャーのタスクに関するページを参照してください。

チーム リーダーのタスク

チーム リーダーまたは指名されたプロジェクト管理者は、TDSP を導入するために次のタスクを実行します。

  • グループの Azure DevOps 組織に、チーム プロジェクト を作成します。
  • プロジェクトに プロジェクト テンプレート リポジトリ を作成し、グループ マネージャーまたはマネージャーの代理人が設定したグループ プロジェクト テンプレート リポジトリからそれを設定します。
  • チーム ユーティリティ リポジトリ を作成し、グループ ユーティリティ リポジトリからそれを設定し、そのリポジトリにチーム固有のユーティリティを追加します。
  • 必要に応じて、チームに有用なデータ資産を格納する Azure File Storage を作成します。 他のチーム メンバーは、分析デスクトップにこの共有クラウド ファイル ストアをマウントできます。
  • 必要に応じて、チームの DSVM に Azure File Storage をマウントし、それにチーム データ資産を追加します。
  • チーム メンバーを追加し、アクセス許可を構成して、セキュリティ制御 を設定します。

詳細な手順については、データ サイエンス チームのチーム リーダーのタスクに関するページを参照してください。

プロジェクト リーダーのタスク

プロジェクト リーダーは、TDSP を導入するために、次のタスクを実行します。

  • チーム プロジェクトに プロジェクト リポジトリ を作成し、プロジェクト テンプレート リポジトリからそれを設定します。
  • 必要に応じて、プロジェクトのデータ資産を格納する Azure File Storage を作成します。
  • 必要に応じて、DSVM に Azure File Storage をマウントし、それにプロジェクト データ資産を追加します。
  • プロジェクト メンバーを追加し、アクセス許可を構成して、セキュリティ制御 を設定します。

詳細な手順については、データ サイエンス チームのプロジェクト リーダーのタスクに関するページを参照してください。

プロジェクトの個々の共同作成者のタスク

プロジェクトの個々の共同作成者 (通常はデータ サイエンティスト) は、TDSP を使用して次の職務を実行します。

  • プロジェクト リーダーが設定した プロジェクト リポジトリ を複製します。
  • 必要に応じて、使用している Data Science Virtual Machine (DSVM) にチームとプロジェクトの共有 Azure File Storage をマウントします。
  • プロジェクトを実行します。

プロジェクトへの参加の詳細については、データ サイエンス チームのプロジェクトの個々の共同作成者に関するページを参照してください。

データ サイエンス プロジェクトの実行ワークフロー

該当するチュートリアルに従うことにより、データ サイエンティスト、プロジェクト リーダー、チーム リーダーは作業項目を作成して、プロジェクトのすべてのタスクおよび段階を終始追跡できます。 また、Azure Repos を使用し、データ サイエンティスト間の共同作業を促進し、プロジェクトの実行中に生成されるアーティファクトをプロジェクト メンバー全員でバージョン管理し、共有することができます。 Azure DevOps を使用すると、Azure Boards のお使いの作業項目をお使いの Azure Repos リポジトリのブランチにリンクして、作業項目に対して行われた処理を簡単に追跡できます。

次の図は、プロジェクトを遂行する TDSP ワークフローの概要です。

一般的なデータ サイエンス プロジェクトのワークフロー

このワークフローの手順は、次の 3 つのアクティビティにグループ化できます。

  • プロジェクト リーダーによるスプリント計画の実施
  • データ サイエンティストによる作業項目に対処するための git ブランチ上のアーティファクトの開発
  • プロジェクト リーダーまたは他のチーム メンバーによるコードのレビューと、作業ブランチのプライマリブランチへのマージ

プロジェクト実行のワークフローの詳細な手順については、「データ サイエンス プロジェクトのアジャイル開発」を参照してください。

TDSP プロジェクト テンプレート リポジトリ

この Microsoft TDSP チームのプロジェクト テンプレート リポジトリを使用すると、プロジェクトの実行と連携を促進できます。 このリポジトリには、ご自分独自の TDSP プロジェクトで使用できる標準化されたディレクトリ構造とドキュメント テンプレートがあります。

次のステップ

Team Data Science Process で定義されている役割とタスクの詳細な説明を確認します。