Team Data Science Processの役割とタスク

Team Data Science Process (TDSP) は、構造化された手法で予測分析ソリューションと高度なアプリケーションを効率的に構築する Microsoft 開発のフレームワークです。 この記事では、このプロセスを基本とするデータ サイエンス チームの人員の役割と、それに関連した職務の概要について説明します。

Azure Machine Learningに格納されているMLflow成果物を補完するには、Git互換環境が推奨されます。 Azure Machine LearningはGitリポジトリと統合されるため、GitHub、GitLab、Bitbucket、Azure DevOps、その他のGit互換サービスなど、多くのGit互換サービスを使用できます。

データ サイエンス グループおよびチームの構造

多くの場合、企業のデータ サイエンスの職務は次のような階層で組織されます。

  • データ サイエンス グループ
  • グループ内のデータサイエンスチーム

このような構造では、グループ リーダーとチーム リーダーがいます。 通常、データサイエンスチームはデータサイエンスプロジェクトを実行します。 データ サイエンス チームには、プロジェクト管理とガバナンス タスクを担当するプロジェクト リーダーと、プロジェクトのデータ サイエンスとデータ エンジニアリングの部分を遂行する個々のデータ サイエンティストやエンジニアがいます。 グループ、チーム、またはプロジェクトリーダーは、プロジェクトの初期設定とガバナンスを実行します。

4 つの TDSP の役割の定義と職務

データ サイエンス部がグループ内のチームで構成されていることを前提とした場合、TDSP には次の 4 つの異なる役割があります。

  • グループマネージャー: 企業のデータサイエンス部門全体を管理します。 データサイエンス部門には複数のチームがあり、それぞれが異なるビジネス領域の複数のデータサイエンスプロジェクトに取り組んでいる場合があります。 グループマネージャーは自分のタスクを代理に委任できますが、ロールに関連付けられているタスクは変わりません。

  • チームリーダー: 企業のデータサイエンス部門のチームを管理します。 チームはデータサイエンティストで構成されます。 小規模なデータサイエンス部門では、グループマネージャーとチームリーダーが同じ人物である場合があります。

  • プロジェクトリーダー: 特定のデータサイエンスプロジェクトにおける個々のデータサイエンティストの日常業務を管理します。

  • プロジェクトの個々の共同作成者: データサイエンスプロジェクトを実行するデータサイエンティスト、ビジネスアナリスト、データエンジニア、アーキテクトなど。

Note

企業の構造と規模に応じて、1人のユーザーが複数のロールを持つ場合や、複数のユーザーが1つのロールを担当する場合があります。

4つのロールのタスク

次の図は、各TDSPロールの最上位のタスクを示しています。 この概要と、各TDSPロールのタスクの詳細な概要は、責任に基づいて必要なチュートリアルを選択するのに役立ちます。

Diagram that shows an overview of the roles and tasks.

グループ マネージャーのタスク

グループマネージャーまたは指定されたTDSPシステム管理者は、TDSPを採用するために次のタスクを実行します。

  • 組織内に、Azure DevOps 組織およびグループ プロジェクトを作成します。

  • Azure DevOps グループ プロジェクト内にプロジェクト テンプレート リポジトリを作成し、Microsoft TDSP チームが開発したプロジェクト テンプレート リポジトリからシードします。 Microsoft の TDSP プロジェクト テンプレート リポジトリには、以下があります。

    • データ、コード、およびドキュメント ディレクトリなどの標準化されたディレクトリ構造があります。
    • データ サイエンス プロセスを効率的に導くための一連の標準化されたドキュメント テンプレートがあります。
  • ユーティリティ リポジトリを作成し、Microsoft TDSP チームが開発したユーティリティ リポジトリからそれを設定します。 Microsoft の TDSP ユーティリティ リポジトリには、データ サイエンティストの仕事の効率を上げる便利なユーティリティのセットが用意されています。 Microsoft ユーティリティ リポジトリには、対話型のデータ探索、分析、レポート、およびベースラインのモデリングとレポートのためのユーティリティが含まれています。

  • 組織アカウントのセキュリティ制御ポリシーを設定します。

詳細については、 「データサイエンスチームのグループマネージャータスク」 を参照してください。

チームリーダーのタスク

チームリーダーまたは指名されたプロジェクト管理者は、TDSPを採用するために次のタスクを完了します。

  • グループの Azure DevOps 組織に、チーム プロジェクトを作成します。

  • プロジェクトにプロジェクトテンプレートリポジトリを作成し、グループマネージャーまたは代理人によって設定されたグループプロジェクトテンプレートリポジトリからシードします。

  • チーム ユーティリティ リポジトリを作成し、グループ ユーティリティ リポジトリからそれを設定し、そのリポジトリにチーム固有のユーティリティを追加します。

  • 必要に応じて、チームに有用なデータ資産を格納する Azure File Storage を作成します。 他のチーム メンバーは、分析デスクトップにこの共有クラウド ファイル ストアをマウントできます。

  • 必要に応じて、チームのデータサイエンス仮想マシンにAzure File Storageをマウントし、そこにチームデータ資産を追加します。

  • チーム メンバーを追加し、アクセス許可を構成して、セキュリティ制御を設定します。

詳細については、データサイエンスチームのチームリーダータスクに関するページを参照してください。

プロジェクトリーダーのタスク

プロジェクトリーダーは、TDSPを採用するために次のタスクを完了します。

  • チーム プロジェクトにプロジェクト リポジトリを作成し、プロジェクト テンプレート リポジトリからそれを設定します。

  • 必要に応じて、プロジェクトのデータ資産を格納する Azure File Storage を作成します。

  • 必要に応じて、Azure File Storageをデータサイエンス仮想マシンにマウントし、プロジェクトデータ資産を追加します。

  • プロジェクト メンバーを追加し、アクセス許可を構成して、セキュリティ制御を設定します。

詳細については、 「データサイエンスチームのプロジェクトリーダータスク」 を参照してください。

プロジェクトの個々の共同作成者タスク

プロジェクトの個々の共同作成者 (通常はデータサイエンティスト) は、TDSPを使用して次のタスクを実行します。

  • プロジェクト リーダーが設定したプロジェクト リポジトリを複製します。

  • 必要に応じて、共有チームとプロジェクトのAzureファイルストレージデータサイエンス仮想マシンにマウントします。

  • プロジェクトを実行します。

詳細については、 「データサイエンスチームのプロジェクトの個々の共同作成者タスク」 を参照してください。

データ サイエンス プロジェクトの実行ワークフロー

データサイエンティスト、プロジェクトリーダー、チームリーダーは、プロジェクトのすべてのタスクとステージを最初から最後まで追跡するための作業項目を作成できます。 次の図は、プロジェクトを遂行する TDSP ワークフローの概要です。

Diagram that shows the typical data science project workflow.

このワークフローの手順は、次の 3 つのアクティビティにグループ化できます。

  • プロジェクトリーダーはスプリント計画を実行します。

  • データサイエンティストは、作業項目に対処するためにgitブランチで成果物を開発します。

  • プロジェクトリーダーまたは他のチームメンバーは、コードレビューを行い、作業ブランチをプライマリブランチにマージします。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパル作成者:

  • Mark Tabladillo | シニア クラウド ソリューション アーキテクト

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。