Team Data Science Processライフサイクルのデータ取得と理解のステージ

この記事では、Team Data Science Process (TDSP) のデータの取得と理解のステージに関連付けられている目標、タスク、成果物のアウトラインを示します。 このプロセスは、チームがデータサイエンスプロジェクトを構築するために使用できる推奨ライフサイクルを提供します。 ライフサイクルは、チームが (多くの場合、反復的に) 実行する主要なステージの概要を示します。

  • ビジネスの把握
  • データの取得と理解
  • モデリング
  • デプロイ
  • 顧客による受け入れ

TDSPライフサイクルの視覚的な表現を次に示します。

Diagram that shows the stages of the TDSP lifecycle.

目標

データ取得と理解のステージの目標は次のとおりです。

  • ターゲット変数に明確に関連するクリーンで高品質なデータセットを生成します。 チームがモデリングステージの準備ができるように、適切な分析環境でデータセットを見つけます。

  • データの定期的な更新とスコア付けを行うデータ パイプラインのソリューション アーキテクチャを開発します。

タスクを完了する方法

データの取得と理解のステージには、3つの主要なタスクがあります。

  • ターゲット分析環境にデータを取り込みます。

  • データを調査して、データが質問に答えられるかどうかを判断します。

  • 新しいデータや定期的に更新されるデータをスコア付けするためのデータ パイプラインを設定する

データの取り込み

ソースの場所から、トレーニングや予測などの分析操作を実行するターゲットの場所にデータを移動するプロセスを設定します。

データの探索

モデルのトレーニングを行う前に、データを正しく理解する必要があります。 現実のデータセットには、ノイズがあったり、値が不足していたり、その他の不一致が多数存在することがよくあります。 データの要約と視覚化を使用して、データの品質を監査し、モデリングの準備が整う前にデータを処理するための情報を収集することができます。 このプロセスは、通常は繰り返し実行されます。 データのクリーニングに関するガイダンスについては、「機械学習を強化するためのデータを準備するタスク」を参照してください。

クレンジングされたデータの品質に満足したら、次の手順ではデータのパターンをよりよく理解します。 このデータ分析により、ターゲットに適した予測モデルを選択して開発することができます。 データがどの程度ターゲットに対応しているかを判断します。 次に、チームが次のモデリング手順に進むのに十分なデータがあるかどうかを判断します。 このプロセスも、通常は繰り返し実行されます。 前のステージで最初に特定したデータセットを調整するために、より正確なデータまたは関連性の高いデータを含む新しいデータソースを見つけることが必要になる場合があります。

データ パイプラインを設定する

データの取り込みとクリーニングに加えて、通常は、継続的な学習プロセスの一環として、新しいデータのスコア付けやデータの定期的な更新を行うプロセスを設定する必要があります。 データのスコア付けには、データパイプラインまたはワークフローを使用できます。 Azure Data Factoryを使用するパイプラインをお勧めします。

このステージでは、データ パイプラインのソリューション アーキテクチャを開発します。 パイプラインは、データサイエンスプロジェクトの次のステージと並行して作成します。 ビジネスニーズと、このソリューションを統合する既存のシステムの制約に応じて、パイプラインは次のようになります。

  • バッチ ベース
  • ストリーミングまたはリアル タイム
  • ハイブリッド

MLflowとの統合

データの理解フェーズでは、MLflowの実験追跡を使用して、さまざまなデータの前処理戦略と探索的データ分析を追跡および文書化できます。

Artifacts

このステージでは、チームは次のものを提供します。

  • データの概要、各属性とターゲットの関係、変数のランキングなどを含むデータ品質レポート。

  • チームが新しいデータに対して予測を実行するために使用するデータパイプラインの図や説明などのソリューションアーキテクチャ。 この図には、新しいデータに基づいてモデルを再トレーニングするためのパイプラインも含まれています。 TDSPディレクトリ構造テンプレートを使用する場合は、プロジェクトディレクトリにドキュメントを保存します。

  • チェックポイントの決定。 特徴エンジニアリングとモデルの構築を本格的に開始する前に、プロジェクトを再評価し、期待される値がそのプロジェクトを続行するために十分であるかどうかを判断できます。 たとえば、続行する準備ができているか、より多くのデータを収集する必要があるか、または質問に答えるデータが見つからない場合はプロジェクトを破棄することができます。

ピアレビューされた文献

研究者は、査読済み文献でTDSPに関する研究を発表しています。 引用文献は、データ収集とライフサイクルステージの理解を含め、TDSPの他のアプリケーションや類似のアイデアを調査する機会を提供します。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパル作成者:

  • Mark Tabladillo | シニア クラウド ソリューション アーキテクト

パブリックでない LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

これらの記事では、TDSPライフサイクルの他のステージについて説明しています。