データセットを理解する

機械学習モデルは、トレーニング データでキャプチャされた過去の決定とアクションから "学習" します。 そのため、実世界のシナリオでのパフォーマンスは、トレーニングに使用されたデータの影響を強く受けることになります。 データセット内の特徴量の分布が偏っていると、それが原因で、モデルが、過小表現されたグループに属するデータ ポイントを誤って予測したり、不適切なメトリックに沿って最適化されたりするおそれがあります。

たとえば、モデルが住宅価格を予測するための AI システムをトレーニングしている場合、トレーニング セットは中央値未満の新しい住宅の 75% を表していました。 その結果、歴史のあるより高価な住宅を識別する正確性はかなり低くなっています。 修正として、古い高価な家をトレーニング データに追加し、歴史的価値に関する分析情報を含めるように特徴量を拡張しました。 そのデータ拡張により、結果が改善されました。

責任ある AI ダッシュボードのデータ分析コンポーネントを使用すると、予測と実際のそれぞれの結果、エラー グループ、特定の特徴量に基づいてデータセットを視覚化できます。 これにより、過大表現および過小表現の問題を特定し、データセット内でデータがどのようにクラスター化されているかを確認できます。 データの視覚化は、集計プロットまたは個々のデータ ポイントで構成されます。

データ分析を使用するタイミング

次のことを行う必要がある場合は、データ分析を使用します。

  • さまざまなフィルターを選択してデータをさまざまなディメンション (コーホートとも呼ばれます) にスライスすることで、データセットの統計情報を探索する。
  • さまざまなコーホートと特徴量グループ間でのデータセットの分布を把握する。
  • 公平性、エラー分析、因果関係 (他のダッシュボード コンポーネントから派生) に関連する検出結果がデータセットの分布の結果であるかどうかを判断する。
  • 表現の問題、ラベル ノイズ、特徴量ノイズ、ラベル バイアスや同様のファクターから発生するエラーを軽減するために、より多くのデータを収集する領域を決定する。

次のステップ