データセットを理解する

[アーティクル]
02/23/2024

機械学習モデルは、トレーニングデータでキャプチャされた過去の決定とアクションから "学習" します。そのため、実世界のシナリオでのパフォーマンスは、トレーニングに使用されたデータの影響を強く受けることになります。データセット内の特徴量の分布が偏っていると、それが原因で、モデルが、過小表現されたグループに属するデータポイントを誤って予測したり、不適切なメトリックに沿って最適化されたりするおそれがあります。

たとえば、モデルが住宅価格を予測するための AI システムをトレーニングしている場合、トレーニングセットは中央値未満の新しい住宅の 75% を表していました。その結果、歴史のあるより高価な住宅を識別する正確性はかなり低くなっています。修正として、古い高価な家をトレーニングデータに追加し、歴史的価値に関する分析情報を含めるように特徴量を拡張しました。そのデータ拡張により、結果が改善されました。

責任ある AI ダッシュボードのデータ分析コンポーネントを使用すると、予測と実際のそれぞれの結果、エラーグループ、特定の特徴量に基づいてデータセットを視覚化できます。これにより、過大表現および過小表現の問題を特定し、データセット内でデータがどのようにクラスター化されているかを確認できます。データの視覚化は、集計プロットまたは個々のデータポイントで構成されます。

データ分析を使用するタイミング

次のことを行う必要がある場合は、データ分析を使用します。

さまざまなフィルターを選択してデータをさまざまなディメンション (コーホートとも呼ばれます) にスライスすることで、データセットの統計情報を探索する。
さまざまなコーホートと特徴量グループ間でのデータセットの分布を把握する。
公平性、エラー分析、因果関係 (他のダッシュボードコンポーネントから派生) に関連する検出結果がデータセットの分布の結果であるかどうかを判断する。
表現の問題、ラベルノイズ、特徴量ノイズ、ラベルバイアスや同様のファクターから発生するエラーを軽減するために、より多くのデータを収集する領域を決定する。

次のステップ

CLI と SDK または Azure Machine Learning スタジオ UI を使用して責任ある AI ダッシュボードを生成する方法について学習します。
責任ある AI ダッシュボードでサポートされているデータ分析の視覚化を調べる。
責任ある AI ダッシュボードで観察された分析情報に基づいて責任ある AI スコアカードを生成する方法について説明します。

データセットを理解する

データ分析を使用するタイミング

次のステップ

その他のリソース