機械学習モデルでエラーを評価する

現在のモデル デバッグ プラクティスで最大の課題の 1 つは、集計したメトリックを使用して、ベンチマーク データセットでモデルをスコア付けすることです。 モデルの正確性は、データのサブグループ間で一様でない場合があり、モデルが失敗する頻度が高い入力コーホートが存在する可能性があります。 これらの失敗の直接的な結果は、信頼性と安全性の欠如、公平性の問題の発生、機械学習に対する全面的な信頼の喪失です。

ベンチマークと機械学習モデルの正解率と失敗の例を示す図。

エラー分析は、集計した正確性メトリックとは異なります。 これは透過的な方法で開発者にエラーの分布を公開し、開発者が効率的にエラーを特定して診断できるようにします。

責任ある AI ダッシュボードのエラー分析コンポーネントを使用すると、機械学習の従事者はモデルの失敗分布をより深く理解でき、データの誤ったコーホートをすばやく特定できるようになります。 このコンポーネントにより、全体的なベンチマーク エラー率に対してエラー率が高いデータのコーホートが特定されます。 これは次の方法を通じてモデル ライフサイクル ワークフローの識別段階に貢献します。

  • エラー率が高いコーホートを明らかにするデシジョン ツリー。
  • 入力特徴がコーホート全体のエラー率にどのように影響するかを視覚化するヒートマップ。

エラーの不一致は、トレーニング データ内の特定の人口統計グループや頻繁に観察されない入力コーホートに対してシステムのパフォーマンスが低い場合に発生する可能性があります。

このコンポーネントの機能は、モデル エラー プロファイルを生成するエラー分析パッケージから提供されます。

次のことを行う必要がある場合は、エラー分析を使用します。

  • モデルの失敗がデータセット全体で、および複数の入力と特徴のディメンション間でどのように分散されるかについて深く理解する。
  • ターゲットを絞った軽減策を通知するために、集計したパフォーマンスのメトリックを分解して誤ったコーホートを自動的に検出する。

エラー ツリー

多くの場合、エラー パターンは複雑であり、1 つまたは 2 つ以上の特徴を含んでいます。 開発者が可能なすべての特徴の組み合わせを調べて、重大な失敗を伴う隠されたデータ ポケットを検出することは難しい場合があります。

負荷を軽減するために、バイナリ ツリーの視覚化では、ベンチマーク データが解釈可能なサブグループ (エラー率が予想外に高いか、低い) に自動的にパーティション分割されます。 言い換えると、ツリーでは入力特徴を使用して、モデル エラーが成功から最大限に分離されます。 データ サブグループを定義しているノードごとに、ユーザーは次の情報を調査できます。

  • エラー率: モデルが正しくないノード内のインスタンスの一部。 これは、赤色の彩度によって示されます。
  • エラー カバレッジ: そのノードに該当するすべてのエラーの一部。 これは、ノードのフィル レートによって示されます。
  • データ表現: エラー ツリーの各ノード内のインスタンスの数。 これは、ノードへの受信エッジの太さと、ノード内のインスタンスの合計数によって示されます。

エラー率とカバレッジが高いか低いコーホートを示すエラー分析ツリーのスクリーンショット。

エラー ヒートマップ

ビューは、入力特徴の 1 次元または 2 次元グリッドに基づいてデータをスライスします。 ユーザーは、分析のために関心のある入力解析を選択できます。

ヒートマップでは、濃い赤色を使用してエラーの多いセルを視覚化し、それらの領域にユーザーの注意を引きます。 これは、エラー テーマがパーティション間で異なる場合 (これは実際に頻繁に発生します) に特に便利です。 このエラー特定ビューで、分析は、ユーザーと、失敗を理解するために最も重要である可能性がある特徴に関する彼らの知識や仮説によって高度に導かれます。

1 つまたは 2 つの特徴でパーティション分割されたモデル エラーを示すエラー分析ヒートマップのスクリーンショット。

次のステップ