データセットでデータドリフトを検出する (プレビュー)

[アーティクル]
08/08/2023

データドリフトを監視し、ドリフトが大きい場合のアラートを設定する方法について説明します。

Azure Machine Learning データセットモニター (プレビュー) を使用すると、次のことを実行できます。

データのドリフトを分析して、時間の経過と共にどのように変化するかを把握する。
モデルデータを監視して、トレーニング用データセットと供給データセットの違いを確認する。デプロイされたモデルからモデルデータを収集することから始めます。
新しいデータを監視して、ベースラインデータセットとターゲットデータセットの違いを確認する。
データの特徴をプロファイリングして、時間の経過と共に統計的な特性がどのように変化するかを追跡する。
データドリフトに関するアラートを設定して、潜在的な問題を早期に警告する。
非常に多くのドリフトがデータに発生したと判断した場合に、 新しいバージョンのデータセットを作成 する。

モニターの作成には、Azure Machine Learning のデータセットが使用されます。データセットには timestamp 列が含まれている必要があります。

データドリフトメトリックは、Python SDK または Azure Machine Learning Studio を使用して確認できます。その他のメトリックと分析情報は、Azure Machine Learning ワークスペースに関連付けられている Azure Application Insights リソースを通じて利用できます。

重要

データセットのデータドリフト検出は、現在パブリックプレビュー段階にあります。プレビューバージョンはサービスレベルアグリーメントなしで提供されています。運用環境のワークロードに使用することはお勧めできません。特定の機能はサポート対象ではなく、機能が制限されることがあります。詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

前提条件

データセットモニターを作成して使用するには、以下が必要です。

Azure サブスクリプション。 Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。無料版または有料版の Azure Machine Learning を今すぐお試しください。
Azure Machine Learning ワークスペース。
Azure Machine Learning SDK for Python がインストール済み (これには azureml-datasets パッケージが含まれています)。
データのファイルパス、ファイル名、または列にタイムスタンプが指定された構造化 (表形式) データ。

データの誤差とは

モデルの精度は時間の経過と同時に低下します。これは、主にデータドリフトが原因です。機械学習モデルの場合、データドリフトとは、モデルのパフォーマンスの低下につながるモデルの入力データの変更のことです。データドリフトを監視すると、このようなモデルのパフォーマンスの問題を検出するために役立ちます。

データドリフトは、次のようなことが原因で発生します。

上流プロセスの変更 (センサーを交換したため測定単位がインチからセンチメートルに変更された場合など)。
データ品質の問題 (センサーが破損しているため読み取り値が常に 0 になっている場合など)。
データの自然なドリフト (平均気温が季節と共に変化する場合など)。
特徴間の関係の変化 (共変量シフト)。

Azure Machine Learning を使用すると、比較されるデータセットの複雑さを抽象化する単一のメトリックを計算することにより、ドリフト検出を簡略化することができます。このようなデータセットには、数百単位の特徴と数万行が含まれている場合があります。ドリフトが検出されたら、ドリフトを引き起こしている特徴までドリルダウンします。次に、特徴レベルのメトリックを調べて、ドリフトの根本原因をデバッグし、特定します。

このトップダウンアプローチを使用すると、従来のルールベースの手法よりもデータの監視が簡単になります。許可されたデータ範囲や許可された一意の値などのルールベースの手法では、時間がかかり、エラーが発生しやすくなります。

Azure Machine Learning では、データセットモニターを使用し、データドリフトを検出して警告します。

データセットモニター

データセットモニターを使用すると、次のことができます。

データセット内の新しいデータに対してデータドリフトを検出して警告する。
履歴データのドラフトを分析する。
時系列で新しいデータをプロファイルする。

データドリフトに関するアルゴリズムは、データの変化を総合的に測定するだけでなく、どの特徴に詳細な調査が必要であるかがわかるようになっています。データセットモニターでは、timeseries データセット内の新しいデータをプロファイリングすることによって、ほかにも多くのメトリックが生成されます。

Azure Application Insights を使用することで、モニターによって生成されるすべてのメトリックについてカスタムアラートを設定できます。データセットモニターを使用すると、データの問題を迅速に検出し、考えられる原因を特定することによって問題のデバッグ時間を短縮できます。

概念的には、Azure Machine Learning でデータセットモニターを設定するシナリオは主に 3 つあります。

シナリオ	説明
トレーニングデータのドラフトに対してモデルのサービスデータを監視する	供給データがトレーニングデータからドリフトすると、モデルの精度が低下するので、このシナリオの結果は、代用品を監視してモデルの精度を調べたものと解釈できます。
時系列データセットを監視して、以前の期間からのドリフトを調べる。	このシナリオはより一般的なものであり、モデル構築の上流または下流に関係するデータセットを監視するために使用できます。対象のデータセットには timestamp 列が必要です。ベースラインデータセットは、ターゲットのデータセットと共通の特徴を持つ表形式のデータセットです。
過去のデータに対して分析を実行する。	このシナリオは、履歴データを解釈し、データセットモニターを設定する際の意思決定に反映させるために使用できます。

データセットモニターは、次の Azure サービスによって変わります。

Azure サービス	説明
データセット	ドリフトでは、Machine Learning データセットを使用してトレーニングデータが取得され、モデルのトレーニングのためにデータが比較されます。データのプロファイル生成を使用して、最小値、最大値、個別値、個別値カウントなどのレポートされたメトリックの一部を生成します。
Azure Machine Learning パイプラインとコンピューティング	ドリフト計算ジョブは、Azure Machine Learning パイプラインでホストされます。このジョブは、オンデマンドまたはスケジュールによってトリガーされ、ドリフトモニターの作成時に構成されたコンピューティングで実行されます。
Application Insights	ドリフトによって、機械学習ワークスペースに属する Application Insights にメトリックが送信されます。
Azure Blob Storage	ドリフトによって、メトリックが JSON 形式で Azure BLOB Storage に送信されます。

ベースラインデータセットとターゲットデータセット

Azure Machine Learning データセットでデータドリフトを監視します。データセットモニターを作成するときには、次の情報を参照します:

ベースラインデータセット - 通常はモデルのトレーニングデータセット。
ターゲットデータセット - 通常はモデルの入力データ - 時間の経過に沿ってベースラインデータセットと比較されます。この比較は、ターゲットデータセットにはタイムスタンプ列が指定されている必要があるということを意味します。

モニターは、ベースラインデータセットとターゲットデータセットを比較します。

ターゲットデータセットを作成する

ターゲットデータセットには、データ内の列またはファイルのパスパターンから派生した仮想列のいずれかにタイムスタンプ列を指定することにより、timeseries 特性が設定されている必要があります。 Python SDK または Azure Machine Learning Studio を使用して、タイムスタンプを持つデータセットを作成します。 timeseries 特性をデータセットに追加するには、"タイムスタンプ" を表す列を指定する必要があります。データが "{yyyy/MM/dd}" などの時刻情報を含むフォルダー構造にパーティション分割されている場合は、パスパターン設定を使用して仮想列を作成し、"パーティションのタイムスタンプ" として設定して、時系列 API 機能を有効にします。

Python SDK
[スタジオ](#tab/azure-studio)

適用対象:Python SDK azureml v1

Dataset クラスの with_timestamp_columns() メソッドによって、データセットのタイムスタンプ列が定義されます。

from azureml.core import Workspace, Dataset, Datastore

# get workspace object
ws = Workspace.from_config()

# get datastore object
dstore = Datastore.get(ws, 'your datastore name')

# specify datastore paths
dstore_paths = [(dstore, 'weather/*/*/*/*/data.parquet')]

# specify partition format
partition_format = 'weather/{state}/{date:yyyy/MM/dd}/data.parquet'

# create the Tabular dataset with 'state' and 'date' as virtual columns
dset = Dataset.Tabular.from_parquet_files(path=dstore_paths, partition_format=partition_format)

# assign the timestamp attribute to a real or virtual column in the dataset
dset = dset.with_timestamp_columns('date')

# register the dataset as the target dataset
dset = dset.register(ws, 'target')

ヒント

データセットの timeseries 特性を使用する完全な例については、ノートブックの例または Datasets SDK のドキュメントを参照してください。

データセットモニターを作成する

新しいデータセットのデータドリフトを検出して警告するデータセットモニターを作成します。 Python SDK または Azure Machine Learning Studio のいずれかを使用します。

後で説明するように、データセットモニターは、設定された頻度 (毎日、毎週、毎月) 間隔で実行されます。前回の実行以降にターゲットデータセットで使用できる新しいデータが分析されます。場合によっては、最新のデータのこのような分析では不十分な場合があります:

アップストリームソースからの新しいデータは、データパイプラインが壊れたために遅延し、データセットモニターの実行時にこの新しいデータを使用できませんでした。
時系列データセットには履歴データのみが含まれており、時間の経過とともにデータセット内のドリフトパターンを分析する必要があります。たとえば、冬と夏の両方の季節に Web サイトに流れるトラフィックを比較して、季節のパターンを特定します。
データセットモニターを初めて使用するとします。将来の日を監視するように設定する前に、既存のデータに対する機能の動作を評価する必要があるとします。このようなシナリオでは、特定のターゲットデータセットセットの日付範囲を含むオンデマンド実行を送信して、ベースラインデータセットと比較することができます。

backfill 関数は、指定した開始日と終了日の範囲に対してバックフィルジョブを実行します。バックフィルジョブは、データの精度と完全性を確保する方法として、データセット内の予期される欠落データポイントを埋めます。

Python SDK
[スタジオ](#tab/azure-studio)

適用対象:Python SDK azureml v1

詳細については、データドリフトに関する Python SDK リファレンスドキュメントを参照してください。

次の例では、Python SDK を使用してデータセットモニターを作成する方法を示します。

from azureml.core import Workspace, Dataset
from azureml.datadrift import DataDriftDetector
from datetime import datetime

# get the workspace object
ws = Workspace.from_config()

# get the target dataset
target = Dataset.get_by_name(ws, 'target')

# set the baseline dataset
baseline = target.time_before(datetime(2019, 2, 1))

# set up feature list
features = ['latitude', 'longitude', 'elevation', 'windAngle', 'windSpeed', 'temperature', 'snowDepth', 'stationName', 'countryOrRegion']

# set up data drift detector
monitor = DataDriftDetector.create_from_datasets(ws, 'drift-monitor', baseline, target,
                                                      compute_target='cpu-cluster',
                                                      frequency='Week',
                                                      feature_list=None,
                                                      drift_threshold=.6,
                                                      latency=24)

# get data drift detector by name
monitor = DataDriftDetector.get_by_name(ws, 'drift-monitor')

# update data drift detector
monitor = monitor.update(feature_list=features)

# run a backfill for January through May
backfill1 = monitor.backfill(datetime(2019, 1, 1), datetime(2019, 5, 1))

# run a backfill for May through today
backfill1 = monitor.backfill(datetime(2019, 5, 1), datetime.today())

# disable the pipeline schedule for the data drift detector
monitor = monitor.disable_schedule()

# enable the pipeline schedule for the data drift detector
monitor = monitor.enable_schedule()

ヒント

timeseries データセットとデータドリフト検出機能を設定する完全な例については、サンプルのノートブックを参照してください。

スタジオのホームページに移動します。
[データ] タブを選択します。
データセットモニターを選択します。
[+監視の作成] ボタンを選択し、[次へ] を選択してウィザードを続行します。

Create a monitor wizard

ターゲットデータセットを選択します。ターゲットデータセットは、データドリフトの分析対象となる、タイムライン列が指定された表形式のデータセットです。ターゲットデータセットは、ベースラインデータセットと共通の特徴を備え、かつ、新しいデータが追加される timeseries データセットである必要があります。ターゲットデータセット内の履歴データを分析することも、新しいデータを監視することもできます。
ベースラインデータセットを選択します。 時間の経過に沿ってターゲットデータセットと比較するベースラインとして使用される表形式のデータセットを選択します。ベースラインデータセットには、ターゲットデータセットと共通の特徴が含まれている必要があります。ターゲットデータセットのスライスを使用する時間範囲を選択するか、ベースラインとして使用する別のデータセットを指定します。

モニターの設定。以下は、スケジュールされたデータセットモニターパイプラインを作成する場合の設定です。

設定	説明	ヒント	変更可能
名前	データセットモニターの名前。		いいえ
特徴	時間の経過に沿ってデータドリフトが分析される特徴のリスト。	概念ドリフトが測定されるように、モデルで出力される特徴に設定します。時間の経過と共に自然にドリフトする特徴 (月、年、インデックスなど) は含めないでください。特徴の一覧を調整したら、既存のデータドリフトモニターをバックフィルできます。	はい
コンピューティングターゲット	データセットモニタージョブを実行する Azure Machine Learning コンピューティングターゲット。		はい
有効化	データセットモニターパイプラインのスケジュールを有効または無効にします	バックフィル設定を使用して履歴データを分析する場合は、スケジュールを無効にします。これは、データセットモニターの作成後に有効にできます。	はい
頻度	バックフィルを実行する場合にパイプラインジョブをスケジュールし、履歴データを分析するために使用される頻度。オプションには、毎日、毎週、毎月があります。	各ジョブは、頻度に従ってターゲットデータセットのデータが比較されます。日次: ターゲットデータセットの直近の丸 1 日をベースラインと比較します週次: ターゲットデータセットの直近の 1 週間 (月曜日から日曜日) をベースラインと比較します毎月:ターゲットデータセットの直近の 1 か月間をベースラインと比較します	いいえ
Latency	データがデータセットに到達するのにかかる時間 (時間単位)。たとえば、データが、データセットをカプセル化している SQL DB に到達するのに 3 日かかる場合は、待ち時間を 72 に設定します。	データセットモニターの作成後に変更することはできません	いいえ
メールアドレス	データドリフトのしきい値違反 (パーセンテージ単位) に基づいてアラートを送信するメールアドレス。	メールは Azure Monitor 経由で送信されます。	はい
Threshold	メールアラートが送信される、データドリフトのしきい値 (パーセンテージ単位)。	さらに、Application Insights リソースに関連付けられているワークスペース内の他のさまざまなメトリックについても、アラートやイベントを設定できます。	はい

ウィザードを完了すると、結果のデータセットモニターがリストに表示されます。それを選択して、このモニターの詳細ページに移動します。

データドリフトの結果の概要

このセクションでは、Azure Studio の [データセット] / [データセットモニター] ページに表示されるデータセットの監視結果について説明します。このページでは、設定を更新し、特定の期間の既存のデータを分析することができます。

データドリフトの規模に関する最上位レベルの分析情報と、さらに調査すべき特徴の見所から始めます。

Drift overview

メトリック	説明
データドリフトの大きさ	時間の経過と共に生じるベースラインとターゲットのデータセット間のドリフトのパーセンテージ。このパーセンテージは 0 から 100 までの範囲で示され、0 はデータセットが同一であることを表し、100 は Azure Machine Learning データドリフトモデルによって 2 つのデータセットが完全に識別可能であることを表します。この大きさを生成するために使用されている機械学習の手法が原因で、測定されたパーセンテージの数値にはノイズの混入が想定されます。
ドリフトが発生している主な特徴	データセット内の機能のうち最も多くドリフトが発生し、ドリフトの規模指標に最も関与しているものを示します。共変量シフトがあるため、基盤となる特徴の分布が特徴として比較的高い重要度になるように変更する必要は必ずしもありません。
Threshold	データドリフトの規模が設定されたしきい値を超えると、アラートがトリガーされます。モニター設定でしきい値を構成します。

ドリフトの規模の傾向

指定した期間内のデータセットとターゲットデータセットの違いを確認します。 100% に近いほど、2 つのデータセットの違いは大きくなります。

Drift magnitude trend

特徴ごとのドリフトの規模

このセクションには、選択した特徴の分布の経時的変化に対する特徴レベルの分析情報と、その他の統計情報が含まれています。

ターゲットデータセットも時間の経過に沿ってプロファイリングされます。各特徴のベースライン分布間の統計的な距離は、ターゲットデータセットの時間の経過と比較されます。概念的には、これはデータドリフトの規模と似ています。ただし、この統計的な距離は、すべての特徴ではなく、個々の特徴に対するものです。最小値、最大値、平均値も取得できます。

Azure Machine Learning Studio でグラフ内のバーを選択すると、その日付の特徴レベルの詳細が表示されます。既定では、同じ特徴について、ベースラインデータセットの分布と最近のジョブの分布が表示されます。

Drift magnitude by features

これらのメトリックは、Python SDK で、DataDriftDetector オブジェクトに get_metrics() メソッドを実行して取得することもできます。

特徴の詳細

最後に、下にスクロールして、個々の特徴の詳細を確認します。グラフの上にあるプルダウンを使用して特徴を選択し、詳細を確認するメトリックを選択します。

Numeric feature graph and comparison

グラフのメトリックは、特徴の種類によって異なります。

数値の特徴

メトリック	説明
ワッサースタイン距離	ベースライン分布をターゲット分布に変換するための最小限の作業量。
平均値	特徴量の平均値。
最小値	特徴量の最小値。
最大値	特徴量の最大値。

カテゴリ別の特徴

メトリック	説明
ユークリッド距離	カテゴリ列に対して計算されます。ユークリッド距離は 2 つのベクトルに対して計算され、2 つのデータセットからの同じカテゴリ列の経験的分布から生成されます。 0 は、経験的分布に差がないことを示します。 0 から外れるほど、この列のドリフトは大きくなります。傾向は、このメトリックの時系列プロットから観察でき、ドリフトが生じている特徴を明らかにするために役立ちます。
一意の値の数	特徴の一意の値 (カーディナリティ) の数。

メトリック

説明

ユークリッド距離

カテゴリ列に対して計算されます。ユークリッド距離は 2 つのベクトルに対して計算され、2 つのデータセットからの同じカテゴリ列の経験的分布から生成されます。 0 は、経験的分布に差がないことを示します。 0 から外れるほど、この列のドリフトは大きくなります。傾向は、このメトリックの時系列プロットから観察でき、ドリフトが生じている特徴を明らかにするために役立ちます。

一意の値の数

特徴の一意の値 (カーディナリティ) の数。

このグラフで、1 つの日付を選択して、表示された特徴のターゲットとこの日付の間の特徴の分布を比較します。数値の特徴の場合、これは 2 つの確率分布を示します。特徴が数値の場合、横棒グラフが表示されます。

Select a date to compare to target

メトリック、アラート、イベント

メトリックは、Machine Learning ワークスペースに関連付けられている Azure Application Insights リソースで照会できます。カスタムアラートルールの設定や、アクション (メール、SMS、プッシュ、音声、Azure 関数など) をトリガーするためのアクショングループの設定など、Application Insights のすべての機能にアクセスすることができます。詳細については、Application Insights の包括的ドキュメントを参照してください。

最初に、Azure portal に移動し、ワークスペースの [概要] ページを選択します。関連付けられている Application Insights リソースが右端に表示されます。

左側のペインの [監査] から [ログ (Analytics)] を選択します。

Application insights overview

データセットモニターのメトリックは、customMetrics として格納されます。データセットモニターの設定後、クエリを記述して実行すれば、それらを表示できます。

アラートルールを設定するためのメトリックを確認したら、新しいアラートルールを作成できます。

New alert rule

既存のアクショングループを使用するか、または、新しいアクショングループを作成して、設定した条件が満たされたときに実行されるアクションを定義することができます。

New action group

トラブルシューティング

データドリフトモニターに関する制限事項と既知の問題

履歴データ分析時の時間範囲は、モニターの頻度設定の 31 間隔までに制限されます。
特徴一覧が指定されていない (すべての特徴を使用する) 場合、200 の特徴に制限されます。
コンピューティングサイズは、データを処理できる十分な大きさにする必要があります。
特定のモニターのジョブについて、開始日と終了日の範囲に該当するデータがデータセットに存在することを確認します。
データセットモニターは、50 行以上を含むデータセットでのみ機能します。

データセット内の列、つまり特徴は、次の表の条件に基づいてカテゴリまたは数値として分類されます。特徴がこれらの条件を満たしていない場合 (たとえば、string 型の列に一意の値が >100 個含まれる場合)、その特徴はデータドリフトアルゴリズムから削除されますが、プロファイリングは引き続き行われます。

特徴の種類	データ型	条件	制限事項
Categorical	string	特徴内の一意の値の数は、100 個未満であり、かつ行数の 5% 未満であること。	null 値は独自のカテゴリとして扱われます。
数値	int、float	特徴内の値は数値データ型で、カテゴリの特徴の条件を満たしていません。	値の数の >15% を超える null が含まれる場合、その特徴は削除されます。

データドリフトモニターを作成したが、Azure Machine Learning Studio の "データセットモニター" ページにデータが表示されない場合は、次を試してください。
1. ページの一番上で正しい日付範囲が選択されているかどうかを確認します。
2. [データセットモニター] タブで、実験リンクを選択し、ジョブ状態を確認します。このリンクはテーブルの右端にあります。
3. ジョブが正常に完了したら、生成されているメトリックの数や警告メッセージがあるかどうかをドライバーログで確認します。実験を選択したら、[出力 + ログ] タブでドライバーログを見つけます。
SDK の backfill() 関数で予期された出力が生成されない場合は、認証の問題が原因である可能性があります。この関数に渡す計算を作成するときに、Run.get_context().experiment.workspace.compute_targets を使用しないでください。代わりに、次のような ServicePrincipalAuthentication を使用して、その backfill() 関数に渡す計算を作成します。
```
auth = ServicePrincipalAuthentication(
        tenant_id=tenant_id,
        service_principal_id=app_id,
        service_principal_password=client_secret
        )
ws = Workspace.get("xxx", auth=auth, subscription_id="xxx", resource_group="xxx")
compute = ws.compute_targets.get("xxx")
```
モデルデータコレクターからは、BLOB ストレージアカウントにデータが到着するまでに最大で 10 分かかることがあります。ただし、通常はそこまで時間はかかりません。スクリプトまたは Notebook で、次のセルが実行されるように、10 分間待機します。
```
import time
time.sleep(600)
```

次のステップ

Azure Machine Learning Studio または Python ノートブックに移動して、データセットモニターを設定する。
Azure Kubernetes Service にデプロイされたモデルでデータドリフトを設定する方法を確認する。
Azure Event Grid を使用してデータセットドリフトモニターを設定する。

データセットでデータ ドリフトを検出する (プレビュー)