Computer Vision モデルをトレーニングするために AutoML を設定する

[アーティクル]
11/07/2023

適用対象:Azure CLI ml extension v2 (現行)Python SDK azure-ai-ml v2 (現行)

この記事では、自動 ML を使用して、画像データで Computer Vision モデルをトレーニングする方法を説明します。モデルのトレーニングには、Azure Machine Learning CLI 拡張機能 v2 または Azure Machine Learning Python SDK v2 を使用してトレーニングできます。

自動 ML では、画像分類、物体検出、インスタンスセグメント化などの Computer Vision タスク用のモデルトレーニングがサポートされています。現在、Computer Vision タスク用の AutoML モデルの作成は、Azure Machine Learning Python SDK を介してサポートされています。結果として得られる実験の試行、モデル、出力には、Azure Machine Learning スタジオ UI からアクセスできます。画像データに対する Computer Vision タスク用の自動 ML の詳細を確認します。

タスクの種類	AutoML ジョブの構文
画像の分類	CLI v2: `image_classification` SDK v2: `image_classification()`
画像分類の複数ラベル	CLI v2: `image_classification_multilabel` SDK v2: `image_classification_multilabel()`
画像の物体検出	CLI v2: `image_object_detection` SDK v2: `image_object_detection()`
画像インスタンスのセグメント化	CLI v2: `image_instance_segmentation` SDK v2: `image_instance_segmentation()`

フィールド	説明
`image_url`	StreamInfo オブジェクトとしてファイルパスが含まれます
`image_details`	画像メタデータ情報は、高さ、幅、および形式で構成されます。このフィールドは省略可能であるため、存在する場合と存在しない場合があります。
`label`	タスクの種類に基づく画像ラベルの JSON 表現。

パラメーター	詳細
`max_trials`	スイープする試行の最大数のパラメーター。 1 ～ 1000 の整数にする必要があります。特定のモデルアーキテクチャで既定のハイパーパラメーターだけを探索する場合は、このパラメーターを 1 に設定します。既定値は 1 です。
`max_concurrent_trials`	同時に実行できる試行の最大数。指定する場合は、1 ～ 100 の整数にする必要があります。既定値は 1 です。注: 同時実行試行の数は、指定したコンピューティング先で使用可能なリソースによって制御されます。目的の同時実行可能性のために、使用可能なリソースをコンピューティング先に確保する必要があります。 `max_concurrent_trials` は内部的に `max_trials` に制限されます。たとえば、ユーザーが `max_concurrent_trials=4`、`max_trials=2` を設定した場合、値は内部的に `max_concurrent_trials=2`、`max_trials=2` に更新されます。
`timeout_minutes`	実験が終了するまでの時間 (分単位)。何も指定しない場合、既定の実験の timeout_minutes は 7 日です (最大 60 日)

タスク	モデルアーキテクチャ	文字列リテラル構文 `default_model`* を * で示す
画像の分類 (複数クラスおよび複数ラベル)	MobileNet: モバイルアプリケーション用の軽量モデル ResNet: 残差ネットワーク ResNeSt: スプリットアテンションネットワーク SE-ResNeXt50: スクイーズおよび励起ネットワーク ViT: Vision Transformer ネットワーク	`mobilenetv2` `resnet18` `resnet34` `resnet50` `resnet101` `resnet152` `resnest50` `resnest101` `seresnext` `vits16r224` (小) `vitb16r224`* (基本) `vitl16r224` (大)
オブジェクトの検出	YOLOv5: 1 ステージオブジェクト検出モデル Faster RCNN ResNet FPN: 2 ステージオブジェクト検出モデル RetinaNet ResNet FPN: Focal Loss によってクラスの不均衡に対処する注: YOLOv5 モデルのサイズについては、`model_size`ハイパーパラメーターを参照してください。	`yolov5`* `fasterrcnn_resnet18_fpn` `fasterrcnn_resnet34_fpn` `fasterrcnn_resnet50_fpn` `fasterrcnn_resnet101_fpn` `fasterrcnn_resnet152_fpn` `retinanet_resnet50_fpn`
インスタンスのセグメント化	MaskRCNN ResNet FPN	`maskrcnn_resnet18_fpn` `maskrcnn_resnet34_fpn` `maskrcnn_resnet50_fpn`* `maskrcnn_resnet101_fpn` `maskrcnn_resnet152_fpn`

タスク	モデルアーキテクチャ	文字列リテラル構文
画像の分類 (複数クラスおよび複数ラベル)	BEiT ViT DeiT SwinV2	`microsoft/beit-base-patch16-224-pt22k-ft22k` `google/vit-base-patch16-224` `facebook/deit-base-patch16-224` `microsoft/swinv2-base-patch4-window12-192-22k`
オブジェクトの検出	Sparse R-CNN Deformable DETR VFNet YOLOF Swin	`mmd-3x-sparse-rcnn_r50_fpn_300-proposals_crop-ms-480-800-3x_coco` `mmd-3x-sparse-rcnn_r101_fpn_300-proposals_crop-ms-480-800-3x_coco` `mmd-3x-deformable-detr_refine_twostage_r50_16xb2-50e_coco` `mmd-3x-vfnet_r50-mdconv-c3-c5_fpn_ms-2x_coco` `mmd-3x-vfnet_x101-64x4d-mdconv-c3-c5_fpn_ms-2x_coco` `mmd-3x-yolof_r50_c5_8x8_1x_coco`
インスタンスセグメント化	Swin	`mmd-3x-mask-rcnn_swin-t-p4-w7_fpn_1x_coco`

サンプリングの種類	AutoML ジョブの構文
ランダムサンプリング	`random`
グリッドサンプリング	`grid`
ベイジアンサンプリング:	`bayesian`

早期終了ポリシー	AutoML ジョブの構文
バンディットポリシー	CLI v2: `bandit` SDK v2: `BanditPolicy()`
中央値の停止ポリシー	CLI v2: `median_stopping` SDK v2: `MedianStoppingPolicy()`
切り捨て選択ポリシー	CLI v2: `truncation_selection` SDK v2: `TruncationSelectionPolicy()`

タスク	影響を受けるデータセット	適用されるデータ拡張手法
画像分類 (複数クラスおよび複数ラベル)	トレーニング検証とテスト	ランダムなサイズ変更とトリミング、左右反転、色ジッター (輝度、コントラスト、彩度、色相)、チャネルごとの ImageNet の平均と標準偏差を使用した正規化サイズ変更、中心のトリミング、正規化
物体検出、インスタンスのセグメント化	トレーニング検証とテスト	境界ボックス周囲のランダムなトリミング、展開、左右反転、正規化、サイズ変更正規化、サイズ変更
yolov5 を使用した物体検出	トレーニング検証とテスト	モザイク、ランダムアフィン (回転、平行移動、スケーリング、傾斜)、左右反転レターボックスのサイズ変更

タスク	パラメーター名	Default
画像分類 (複数クラスおよび複数ラベル)	`valid_resize_size` `valid_crop_size`	256 224
オブジェクトの検出	`min_size` `max_size` `box_score_thresh` `nms_iou_thresh` `box_detections_per_img`	600 1333 0.3 0.5 100
`yolov5` を使用した物体検出	`img_size` `model_size` `box_score_thresh` `nms_iou_thresh`	640 中 0.1 0.5
インスタンスのセグメント化	`min_size` `max_size` `box_score_thresh` `nms_iou_thresh` `box_detections_per_img` `mask_pixel_score_threshold` `max_number_of_polygon_points` `export_as_image` `image_type`	600 1333 0.3 0.5 100 0.5 100 False JPG

XAI アルゴリズム	アルゴリズム固有のパラメーター	既定値
`xrai`	1. `n_steps`: 概算法が使用するステップの数。ステップの数が多いほど、属性 (説明) の概算が改善します。 n_steps の範囲は [2, inf) ですが、属性のパフォーマンスは 50 ステップ後に収束し始めます。 `Optional, Int` 2. `xrai_fast`: より高速なバージョンの XRAI を使用するかどうか。 `True` の場合、説明の計算時間は速くなりますが、正確でない説明 (属性) につながります。 `Optional, Bool`	`n_steps = 50` `xrai_fast = True`
`integrated_gradients`	1. `n_steps`: 概算法が使用するステップの数。ステップの数が多いほど、属性 (説明) の概算が改善します。 n_steps の範囲は [2, inf) ですが、属性のパフォーマンスは 50 ステップ後に収束し始めます。 `Optional, Int` 2. `approximation_method`: 積分を概算する方法。使用可能な概算法は `riemann_middle` と `gausslegendre` です。 `Optional, String`	`n_steps = 50` `approximation_method = riemann_middle`

Computer Vision モデルをトレーニングするために AutoML を設定する

前提条件

タスクの種類の選択

データをトレーニングして検証する

JSONL スキーマのサンプル

データの使用

実験を実行するために計算する

実験を構成する

主要メトリック

ジョブの制限

モデルのハイパーパラメーターの自動スイープ (AutoMode)

AutoMode のトリガー

個々の試行

サポートされているモデル アーキテクチャ

サポートされているモデル アーキテクチャ - HuggingFace と MMDetection (プレビュー)

モデル ハイパーパラメーターの手動スイープ

パラメーター検索空間を定義する

スイープのサンプリング方法

早期終了ポリシー

固定設定

データの拡張

増分トレーニング (省略可能)

ジョブ ID を使用してチェックポイントを渡す

AutoML ジョブを送信する

出力と評価のメトリック

モデルを登録して展開する

最適な試行を取得する

モデルを登録する

オンライン エンドポイントを構成する

エンドポイントを作成する

オンライン デプロイを構成する

配置を作成する

トラフィックを更新する:

推論設定を更新する

展開をテスト

予測の説明を生成する

説明

視覚化の解釈

属性の解釈

大規模なデータセット

マルチ GPU とマルチノードのトレーニング

ストレージからの画像ファイルのストリーミング

サンプルの Notebook

コード例

次のステップ

その他のリソース

サポートされているモデルアーキテクチャ

サポートされているモデルアーキテクチャ - HuggingFace と MMDetection (プレビュー)

モデルハイパーパラメーターの手動スイープ

オンラインエンドポイントを構成する

オンラインデプロイを構成する