学習ポリシーと設定

[アーティクル]
01/19/2024

重要

2023 年 9 月 20 日以降は、新しい Personalizer リソースを作成できなくなります。 Personalizer サービスは、2026 年 10 月 1 日に廃止されます。

学習の設定では、モデルトレーニングの "ハイパーパラメーター" が決定されます。同じデータの 2 つのモデルが、異なる学習設定でトレーニングされると、最終的には別のものになります。

学習ポリシーと設定は、Azure portal で Personalizer リソースに対して設定されます。

学習ポリシーのインポートとエクスポート

学習ポリシーのファイルは、Azure portal からインポートおよびエクスポートできます。この方法を使用して、将来的な参照と監査のために、既存のポリシーをソースコード管理で成果物として保存、テスト、置換、アーカイブします。

Azure portal で Personalizer リソースの学習ポリシーをインポートおよびエクスポートする方法をご覧ください。

学習ポリシーの設定について

学習ポリシーの設定は、変更されることが想定されていません。 Personalizer に対する影響がわかっている場合にのみ、設定を変更してください。これがわかっていないと、Personalizer モデルの無効化など、問題が発生する可能性があります。

Personalizer は、vowpalwabbit を使用してイベントのトレーニングとスコア付けを行います。 vowpalwabbit を使用して学習設定を編集する方法については、vowpalwabbit のドキュメントを参照してください。正しいコマンドライン引数を指定したら、以下の形式 (arguments プロパティの値は、目的のコマンドに置き換えてください) でコマンドをファイルに保存します。Azure portal から Personalizer リソースの [モデルと学習設定] ペインで、そのファイルをアップロードし、学習設定をインポートしてください。

次の .json は、学習ポリシーの例です。

{
  "name": "new learning settings",
  "arguments": " --cb_explore_adf --epsilon 0.2 --power_t 0 -l 0.001 --cb_type mtr -q ::"
}

学習ポリシーを比較する

オフライン評価を実施することで、Personalizer ログの過去のデータに対してさまざまな学習ポリシーを適用した場合の差を比較できます。

現在の学習ポリシーと比較するには、独自の学習ポリシーをアップロードします。

学習ポリシーを最適化する

Personalizer では、オフライン評価に最適化された学習ポリシーを作成できます。オフライン評価での報酬がよくなるように最適化された学習ポリシーほど、Personalizer でオンライン使用したときの結果がよくなります。

学習ポリシーを最適化した後は、Personalizer にそれを直接適用し、現在のポリシーをすぐに置き換えることができます。または、最適化されたポリシーをさらに評価するために保存しておき、後でそのポリシーを破棄、保存、適用するかどうかを決定することもできます。

次のステップ

アクティブおよび非アクティブなイベントについて学習します。