Personalizer のしくみ

重要

2023 年 9 月 20 日以降は、新しい Personalizer リソースを作成できなくなります。 Personalizer サービスは、2026 年 10 月 1 日に廃止されます。

Personalizer のリソースである "学習ループ" は、機械学習を使用して、コンテンツの最上位のアクションを予測するモデルを構築します。 このモデルは、RankReward の呼び出しを使用して送信したデータでのみトレーニングされます。 すべてのループは、互いに完全に独立しています。

Rank および Reward の API はモデルに影響を与える

"特徴のあるアクション" と "コンテキストの特徴" を Rank API に送信します。 Rank API では、次のいずれかを使用することを決定できます。

  • 悪用: 過去のデータに基づいて最善のアクションを決定するための現在のモデル。
  • 探索: 最上位のアクションではなく、別のアクションを選択します。 Azure portal で Personalizer リソースに対してこのパーセンテージを構成します。

報酬スコアを判別し、そのスコアを Reward API に送信します。 Reward API:

  • 各 Rank 呼び出しの特徴と報酬スコアを記録することによってモデルをトレーニングするためのデータを収集します。
  • そのデータを使用して、"学習ポリシー" に指定された構成に基づいてモデルを更新します。

Personalizer を呼び出すシステム

次の図は、Rank と Reward の呼び出しを呼び出すアーキテクチャの流れを示しています。

alt text

  1. "特徴のあるアクション" と "コンテキストの特徴" を Rank API に送信します。

    • Personalizer は、現在のモデルを活用するか、またはモデルの新しい選択肢を探索するかを決定します。
    • 順位付けの結果は EventHub に送信されます。
  2. 最上位のランクが、"報酬アクション ID" としてシステムに返されます。 システムはそのコンテンツを表示し、独自のビジネス ルールに基づいて報酬スコアを決定します。

  3. システムは学習ループに報酬スコアを返します。

    • Personalizer が報酬を受け取ると、その報酬が EventHub に送信されます。
    • 順位と報酬が関連付けられます。
    • AI モデルが、相関関係の結果に基づいて更新されます。
    • 推論エンジンが、新しいモデルで更新されます。

Personalizer はモデルを再トレーニングする

Personalizer は、Azure portal 内の Personalizer リソースのモデルの更新頻度設定に基づいて、モデルを再トレーニングします。

Personalizer は、Azure portal 内の Personalizer リソースに対するデータ保持設定の日数に基づいて、現在保持されているすべてのデータを使用します。

Personalizer の背後にある研究

Personalizer は、論文、研究活動、および現在進行中の Microsoft Research の探索分野を含む、強化学習分野の最先端の科学および研究に基づいています。

次のステップ

Personalizer の主要なシナリオについて学習します