Personalizer のしくみHow Personalizer works

Personalizer のリソースである "学習ループ" は、機械学習を使用して、コンテンツの最上位のアクションを予測するモデルを構築します。The Personalizer resource, your learning loop, uses machine learning to build the model that predicts the top action for your content. このモデルは、RankReward の呼び出しを使用して送信したデータでのみトレーニングされます。The model is trained exclusively on your data that you sent to it with the Rank and Reward calls. すべてのループは、互いに完全に独立しています。Every loop is completely independent of each other.

Rank および Reward の API はモデルに影響を与えるRank and Reward APIs impact the model

"特徴のあるアクション" と "コンテキストの特徴" を Rank API に送信します。You send actions with features and context features to the Rank API. Rank API では、次のいずれかを使用することを決定できます。The Rank API decides to use either:

  • "活用": 過去のデータに基づいて最善のアクションを決定するための現在のモデル。Exploit: The current model to decide the best action based on past data.
  • "探索": 最上位のアクションではなく、別のアクションを選択します。Explore: Select a different action instead of the top action. Azure portal で Personalizer リソースに対してこのパーセンテージを構成します。You configure this percentage for your Personalizer resource in the Azure portal.

報酬スコアを判別し、そのスコアを Reward API に送信します。You determine the reward score and send that score to the Reward API. Reward API:The Reward API:

  • 各 Rank 呼び出しの特徴と報酬スコアを記録することによってモデルをトレーニングするためのデータを収集します。Collects data to train the model by recording the features and reward scores of each rank call.
  • そのデータを使用して、"学習ポリシー" に指定された構成に基づいてモデルを更新します。Uses that data to update the model based on the configuration specified in the Learning Policy.

Personalizer を呼び出すシステムYour system calling Personalizer

次の図は、Rank と Reward の呼び出しを呼び出すアーキテクチャの流れを示しています。The following image shows the architectural flow of calling the Rank and Reward calls:

代替テキストalt text

  1. "特徴のあるアクション" と "コンテキストの特徴" を Rank API に送信します。You send actions with features and context features to the Rank API.

    • Personalizer は、現在のモデルを活用するか、またはモデルの新しい選択肢を探索するかを決定します。Personalizer decides whether to exploit the current model or explore new choices for the model.
    • 順位付けの結果は EventHub に送信されます。The ranking result is sent to EventHub.
  2. 最上位のランクが、"報酬アクション ID" としてシステムに返されます。The top rank is returned to your system as reward action ID. システムはそのコンテンツを表示し、独自のビジネス ルールに基づいて報酬スコアを決定します。Your system presents that content and determines a reward score based on your own business rules.

  3. システムは学習ループに報酬スコアを返します。Your system returns the reward score to the learning loop.

    • Personalizer が報酬を受け取ると、その報酬が EventHub に送信されます。When Personalizer receives the reward, the reward is sent to EventHub.
    • 順位と報酬が関連付けられます。The rank and reward are correlated.
    • AI モデルが、相関関係の結果に基づいて更新されます。The AI model is updated based on the correlation results.
    • 推論エンジンが、新しいモデルで更新されます。The inference engine is updated with the new model.

Personalizer はモデルを再トレーニングするPersonalizer retrains your model

Personalizer は、Azure portal 内の Personalizer リソースのモデルの更新頻度設定に基づいて、モデルを再トレーニングします。Personalizer retrains your model based on your Model frequency update setting on your Personalizer resource in the Azure portal.

Personalizer は、Azure portal 内の Personalizer リソースに対するデータ保持設定の日数に基づいて、現在保持されているすべてのデータを使用します。Personalizer uses all the data currently retained, based on the Data retention setting in number of days on your Personalizer resource in the Azure portal.

Personalizer の背後にある研究Research behind Personalizer

Personalizer は、論文、研究活動、および現在進行中の Microsoft Research の探索分野を含む、強化学習分野の最先端の科学および研究に基づいています。Personalizer is based on cutting-edge science and research in the area of Reinforcement Learning including papers, research activities, and ongoing areas of exploration in Microsoft Research.

次のステップNext steps

Personalizer の主要なシナリオについて学習しますLearn about top scenarios for Personalizer