個人化工具術語

重要

從 2023 年 9 月 20 日起,您將無法建立新的個人化工具資源。 個人化工具服務將于 2026 年 10 月 1 日淘汰。

個人化工具使用增強式學習的術語。 這些詞彙會用於Azure 入口網站和 API。

概念術語

  • 學習迴圈 :您可以為應用程式的每個部分建立稱為 學習迴圈 的個人化工具資源,以受益于個人化。 如果您有多個個人化體驗,請為每個建立迴圈。

  • 模型 :個人化工具模型會擷取所有了解使用者行為的資料、從您傳送至排名和獎勵呼叫的引數組合取得定型資料,以及學習原則所決定的定型行為。

  • 線上模式 :個人化工具的預設 學習行為 ,其中您的學習迴圈會使用機器學習來建置模型,以預測 您內容的最高動作

  • 學徒模式 :學習 行為 ,可協助暖開機個人化工具模型來定型,而不會影響應用程式的結果和動作。

學習行為:

  • 線上模式 :傳回最佳動作。 您的模型會以最佳動作回應排名通話,並使用 Reward 呼叫來學習並改善其一段時間的選取專案。
  • 學徒模式 :學徒學習。 您的模型會藉由觀察現有系統的行為來學習。 排名呼叫一律會傳回應用程式 的預設動作 (基準)。

個人化工具設定

個人化工具是從 Azure 入口網站進行 設定。

  • 獎勵:設定獎勵等候時間、預設獎勵和獎勵匯總原則的預設值。

  • 探索 :設定用於探索的排名呼叫百分比

  • 模型更新頻率 :重新定型模型的頻率。

  • 資料保留 :要儲存的資料天數。 這可能會影響離線評估,這些評估可用來改善您的學習迴圈。

使用排名和獎勵 API

  • 排名 :假設動作具有功能和內容功能,請使用探索或惡意探索來傳回最上層動作(內容專案)。

    • 動作 :動作是內容專案,例如產品或促銷,可供選擇。 個人化工具會選擇最上層動作(傳回的獎勵動作識別碼),透過排名 API 向使用者顯示。

    • 內容 :若要提供更精確的排名,請提供內容的相關資訊,例如:

      • 您的使用者。
      • 其開啟的裝置。
      • 目前的時間。
      • 目前情況的其他資料。
      • 關於使用者或內容的歷史資料。

      您的特定應用程式可能會有不同的內容資訊。

    • 功能 :內容專案或使用者內容的相關資訊單位。 請務必只使用匯總的功能。 請勿使用特定時間、使用者識別碼或其他非匯總資料做為特徵。

      • 動作功能 是內容的相關中繼資料。
      • 內容功能 是內容呈現內容的相關中繼資料。
  • 探索 :個人化工具服務正在探索時機,而不是傳回最佳動作,而是為使用者選擇不同的動作。 個人化工具服務可避免漂移、停滯,並可藉由探索來適應進行中的使用者行為。

  • 學習的最佳動作 :個人化工具服務會使用目前的模型,根據過去的資料來決定最佳動作。

  • 實驗持續時間 :個人化工具服務等候獎勵的時間量,從該事件的 Rank 呼叫發生的那一刻開始。

  • 非使用中事件 :非作用中事件是您呼叫 Rank 的事件,但您不確定使用者將因為用戶端應用程式決策而看到結果。 非使用中事件可讓您建立和儲存個人化結果,然後決定稍後捨棄它們,而不會影響機器學習模型。

  • 獎勵 :測量使用者如何回應排名 API 傳回的獎勵動作識別碼,作為介於 0 到 1 之間的分數。 0 到 1 值是由商務邏輯所設定,根據選擇如何協助您達成個人化的商業目標。 學習迴圈不會將此獎勵儲存為個別使用者歷程記錄。

評估

離線評估

  • 評估 :離線評估會根據應用程式的資料決定迴圈的最佳學習原則。

  • 學習原則 :個人化工具如何在每一個事件上定型模型,取決於影響機器學習演算法運作方式的一些參數。 新的學習迴圈會從預設 學習原則 開始,這會產生適度的效能。 執行 評估 時,個人化工具會建立新的學習原則,特別針對迴圈的使用案例進行優化。 個人化工具會針對評估期間產生的每個特定迴圈優化原則,執行效能會大幅提升。 學習原則會在Azure 入口網站中個人化工具資源的模型和學習設定上 命名 為學習 設定

學徒模式評估

學徒模式提供下列 評估計量

  • 比較基準 – 平均獎勵:應用程式預設的平均獎勵 (基準)。
  • 個人化工具 – 平均獎勵:個人化工具可能達到的總獎勵 平均值。
  • 平均滾動獎勵:基準和個人化工具獎勵 的比例 – 在最近 1000 個事件中正規化。

下一步