個人化工具術語

發行項
01/19/2024

重要

從 2023 年 9 月 20 日起，您將無法建立新的個人化工具資源。個人化工具服務將于 2026 年 10 月 1 日淘汰。

個人化工具使用增強式學習的術語。這些詞彙會用於Azure 入口網站和 API。

概念術語

學習迴圈 ：您可以為應用程式的每個部分建立稱為 學習迴圈 的個人化工具資源，以受益于個人化。如果您有多個個人化體驗，請為每個建立迴圈。
模型：個人化工具模型會擷取所有了解使用者行為的資料、從您傳送至排名和獎勵呼叫的引數組合取得定型資料，以及學習原則所決定的定型行為。
線上模式 ：個人化工具的預設學習行為，其中您的學習迴圈會使用機器學習來建置模型，以預測 您內容的最高動作 。
學徒模式 ：學習行為，可協助暖開機個人化工具模型來定型，而不會影響應用程式的結果和動作。

學習行為：

線上模式 ：傳回最佳動作。您的模型會以最佳動作回應排名通話，並使用 Reward 呼叫來學習並改善其一段時間的選取專案。
學徒模式 ：學徒學習。您的模型會藉由觀察現有系統的行為來學習。排名呼叫一律會傳回應用程式 的預設動作 （基準）。

個人化工具設定

個人化工具是從 Azure 入口網站進行設定。

獎勵：設定獎勵等候時間、預設獎勵和獎勵匯總原則的預設值。
探索：設定用於探索的排名呼叫百分比
模型更新頻率 ：重新定型模型的頻率。
資料保留 ：要儲存的資料天數。這可能會影響離線評估，這些評估可用來改善您的學習迴圈。

使用排名和獎勵 API

排名：假設動作具有功能和內容功能，請使用探索或惡意探索來傳回最上層動作（內容專案）。
- 動作：動作是內容專案，例如產品或促銷，可供選擇。個人化工具會選擇最上層動作（傳回的獎勵動作識別碼），透過排名 API 向使用者顯示。
- 內容：若要提供更精確的排名，請提供內容的相關資訊，例如：
  - 您的使用者。
  - 其開啟的裝置。
  - 目前的時間。
  - 目前情況的其他資料。
  - 關於使用者或內容的歷史資料。
  您的特定應用程式可能會有不同的內容資訊。
- 功能：內容專案或使用者內容的相關資訊單位。請務必只使用匯總的功能。請勿使用特定時間、使用者識別碼或其他非匯總資料做為特徵。
  - 動作功能 是內容的相關中繼資料。
  - 內容功能 是內容呈現內容的相關中繼資料。
探索：個人化工具服務正在探索時機，而不是傳回最佳動作，而是為使用者選擇不同的動作。個人化工具服務可避免漂移、停滯，並可藉由探索來適應進行中的使用者行為。
學習的最佳動作 ：個人化工具服務會使用目前的模型，根據過去的資料來決定最佳動作。
實驗持續時間 ：個人化工具服務等候獎勵的時間量，從該事件的 Rank 呼叫發生的那一刻開始。
非使用中事件 ：非作用中事件是您呼叫 Rank 的事件，但您不確定使用者將因為用戶端應用程式決策而看到結果。非使用中事件可讓您建立和儲存個人化結果，然後決定稍後捨棄它們，而不會影響機器學習模型。
獎勵：測量使用者如何回應排名 API 傳回的獎勵動作識別碼，作為介於 0 到 1 之間的分數。 0 到 1 值是由商務邏輯所設定，根據選擇如何協助您達成個人化的商業目標。學習迴圈不會將此獎勵儲存為個別使用者歷程記錄。

評估

離線評估

評估：離線評估會根據應用程式的資料決定迴圈的最佳學習原則。
學習原則 ：個人化工具如何在每一個事件上定型模型，取決於影響機器學習演算法運作方式的一些參數。新的學習迴圈會從預設 學習原則 開始，這會產生適度的效能。執行評估時，個人化工具會建立新的學習原則，特別針對迴圈的使用案例進行優化。個人化工具會針對評估期間產生的每個特定迴圈優化原則，執行效能會大幅提升。學習原則會在Azure 入口網站中個人化工具資源的模型和學習設定上 命名 為學習 設定 。

學徒模式評估

學徒模式提供下列 評估計量 ：

比較基準 – 平均獎勵：應用程式預設的平均獎勵 （基準）。
個人化工具 – 平均獎勵：個人化工具可能達到的總獎勵 平均值。
平均滾動獎勵：基準和個人化工具獎勵 的比例 – 在最近 1000 個事件中正規化。

下一步

瞭解道德和負責任的使用

個人化工具術語

概念術語

學習行為：

個人化工具設定

使用排名和獎勵 API

評估

離線評估

學徒模式評估

下一步

其他資源