個人化工具的特性和限制

重要

從 2023 年 9 月 20 日起,您將無法建立新的個人化工具資源。 個人化工具服務將于 2026 年 10 月 1 日淘汰。

Azure AI 個人化工具可在許多情節下運作。 若要瞭解您可以套用個人化工具的位置,請確定案例的需求符合 個人化工具的運作 預期。 若要瞭解是否應該使用個人化工具,以及如何將其整合到您的應用程式中,請參閱 個人化工具 的使用案例。 您可以針對個人化工具的使用,找到選擇使用案例、設計功能和獎勵函式的準則和指引。

閱讀本文之前,瞭解個人化工具運作 方式的一些背景資訊 很有説明。

選取個人化工具的功能

個人化內容取決於內容和使用者有有用的資訊。 對於某些應用程式和產業,某些使用者功能可以直接或間接視為歧視性且可能違法。 請參閱個人化工具整合和負責任的使用指導方針 ,以評估要與個人化工具搭配使用的功能。

計算個人化工具的獎勵

個人化工具會學習根據應用程式商務邏輯所提供的獎勵分數來改善動作選擇。 建置完善的獎勵分數將作為與組織使命相關的商務目標短期 Proxy。 例如,獎勵點擊會讓個人化工具以犧牲其他一切為代價來搜尋點擊,即使點擊的專案會分散使用者的注意力,或未系結至業務成果。 相反地,新聞網站可能想要設定與點擊次數更有意義的獎勵,例如「使用者是否花足夠的時間閱讀內容?」或「使用者是否按一下相關文章或參考?使用個人化工具,可以輕鬆地將計量緊密地系結至獎勵。 不過,您必須小心不要混淆短期使用者參與所需的結果。

獎勵分數的意外後果

即使以最佳意圖建置獎勵分數,也可能會因為個人化工具如何排名內容而產生非預期的結果或非預期的結果。

請參考下列範例:

  • 根據所觀看影片長度百分比獎勵影片內容個人化,可能會傾向于將比較長影片更高的影片排名。
  • 獎勵社交媒體共用,而不需分析其共用方式或內容本身,可能會導致排名冒犯性、未經修改或煽動性的內容。 這種類型的內容往往煽動大量的參與,但通常是破壞性的。
  • 獎勵使用者不預期變更的使用者介面元素動作可能會干擾使用者介面的可用性和可預測性。 例如,在不發出警告的情況下變更位置或用途的按鈕,可能會使某些使用者群組難以保持生產力。

實作下列最佳做法:

  • 使用不同的獎勵方法來瞭解影響和副作用,以對您的系統執行離線實驗。
  • 評估您的獎勵函式,並詢問自己天真人如何改變其解釋,這可能會導致無意或不想要的結果。
  • 封存資訊與資產,例如模型、學習原則和其他資料,個人化工具用來運作,以便重現結果。

瞭解及改善效能的一般指導方針

由於個人化工具是以增強式學習為基礎,並從獎勵中學習,以在一段時間內做出更好的選擇,因此效能不會以分類器中使用的傳統監督學習詞彙來衡量,例如精確度和召回率。 個人化工具的效能會直接測量為透過 Reward API 從您的應用程式收到的獎勵分數總和。

當您使用個人化工具時,Azure 入口網站中的產品使用者介面會提供效能資訊,讓您可以監視並採取行動。 您可以透過下列方式來查看效能:

  • 如果個人化工具處於線上學習模式,您可以執行 離線評估
  • 如果個人化工具處於 學徒模式 ,您可以在 Azure 入口網站 [評估] 窗格中的 [評估] 窗格中看到效能計量(模擬的事件和模擬的獎勵)。

建議您執行頻繁的離線評估,以維持監督。 這項工作將協助您監視趨勢,並確保有效性。 例如,如果獎勵效能下降,您可以決定暫時將個人化工具放在學徒模式中。

離線評估中顯示的個人化工具效能估計值:限制

我們會將個人化工具的「效能」定義為在使用期間取得的總獎勵。 個人化工具效能估計值會顯示在離線評估中,而不是測量。 請務必瞭解這些估計的限制:

  • 預估值是以過去的資料為基礎,因此未來效能可能會隨著世界和使用者變更而有所不同。
  • 基準效能的估計值會以概率計算。 因此,基準平均獎勵的信賴區間很重要。 估計值會隨著更多事件而更精確。 如果您在每個 Rank 呼叫中使用較少的動作,效能估計值可能會增加信賴度,因為個人化工具可能會為每個事件選擇其中任何一個動作(包括基準動作)。
  • 個人化工具會以近乎即時的方式訓練模型,以改善針對每個事件選擇的動作,因此會影響取得的總獎勵。 模型效能會隨著時間而有所不同,視最近的過去定型資料而定。
  • 探索和動作選擇是個人化工具模型引導的隨機程式。 用於這些隨機進程的亂數會從事件識別碼植入。若要確保探索惡意探索和其他隨機處理常式的重現性,請使用相同的事件識別碼。
  • 線上效能可能會受到 探索 限制。 降低探索設定會限制收集多少資訊,以掌握不斷變化的趨勢和使用模式,因此平衡取決於每個使用案例。 某些使用案例需要從較高的探索設定開始,並隨著時間減少它們(例如,從 30% 開始,減少到 10%)。

檢查可能不小心偏差個人化工具的現有模型

應用程式可以使用現有的建議、客戶分割和傾向模型輸出作為個人化工具的輸入。 個人化工具會學會忽略不參與獎勵的功能。 檢閱並評估任何傾向模型,以判斷它們是否善於預測獎勵,並包含可能會造成副作用的強烈偏見。 例如,尋找可能以有害造型為基礎的建議。 請考慮使用 FairLearn 之類的 工具來協助程式。

在專案生命週期期間主動評估

請考慮為小組成員、使用者和企業擁有者建立方法,以回報有關負責任用途的疑慮,以及排定其解決優先順序的程式。 請考慮處理負責的工作,就像應用程式生命週期中的其他跨任務一樣,例如與使用者體驗、安全性或 DevOps 相關的工作。 與負責任使用相關的工作及其需求不應該是事後思考。 在應用程式生命週期中,應該討論並實作負責任的使用。

下一步