A jutalompontszám a személyre szabás sikerességét jelzi

Fontos

2023. szeptember 20-tól nem hozhat létre új Personalizer-erőforrásokat. A Personalizer szolgáltatás 2026. október 1-jén megszűnik.

A jutalom pontszám azt jelzi, hogy a RewardActionID személyre szabási döntés milyen jól eredményezte a felhasználót. A jutalompont értékét az üzleti logika határozza meg a felhasználói viselkedés megfigyelései alapján.

A Personalizer a jutalmak kiértékelésével edzi gépi tanulási modelljeit.

Megtudhatja , hogyan konfigurálhatja az alapértelmezett jutalompontszámot az Azure Portalon a Personalizer-erőforráshoz.

Jutalompont küldése a Personalizernek a Reward API használatával

A Reward API a Reward API-val küldi el a jutalmakat a Personalizernek. A jutalom általában 0 és 1 közötti szám. A negatív jutalom - 1 értékkel bizonyos helyzetekben lehetséges, és csak akkor használható, ha ön megerősítési tanulásban (RL) járt. A Personalizer betanozza a modellt, hogy az idő során a lehető legmagasabb jutalomösszeget érje el.

A rendszer a jutalmakat a felhasználói viselkedés után küldi el, ami napokkal később is előfordulhat. A Maximális idő, ameddig a Personalizer megvárja, amíg egy esemény nem minősül jutalomnak, vagy egy alapértelmezett jutalom az Azure Portal reward várakozási idejével van konfigurálva.

Ha egy esemény jutalompontszáma nem érkezik meg a jutalom várakozási ideje alatt, akkor a rendszer alkalmazza az alapértelmezett jutalomértéket . Az Alapértelmezett jutalom általában nulla értékre van konfigurálva.

A jutalmakhoz megfontolandó viselkedések és adatok

Vegye figyelembe ezeket a jeleket és viselkedéseket a jutalompont kontextusában:

  • Közvetlen felhasználói bemenet a javaslatokhoz, ha a lehetőségek is szerepelnek ("Érted X?").
  • Munkamenet hossza.
  • Munkamenetek közötti idő.
  • A felhasználó interakcióinak hangulatelemzése.
  • Közvetlen kérdések és mini felmérések, amelyekben a robot visszajelzést kér a felhasználótól a hasznosságról, a pontosságról.
  • Riasztásokra adott válasz, illetve a riasztásokra adott válasz késleltetése.

Jutalompontszám összeállítása

A jutalompontot az üzleti logikában kell kiszámítani. A pontszám a következőképpen jeleníthető meg:

  • Egyszer elküldött szám
  • Egy azonnal elküldött pontszám (például 0,8) és egy később elküldött további pontszám (általában 0,2).

Alapértelmezett jutalmak

Ha a Jutalom várakozási ideje alatt nem kap jutalmat, a Rang hívás óta eltelt időtartam, a Personalizer implicit módon alkalmazza az Alapértelmezett jutalmat az adott Rang eseményre.

Jutalmak létrehozása több tényezővel

A hatékony személyre szabáshoz több tényező alapján is összeállíthatja a jutalompontszámot.

Ezeket a szabályokat alkalmazhatja például a videótartalmak listájának személyre szabásához:

Felhasználói viselkedés Részleges pontszámérték
A felhasználó a felső elemre kattintott. +0,5 jutalom
A felhasználó megnyitotta az elem tényleges tartalmát. +0,3 jutalom
A felhasználó 5 percet vagy 30%-ot figyelt meg, attól függően, hogy melyik hosszabb. +0,2 jutalom

Ezután elküldheti a teljes jutalmat az API-nak.

A Reward API többszöri meghívása

A Reward API-t ugyanazzal az eseményazonosítóval is meghívhatja, különböző jutalompontszámokat küldve. Amikor a Personalizer megkapja ezeket a jutalmakat, az a Personalizer-konfigurációban megadott összesítéssel határozza meg az esemény végső jutalmát.

Összesítési értékek:

  • Első: Az eseményhez kapott első jutalompontot veszi fel, és elveti a többit.
  • Összeg: Az eventId-hez gyűjtött összes jutalompontot felveszi, és összeadja őket.

A reward wait time után kapott események összes jutalmát elvetjük, és nem befolyásolják a modellek betanítását.

A jutalompontszámok hozzáadásával a végső jutalom a várt pontszámtartományon kívül eshet. Ez nem teszi tönkre a szolgáltatást.

Ajánlott eljárások a jutalompont kiszámításához

  • Vegye figyelembe a sikeres személyre szabás valódi mutatóit: A kattintások tekintetében könnyű gondolkodni, de a jó jutalom azon alapul, hogy mit szeretne elérni a felhasználók számára ahelyett, hogy azt szeretné, hogy az emberek mit tegyenek. A kattintások jutalmazása például a kattintásra hajlamos tartalom kiválasztásához vezethet.

  • Használjon jutalompontot, hogy milyen jó volt a személyre szabás: A filmjavaslat személyre szabása remélhetőleg azt eredményezi, hogy a felhasználó megnézi a filmet, és magas értékelést ad neki. Mivel a film minősítése valószínűleg sok mindentől függ (a színészi teljesítmény minősége, a felhasználó hangulata), nem jó jutalom jel arra, hogy mennyire működött a személyre szabás . A felhasználó figyeli az első néhány perc a film, azonban lehet, hogy jobb jele a személyre szabás hatékonyságát, és küld egy jutalom 1 után 5 perc lesz jobb jel.

  • A jutalmak csak a RewardActionID-re vonatkoznak: A Personalizer a jutalmakat a RewardActionID-ben megadott művelet hatékonyságának megértéséhez alkalmazza. Ha úgy dönt, hogy más műveleteket jelenít meg, és a felhasználó kiválasztja őket, a jutalom értéke nulla lesz.

  • Fontolja meg a nem kívánt következményeket: Jutalomfüggvények létrehozása, amelyek felelősségteljes eredményekhez vezetnek etikával és felelősségteljes használattal.

  • Növekményes jutalmak használata: A kisebb felhasználói viselkedésekért járó részjutalmak hozzáadása segít a Personalizernek a jobb jutalmak elérésében. Ez a növekményes jutalom lehetővé teszi az algoritmus számára, hogy tudja, egyre közelebb kerül ahhoz, hogy a felhasználót a végső kívánt viselkedésbe bevonja.

    • Ha a filmek listáját jeleníti meg, ha a felhasználó egy ideig az elsőre mutat, és további információkat szeretne látni, megállapíthatja, hogy történt-e valamilyen felhasználói előjegyzés. A viselkedés 0,1 jutalompontszámmal számolhat.
    • Ha a felhasználó megnyitotta az oldalt, majd kilépett, a jutalompontszám 0,2 lehet.

Jutalom várakozási ideje

A Personalizer korrelálja a Rank-hívás adatait a Reward-hívásokban küldött jutalmakkal a modell betanítása érdekében, amelyek különböző időpontokban érkezhetnek. A Personalizer meghatározott ideig várja a jutalompontszámot, kezdve a megfelelő ranghívással. Ez akkor is megtörténik, ha a Rang hívás késleltetett aktiválással történt](concept-active-inactive-events.md).

Ha a jutalom várakozási ideje lejár, és nem érkezett jutalominformáció, a rendszer egy alapértelmezett jutalomértéket alkalmaz az eseményre a betanításhoz. A jutalom várakozási ideje 10 perc, 4 óra, 12 óra vagy 24 óra lehet. Ha a forgatókönyv hosszabb jutalom-várakozási időt igényel (például marketinges e-mail-kampányok esetén), privát előzetes verziót kínálunk a hosszabb várakozási időkről. Nyisson meg egy támogatási jegyet az Azure Portalon, hogy kapcsolatba lépjen a csapattal, és ellenőrizze, hogy jogosult-e, és felajánlhatja önnek.

Ajánlott eljárások a jutalom-várakozási időhöz

Kövesse ezeket a javaslatokat a jobb eredmények érdekében.

  • A Reward várakozási idejét a lehető legrövidebbre állíthatja, miközben elegendő időt hagy a felhasználói visszajelzések lekérésére.

  • Ne válasszon olyan időtartamot, amely rövidebb, mint a visszajelzéshez szükséges idő. Ha például egy felhasználó 1 perces videó megtekintése után jut jut jutalmaihoz, a kísérlet hosszának legalább a duplájára kell nőnie.

Következő lépések