Belöningspoäng indikerar att anpassningen lyckades

Belöningspoängen anger hur väl anpassningsvalet, RewardActionID,resulterade för användaren. Värdet av belöningspoängen bestäms av din affärslogik baserat på observationer av användarbeteende.

Personanpassare tränar sina maskininlärningsmodeller genom att utvärdera förmånerna.

Lär dig hur du konfigurerar standardpoängen för belöning i Azure Portal för din personanpassarresurs.

Använd Belönings-API för att skicka belöningspoäng till Personanpassare

Förmåner skickas till personanpassaren av BELÖNINGS-API:et. Vanligtvis är en belöning ett tal från 0 till 1. En negativ belöning med värdet -1 är möjlig i vissa scenarier och bör endast användas om du har erfarenhet av förstärkt inlärning (RL). Personanpassare tränar modellen för att uppnå högsta möjliga summa av förmåner över tid.

Förmåner skickas efter att användarbeteendet har inträffat, vilket kan ta några dagar senare. Den längsta tid som Personanpassaren väntar tills en händelse anses ha ingen belöning eller en standardbelöning konfigureras med väntetiden för belöning i Azure Portal.

Om belöningspoängen för en händelse inte har tagits emot inom väntetiden för belöning tillämpas standardbelöning. Standardbelöning konfigureras vanligtvis till noll.

Beteenden och data att överväga för förmåner

Överväg dessa signaler och beteenden för kontexten för belöningspoängen:

  • Direkta användarindata för förslag när det finns alternativ ("Menar du X?").
  • Sessionslängd.
  • Tid mellan sessioner.
  • Attitydanalys av användarens interaktioner.
  • Direkta frågor och miniundersökningar där roboten ber användaren om feedback om användbarhet, noggrannhet.
  • Svar på aviseringar eller fördröjning vid svar på aviseringar.

Skapa belöningspoäng

En belöningspoäng måste beräknas i din affärslogik. Poängen kan representeras som:

  • Ett enskilt tal som skickas en gång
  • En poäng skickas omedelbart (till exempel 0,8) och ytterligare en poäng skickas senare (vanligtvis 0,2).

Standardbelöningar

Om ingen belöning tas emot inom väntetidenför belöningen , varaktigheten sedan rankanropet, tillämpar Personanpassaren implicit standardbelöning för den rankninghändelsen.

Skapa förmåner med flera faktorer

För effektiv anpassning kan du bygga upp belöningspoängen baserat på flera faktorer.

Du kan till exempel tillämpa dessa regler för att anpassa en lista med videoinnehåll:

Användarbeteende Partiellt poängvärde
Användaren klickade på det översta objektet. +0,5 belöning
Användaren öppnade det faktiska innehållet för objektet. +0,3 belöning
Användaren bevakade 5 minuter av innehållet eller 30 %, beroende på vilket som är längre. +0,2 belöning

Du kan sedan skicka den totala belöningen till API:et.

Anropa belönings-API:et flera gånger

Du kan också anropa belönings-API:et med samma händelse-ID och skicka olika belöningspoäng. När Personanpassare får dessa förmåner avgör den den slutliga belöningen för händelsen genom att aggregera dem enligt vad som anges i konfigurationen för Personanpassare.

Sammansättningsvärden:

  • Först: Tar emot den första belöningspoängen för händelsen och tar bort resten.
  • Summa: Tar alla belöningspoäng som samlats in för eventId och lägger ihop dem.

Alla förmåner för en händelse, som tas emot efter väntetiden för belöning, tas bort och påverkar inte träningen av modeller.

Genom att lägga till belöningspoäng kan din slutliga belöning ligga utanför det förväntade poängintervallet. Detta gör inte att tjänsten misslyckas.

Metodtips för att beräkna belöningspoäng

  • Överväg sanna indikatorer för lyckad personanpassning: Det är lätt att tänka när det gäller klick, men en bra belöning baseras på vad du vill att användarna ska uppnå i stället för vad du vill att användarna ska göra. Till exempel kan tillfredsställande klickningar leda till att välja innehåll som är klickkänsligt.

  • Använd en belöningspoäng för hur bra anpassningen fungerade: Om du personiserar ett filmförslag skulle det förhoppningsvis leda till att användaren tittar på filmen och ger den ett högt omdöme. Eftersom filmomdömet förmodligen är beroende av många saker (kvaliteten på skådespelaren, användarens känsla) är det inte en bra belöningssignal för hur väl personanpassningen fungerade. Användaren som tittar på de första minuterna av filmen kan dock vara en bättre signal om anpassningens effektivitet och att skicka en belöning på 1 efter 5 minuter är en bättre signal.

  • Förmåner gäller endast för RewardActionID: Personifierare tillämpar förmånerna för att förstå hur väl åtgärden som anges i RewardActionID fungerar. Om du väljer att visa andra åtgärder och användaren klickar på dem ska belöningen vara noll.

  • Överväg oönskade konsekvenser: Skapa belöningsfunktioner som leder till ansvarsfulla resultat med etik och ansvarsfull användning.

  • Använd inkrementella förmåner: Genom att lägga till delbelöningar för mindre användarbeteenden kan Personanpassare uppnå bättre förmåner. Den här inkrementella belöningen gör att algoritmen vet att den närmar sig användarens slutliga önskade beteende.

    • Om du visar en lista över filmer och användaren hovrar över den första en stund för att se mer information kan du fastställa att användarinteragemang har skett. Beteendet kan räknas med en belöningspoäng på 0,1.
    • Om användaren öppnade sidan och sedan avslutar, kan belöningspoängen vara 0,2.

Väntetid för belöning

Personanpassaren korrelerar informationen för ett Rank-anrop med de förmåner som skickas i belöningssamtal för att träna modellen. Dessa kan komma vid olika tidpunkter. Personanpassaren väntar en begränsad tid, med början när rank-anropet gjordes, även om rank-anropet gjordes som en inaktiv händelse och aktiverades senare.

Om väntetiden för belöningen går ut och det inte finns någon information om belöningen tillämpas en standardbelöning på den händelsen för träning. Den maximala väntetiden är 2 dagar. Om ditt scenario kräver längre väntetider för belöning (t.ex. för marknadsföringskampanjer via e-post) erbjuder vi en privat förhandsversion av längre väntetider. Öppna ett support ärende i Azure Portal kontakta teamet och se om du kvalificerar dig och det kan erbjudas till dig.

Metodtips för väntetid för belöning

Följ dessa rekommendationer för att få bättre resultat.

  • Se till att väntetiden för belöningen är så kort som möjligt, samtidigt som du har tillräckligt med tid för att få feedback från användarna.

  • Välj inte en varaktighet som är kortare än den tid som krävs för att få feedback. Om till exempel några av dina förmåner kommer in efter att en användare har sett en minut av en video, bör experimentlängden vara minst dubbelt så lång.

Nästa steg