Belönings Poäng visar att anpassningen lyckadesReward scores indicate success of personalization

Belönings poängen anger hur bra det RewardActionIDsom har gjort det, för användaren.The reward score indicates how well the personalization choice, RewardActionID, resulted for the user. Värdet för belönings poängen bestäms av affärs logiken, baserat på observationer av användar beteende.The value of the reward score is determined by your business logic, based on observations of user behavior.

Personanpassa tågens maskin inlärnings modeller genom att utvärdera belöningarna.Personalizer trains its machine learning models by evaluating the rewards.

Lär dig hur du konfigurerar standard belönings poängen i Azure Portal för din personanpassa resurs.Learn how to configure the default reward score in the Azure portal for your Personalizer resource.

Använd belönings-API: et för att skicka belönings poängen till PersonanpassarenUse Reward API to send reward score to Personalizer

Förmåner skickas till Personanpassare av belönings-API: et.Rewards are sent to Personalizer by the Reward API. En belöning är vanligt vis en siffra mellan 0 och 1.Typically, a reward is a number from 0 to 1. En negativ belöning, med värdet-1, är möjlig i vissa scenarier och bör endast användas om du har erfarenhet av förstärknings inlärning (HUVUDWEBBADRESS).A negative reward, with the value of -1, is possible in certain scenarios and should only be used if you are experienced with reinforcement learning (RL). Personanpassare tågen modellen för att uppnå högsta möjliga summa av förmåner över tid.Personalizer trains the model to achieve the highest possible sum of rewards over time.

Förmåner skickas när användar beteendet har inträffat, vilket kan vara dagar senare.Rewards are sent after the user behavior has happened, which could be days later. Den maximala tid som Personanpassaren väntar tills en händelse anses vara ingen belöning eller en standard belöning har kon figurer ATS med försvars tid för betalning i Azure Portal.The maximum amount of time Personalizer will wait until an event is considered to have no reward or a default reward is configured with the Reward Wait Time in the Azure portal.

Om belönings poängen för en händelse inte har tagits emot inom svars tiden för belöningen, kommer standard belöningen att tillämpas.If the reward score for an event hasn't been received within the Reward Wait Time, then the Default Reward will be applied. Normalt är standard belöningen inställd på noll.Typically, the Default Reward is configured to be zero.

Beteenden och data som ska övervägas för förmånerBehaviors and data to consider for rewards

Ta hänsyn till dessa signaler och beteenden för belönings poängen:Consider these signals and behaviors for the context of the reward score:

  • Direkt indata från användaren för förslag när alternativ är inblandade ("vill du betyda X?").Direct user input for suggestions when options are involved ("Do you mean X?").
  • Sessionens längd.Session length.
  • Tid mellan sessioner.Time between sessions.
  • Sentiment analys av användarens interaktioner.Sentiment analysis of the user's interactions.
  • Direkta frågor och mini-undersökningar där roboten ber användaren om feedback om användbarhet, exakthet.Direct questions and mini surveys where the bot asks the user for feedback about usefulness, accuracy.
  • Svar på aviseringar eller fördröjning för att svara på aviseringar.Response to alerts, or delay to response to alerts.

Skriva belönings resultatComposing reward scores

En belönings Poäng måste beräknas i affärs logiken.A Reward score must be computed in your business logic. Poängen kan representeras som:The score can be represented as:

  • Ett enda nummer skickas en gångA single number sent once
  • En poäng som skickas omedelbart (till exempel 0,8) och ytterligare poäng som skickas senare (vanligt vis 0,2).A score sent immediately (such as 0.8) and an additional score sent later (typically 0.2).

Standard förmånerDefault Rewards

Om ingen belöning tas emot inom svarets vänte tid, varaktigheten sedan ranknings anropet, tillämpar den här klassificeringen implicit standard belöningen för denna rang-händelse.If no reward is received within the Reward Wait Time, the duration since the Rank call, Personalizer implicitly applies the Default Reward to that Rank event.

Skapa fördelar med flera faktorerBuilding up rewards with multiple factors

För effektiv anpassning kan du skapa belönings poängen baserat på flera faktorer.For effective personalization, you can build up the reward score based on multiple factors.

Du kan till exempel använda dessa regler för att anpassa en lista med video innehåll:For example, you could apply these rules for personalizing a list of video content:

Användar beteendeUser behavior Partiellt Poäng värdePartial score value
Användaren har klickat på det översta objektet.The user clicked on the top item. + 0,5-belöning+0.5 reward
Användaren öppnade det faktiska innehållet i objektet.The user opened the actual content of that item. + 0,3-belöning+0.3 reward
Användaren bevakade 5 minuter med innehållet eller 30%, beroende på vilket som är längre.The user watched 5 minutes of the content or 30%, whichever is longer. + 0,2-belöning+0.2 reward

Du kan sedan skicka den totala belöningen till API: et.You can then send the total reward to the API.

Anrop av belönings-API: n flera gångerCalling the Reward API multiple times

Du kan också anropa belönings-API: et med samma händelse-ID och skicka olika belönings poäng.You can also call the Reward API using the same event ID, sending different reward scores. När en Personanpassare får till gång till dessa förmåner fastställer den den slutliga belöningen för händelsen genom att aggregera dem enligt vad som anges i personanpassa konfigurationen.When Personalizer gets those rewards, it determines the final reward for that event by aggregating them as specified in the Personalizer configuration.

Sammansättnings värden:Aggregation values:

  • Först: tar de första belönings poängen emot för evenemanget och tar bort resten.First: Takes the first reward score received for the event, and discards the rest.
  • Sum: tar alla belönings resultat som samlas in för eventId och lägger till dem tillsammans.Sum: Takes all reward scores collected for the eventId, and adds them together.

Alla förmåner för en händelse, som tas emot efter den väntande tiden för belöningen, tas bort och påverkar inte inlärningen av modeller.All rewards for an event, which are received after the Reward Wait Time, are discarded and do not affect the training of models.

Genom att lägga till belönings resultat kan din slutliga belöning vara utanför det förväntade Poäng intervallet.By adding up reward scores, your final reward may be outside the expected score range. Detta gör inte att tjänsten fungerar.This won't make the service fail.

Metod tips för att beräkna belönings PoängBest Practices for calculating reward score

  • Överväg de sanna anpassnings indikatorerna: det är enkelt att tänka på när det gäller klickningar, men en bra belöning baseras på vad du vill att användarna ska uppnå i stället för vad du vill att användarna ska göra.Consider true indicators of successful personalization: It is easy to think in terms of clicks, but a good reward is based on what you want your users to achieve instead of what you want people to do. Till exempel kan belöningar i klick leda till att du väljer innehåll som är clickbaitt känsligt.For example, rewarding on clicks may lead to selecting content that is clickbait prone.

  • Använd en belönings Poäng för hur stor anpassningen fungerade: attanpassa ett film förslag skulle förhoppnings vis leda till att användaren tittar på filmen och ger den en hög klassificering.Use a reward score for how good the personalization worked: Personalizing a movie suggestion would hopefully result in the user watching the movie and giving it a high rating. Eftersom film klassificeringen förmodligen beror på många saker (kvaliteten på det som fungerar, stämningen av användaren), är det inte en bra belönings signal för hur väl anpassningen fungerade.Since the movie rating probably depends on many things (the quality of the acting, the mood of the user), it is not a good reward signal for how well the personalization worked. Användaren tittar på de första minuterna i filmen, men kan vara en bättre signal för anpassnings effektivitet och att skicka en belöning på 1 efter 5 minuter är en bättre signal.The user watching the first few minutes of the movie, however, may be a better signal of personalization effectiveness and sending a reward of 1 after 5 minutes will be a better signal.

  • Förmåner gäller endast för RewardActionID: med personanpassare tillämpas belöningarna för att förstå effektiviteten i den åtgärd som anges i RewardActionID.Rewards only apply to RewardActionID: Personalizer applies the rewards to understand the efficacy of the action specified in RewardActionID. Om du väljer att visa andra åtgärder och användaren klickar på dem ska belöningen vara noll.If you choose to display other actions and the user clicks on them, the reward should be zero.

  • Ta hänsyn till oönskade konsekvenser: skapa belönings funktioner som leder till ansvariga resultat med etik och ansvarig användning.Consider unintended consequences: Create reward functions that lead to responsible outcomes with ethics and responsible use.

  • Använd ökande belöningar: genom att lägga till del förmåner för mindre användar beteende kan du göra det lättare för användare att uppnå bättre fördelar.Use Incremental Rewards: Adding partial rewards for smaller user behaviors helps Personalizer to achieving better rewards. Den här stegvisa belöningen gör det möjligt för algoritmen att veta att den kommer närmare att engagera användaren i det slutliga önskade beteendet.This incremental reward allows the algorithm to know it's getting closer to engaging the user in the final desired behavior.

    • Om du visar en lista över filmer, om användaren hovrar över den första för ett tag för att se mer information, kan du fastställa att vissa användar engagemang har inträffat.If you are showing a list of movies, if the user hovers over the first one for a while to see more information, you can determine that some user-engagement happened. Beteendet kan räknas med en belönings poäng på 0,1.The behavior can count with a reward score of 0.1.
    • Om användaren öppnade sidan och sedan avslutas, kan belönings poängen vara 0,2.If the user opened the page and then exited, the reward score can be 0.2.

Vänte tid för belöningReward wait time

En personanpassare korrelerar informationen om ett rang samtal med de fördelar som skickas i belönings anrop för att träna modellen.Personalizer will correlate the information of a Rank call with the rewards sent in Reward calls to train the model. De kan komma att uppstå vid olika tidpunkter.These may come at different times. Personanpassaren väntar en begränsad tid och startar när rang anropet skedde, även om rang anropet gjordes som en inaktiv händelse och aktive ras senare.Personalizer waits for a limited time, starting when the Rank call happened, even if the Rank call was made as an inactive event, and activated later.

Om belöningens vänte tid upphör att gälla, och det inte finns någon belönings information, tillämpas en standard belöning för utbildning.If the Reward Wait Time expires, and there has been no reward information, a default reward is applied to that event for training. Maximal vänte tid är 6 dagar.The maximum wait duration is 6 days.

Metod tips för fördröjning av belöningBest practices for reward wait time

Följ dessa rekommendationer för bättre resultat.Follow these recommendations for better results.

  • Gör belönings vänte tiden så kort som möjligt, samtidigt som du lämnar tillräckligt med tid för att få feedback från användaren.Make the Reward Wait Time as short as you can, while leaving enough time to get user feedback.

  • Välj inte en varaktighet som är kortare än den tid som krävs för att få feedback.Don't choose a duration that is shorter than the time needed to get feedback. Om några av dina förmåner till exempel har tittat på 1 minut i en video bör experiment längden vara minst dubbel.For example, if some of your rewards come in after a user has watched 1 minute of a video, the experiment length should be at least double that.

Nästa stegNext steps