Offline-evaluatie

Offline-evaluatie is een methode waarmee u de effectiviteit van de Personalizer-service kunt testen en beoordelen zonder uw code te wijzigen of de gebruikerservaring te beïnvloeden. Offline evaluatie maakt gebruik van eerdere gegevens, die vanuit uw toepassing zijn verzonden naar de Rank- en Reward-API's, om te vergelijken hoe verschillende rangschikkingen hebben gepresteerd.

Offline evaluatie wordt uitgevoerd op een datumbereik. Het bereik kan zo laat worden eindigt als de huidige tijd. Het begin van het bereik mag niet meer zijn dan het aantal dagen dat is opgegeven voor gegevensretentie.

Offline evaluatie kan u helpen bij het beantwoorden van de volgende vragen:

  • Hoe effectief zijn Personalizer-rangschikdingen voor een succesvolle personalisatie?
    • Wat zijn de gemiddelde beloningen die worden behaald door het online personalizer machine learning beleid?
    • Hoe verhoudt Personalizer zich tot de effectiviteit van wat de toepassing standaard zou hebben gedaan?
    • Wat zou de vergelijkende effectiviteit zijn van een willekeurige keuze voor personalisatie?
    • Wat zou de vergelijkende effectiviteit zijn van verschillende leerbeleidsregels die handmatig zijn opgegeven?
  • Welke functies van de context dragen meer of minder bij aan een geslaagde personalisatie?
  • Welke functies van de acties dragen meer of minder bij aan een geslaagde personalisatie?

Daarnaast kan offline-evaluatie worden gebruikt om geoptimaliseerd leerbeleid te ontdekken dat Personalizer kan gebruiken om de resultaten in de toekomst te verbeteren.

Offline evaluaties bieden geen richtlijnen voor het percentage gebeurtenissen dat moet worden gebruikt voor verkenning.

Vereisten voor offline evaluatie

Hier volgen belangrijke overwegingen voor de representatieve offline evaluatie:

  • Voldoende gegevens hebben. Het aanbevolen minimum is ten minste 50.000 gebeurtenissen.
  • Gegevens verzamelen uit perioden met representatief gebruikersgedrag en -verkeer.

Het geoptimaliseerde leerbeleid detecteren

Personalizer kan het offline-evaluatieproces gebruiken om automatisch een optimaal leerbeleid te ontdekken.

Na het uitvoeren van de offline-evaluatie ziet u de vergelijkende effectiviteit van Personalizer met dat nieuwe beleid vergeleken met het huidige onlinebeleid. U kunt dat leerbeleid vervolgens toepassen om het onmiddellijk van kracht te maken in Personalizer, door het te downloaden en te uploaden in het deelvenster Modellen en beleid. U kunt deze ook downloaden voor toekomstige analyse of gebruik.

Huidige beleidsregels die zijn opgenomen in de evaluatie:

Learning instellingen Doel
Onlinebeleid Het huidige Learning dat wordt gebruikt in Personalizer
Basislijn De standaardwaarde van de toepassing (zoals wordt bepaald door de eerste actie die wordt verzonden in Rank-aanroepen)
Willekeurig beleid Een denkbeeldig Positie-gedrag dat altijd een willekeurige keuze van acties van de opgegeven acties retourneert.
Aangepast beleid Aanvullende Learning geüpload bij het starten van de evaluatie.
Geoptimaliseerd beleid Als de evaluatie is gestart met de optie om een geoptimaliseerd beleid te ontdekken, wordt het ook vergeleken en kunt u het downloaden of het online leerbeleid maken, en het huidige beleid vervangen.

Inzicht in de relevantie van offline evaluatieresultaten

Wanneer u een offline-evaluatie hebt uitgevoerd, is het heel belangrijk om de betrouwbaarheidsgrens van de resultaten te analyseren. Als ze breed zijn, betekent dit dat uw toepassing niet voldoende gegevens heeft ontvangen om de beloningsschattingen nauwkeurig of significant te maken. Naarmate het systeem meer gegevens verzamelt en u offline evaluaties gedurende langere perioden uitvoeren, worden de betrouwbaarheidsintervallen smaller.

Hoe offline evaluaties worden uitgevoerd

Offline-evaluaties worden uitgevoerd met behulp van een methode met de naam Counterfactual Evaluation.

Personalizer is gebaseerd op de veronderstelling dat het gedrag van gebruikers (en dus beloningen) onmogelijk is om achteraf te voorspellen (Personalizer kan niet weten wat er zou zijn gebeurd als er iets anders was weergegeven dan wat de gebruiker zag) en alleen om te leren van gemeten beloningen.

Dit is het conceptuele proces dat wordt gebruikt voor evaluaties:

[For a given _learning policy), such as the online learning policy, uploaded learning policies, or optimized candidate policies]:
{
    Initialize a virtual instance of Personalizer with that policy and a blank model;

    [For every chronological event in the logs]
    {
        - Perform a Rank call

        - Compare the reward of the results against the logged user behavior.
            - If they match, train the model on the observed reward in the logs.
            - If they don't match, then what the user would have done is unknown, so the event is discarded and not used for training or measurement.

    }

    Add up the rewards and statistics that were predicted, do some aggregation to aid visualizations, and save the results.
}

Bij de offline-evaluatie wordt alleen geobserveerd gebruikersgedrag gebruikt. Met dit proces worden grote hoeveelheden gegevens verwijderd, met name als uw toepassing Rank-aanroepen met een groot aantal acties doet.

Evaluatie van functies

Offline-evaluaties kunnen informatie bieden over hoeveel specifieke functies voor acties of context worden afgetrokken voor hogere beloningen. De informatie wordt berekend met behulp van de evaluatie op basis van de opgegeven tijdsperiode en gegevens, en kan variëren met de tijd.

We raden u aan functie-evaluaties te kijken en het volgende te vragen:

  • Welke andere, aanvullende functies kan uw toepassing of systeem bieden volgens de regels van de functies die effectiever zijn?
  • Welke functies kunnen worden verwijderd vanwege een lage effectiviteit? Kenmerken met een lage effectiviteit voegen ruis toe aan de machine learning.
  • Zijn er functies die per ongeluk zijn opgenomen? Voorbeelden hiervan zijn: identificeerbare gegevens van gebruikers, dubbele identiteiten, enzovoort.
  • Zijn er ongewenste functies die niet mogen worden gebruikt om te personaliseren vanwege wettelijke of verantwoorde overwegingen voor gebruik? Zijn er functies die ongewenste functies kunnen proxyeren (dat wil zeggen, nauw spiegelen of correleren met) ?

Volgende stappen

Personalizer configureren Offline-evaluaties uitvoeren Begrijpen hoe Personalizer werkt