Meer informatie over voorspellende codering in Advanced eDiscovery (voorbeeld)Learn about predictive coding in Advanced eDiscovery (preview)

De module voor voorspellende codering in Advanced eDiscovery maakt gebruik van de intelligente, machine learning-mogelijkheden om u te helpen de hoeveelheid te controleren inhoud te beperken.The predictive coding module in Advanced eDiscovery uses the intelligent, machine learning capabilities to help you reduce the amount of content to review. Met voorspellende codering kunt u grote hoeveelheden case-inhoud beperken en verwijderen tot een relevante set items die u voor controle kunt prioriteren.Predictive coding helps you reduce and cull large volumes of case content to a relevant set of items that you can prioritize for review. Dit wordt gedaan door uw eigen voorspellende coderingsmodellen te maken en te trainen, zodat u prioriteit kunt geven aan de beoordeling van de meest relevante items in een revisieset.This is accomplished by creating and training your own predictive coding models that help you prioritize the review of the most relevant items in a review set.

De module voor voorspellende codering is ontworpen om de complexiteit van het beheren van een model in een revisieset te stroomlijnen en biedt een iteratieve benadering voor het trainen van uw model, zodat u sneller aan de slag kunt met de mogelijkheden voor machine learning in Advanced eDiscovery.The predictive coding module is designed to streamline the complexity of managing a model within a review set and provide an iterative approach to training your model so you can get started faster with the machine learning capabilities in Advanced eDiscovery. Om aan de slag te gaan, kunt u een model maken, maar liefst 50 items labelen als relevant of niet relevant.To get started, you can create a model, label as few as 50 items as relevant or not relevant. Het systeem gebruikt deze training om voorspellingsscores toe te passen op elk item in de revisieset.The system uses this training to apply prediction scores to every item in the review set. Hiermee kunt u items filteren op basis van de voorspellingsscore, zodat u eerst de meest relevante (of niet-relevante) items kunt bekijken.This lets you filter items based on the prediction score, which allows you to review the most relevant (or non-relevant) items first. Als u modellen met hogere nauwkeurigheid en terugroeptarieven wilt trainen, kunt u items in de volgende trainingsronden blijven labelen totdat het model zich stabiliseert.If you want to train models with higher accuracies and recall rates, you can continue labeling items in subsequent training rounds until the model stabilizes.

De werkstroom voor voorspellende coderingThe predictive coding workflow

Hier is een overzicht en beschrijving van elke stap voorspellende coderingswerkstroom.Here's an overview and description of each step predictive coding workflow. Zie Predictive coding reference (Voorspellende coderingsverwijzing) voor een gedetailleerdere beschrijving van de concepten en terminologie van het voorspellende coderingsproces.For a more detailed description of the concepts and terminology of the predictive coding process, see Predictive coding reference.

Werkstroom voor voorspellende codering

  1. Maak een nieuw voorspellend coderingsmodel in de revisieset.Create a new predictive coding model in the review set. De eerste stap is het maken van een nieuw voorspellend coderingsmodel in de revisieset.The first step is to create a new predictive coding model in the review set. U moet ten minste 2.000 items in de revisieset hebben om een model te maken.You must have at least 2,000 items in the review set to create a model. Nadat u een model hebt gemaakt, bepaalt het systeem het aantal items dat als besturingselementset moet worden gebruikt.After you create a model, the system will determine the number of items to use as a control set. De besturingselementenset wordt gebruikt tijdens het trainingsproces om de voorspellingsscores te evalueren die het model aan items toewijst met de labeling die u tijdens trainingsronden voert.The control set is used during the training process to evaluate the prediction scores that the model assigns to items with the labeling that you perform during training rounds. De grootte van de besturingselementset is gebaseerd op het aantal items in de revisieset en het betrouwbaarheidsniveau en de marge van foutwaarden die zijn ingesteld bij het maken van het model.The size of the control set is based on the number of items in the review set and the confidence level and margin of error values that are set when creating the model. Items in de besturingselementset worden nooit gewijzigd en zijn niet identificeerbaar voor gebruikers.Items in the control set never change and aren't identifiable to users.

    Zie Een voorspellend coderingsmodel makenvoor meer informatie.For more information, see Create a predictive coding model.

  2. Voltooi de eerste trainingsronde door items te labelen als relevant of niet relevant.Complete the first training round by labeling items as relevant or not relevant. De volgende stap is het trainen van het model door de eerste trainingsronde te starten.The next step is to train the model by starting the first round of training. Wanneer u een trainingsronde start, selecteert het model willekeurig extra items uit de revisieset, die de trainingsset wordt genoemd.When you start a training round, the model randomly selects additional items from the review set, which is called the training set. Deze items (zowel uit de besturingselementenset als de trainingsset) worden aan u gepresenteerd, zodat u elke items kunt labelen als 'relevant' of 'niet relevant'.These items (both from the control set and the training set) are presented to you so that you can label each one as either "relevant" or "not relevant". Relevantie is gebaseerd op de inhoud in het item en niet op een van de metagegevens van het document.Relevancy is based on the content in the item and not any of the document metadata. Nadat u het labelproces in de trainingsronde hebt voltooid, wordt het model 'leren' op basis van hoe u de items in de trainingsset hebt gelabeld.After you complete the labeling process in the training round, the model will "learn" based on how you labeled the items in the training set. Op basis van deze training verwerkt het model de items in de revisieset en wordt een voorspellingsscore op elk van de items toegepast.Based on this training, the model will process the items in the review set and apply a prediction score to each one.

    Zie Een voorspellend coderingsmodel trainen voor meer informatie.For more information, see Train a predictive coding model.

  3. Pas het voorspellingsscorefilter toe op items in de revisieset.Apply the prediction score filter to items in review set. Nadat de vorige trainingsstap is voltooid, is de volgende stap het toepassen van het voorspellingsscorefilter op de items in de revisie om de items weer te geven die volgens het model het meest relevant zijn (u kunt ook een voorspellingsfilter gebruiken om items weer te geven die 'niet relevant' zijn).After the previous training step is completed, the next step is to apply the prediction score filter to the items in the review to display the items that the model has determined are "most relevant" (alternatively, you could also use a prediction filter to display items that are "not relevant"). Wanneer u het voorspellingsfilter toe te passen, geeft u een bereik van voorspellingsscores op om te filteren.When you apply the prediction filter, you specify a range of prediction scores to filter. Het bereik van de voorspellingsscores valt tussen 0 en 1, met 0 als 'niet-relevant' en 1 als relevant.The range of prediction scores fall between 0 and 1, with 0 being "not-relevant" and 1 being relevant. In het algemeen worden items met voorspellingsscores tussen 0 en 0,5 beschouwd als 'niet-relevant' en items met voorspellingsscores tussen 0,5 en 1 worden als relevant beschouwd.In general, items with prediction scores between 0 and 0.5 are considered "not-relevant" and items with prediction scores between 0.5 and 1 are considered relevant.

    Zie Een voorspellingsfilter toepassen op een revisieset voor meer informatie.For more information, see Apply a prediction filter to a review set.

  4. Voer meer trainingsronden uit totdat het model is gestabiliseerd.Perform more training rounds until the model stabilizes. U kunt extra trainingsronden uitvoeren als u een model wilt maken met een hogere nauwkeurigheid van de voorspelling en hogere terugroeptarieven.You can perform additional rounds of training if you want to create a model with a higher accuracy of prediction and increased recall rates. Inroepsnelheid meet het percentage items dat het voorspelde model relevant was voor items die daadwerkelijk relevant zijn (de items die u tijdens de training hebt gemarkeerd als relevant).Recall rate measures the proportion of items the model predicted were relevant among items that are actually relevant (the ones you marked as relevant during training). De score voor inroepen varieert van 0 tot 1.The recall rate score ranges from 0 to 1. Een score dichter bij 1 geeft aan dat het model relevantere items identificeert.A score closer to 1 indicates the model will identify more relevant items. In een nieuwe trainingsronde labelt u extra items in een nieuwe trainingsset.In a new training round, you label additional items in a new training set. Nadat u de trainingsronde hebt voltooid, wordt het model bijgewerkt op basis van nieuwe informatie over uw meest recente ronde labelitems in de trainingsset.After you complete that training round, the model is updated based on new learning from your most recent round of labeling items in the training set. Het model verwerkt de items in de revisieset opnieuw en pas nieuwe voorspellingsscores toe.The model will process the items in the review set again, and apply new prediction scores. U kunt trainingsrondes blijven uitvoeren totdat uw model is gestabiliseerd.You can continue performing training rounds until your model stabilizes. Een model wordt als stabiel beschouwd wanneer het verlooppercentage na de laatste trainingsronde kleiner is dan 5%.A model is considered stabilized when the churn rate after the latest round of training is less than 5%. Het verlooppercentage wordt gedefinieerd als percentage van items in een revisieset waarin de voorspellingsscore tussen trainingsronden is gewijzigd.Churn rate is defined as percentage of items in a review set where the prediction score changed between training rounds. Het dashboard voor voorspellende codering bevat informatie en statistieken die u helpen bij het beoordelen van de stabiliteit van een model.The predictive coding dashboard displays information and statistics that help you assess the stability of a model.

  5. Pas het filter 'uiteindelijke' voorspellingsscore toe om de setitems te controleren om prioriteit te geven aan de beoordeling.Apply the "final" prediction score filter to review set items to prioritize review. Nadat u alle trainingsronden hebt voltooid en het model hebt gestabiliseerd, is de laatste stap het toepassen van de uiteindelijke voorspellingsscore op de revisieset om prioriteit te geven aan de beoordeling van relevante en niet-relevante items.After you complete all the training rounds and stabilize the model, the last step is to apply the final prediction score to the review set to prioritize the review of relevant and non-relevant items. Dit is dezelfde taak die u hebt uitgevoerd in stap 3, maar op dit moment is het model stabiel en bent u niet van plan meer trainingsronden uit te voeren.This is the same task that you performed in step 3, but at this point the model is stable and you don't plan on running any more training rounds.