Entraîner un modèle de codage prédictif (préversion)

Article
10/01/2023

Après avoir créé un modèle de codage prédictif dans Microsoft Purview eDiscovery (Premium), l’étape suivante consiste à effectuer le premier cycle d’entraînement pour entraîner le modèle sur le contenu pertinent et non pertinent dans votre jeu de révision. Après avoir terminé la première série d’entraînement, vous pouvez effectuer des cycles d’entraînement suivants pour améliorer la capacité du modèle à prédire le contenu pertinent et non pertinent.

Pour passer en revue le workflow de codage prédictif, consultez En savoir plus sur le codage prédictif dans eDiscovery (Premium)

Conseil

Si vous n’êtes pas un client E5, utilisez la version d’évaluation de 90 jours des solutions Microsoft Purview pour découvrir comment des fonctionnalités Supplémentaires purview peuvent aider vos organization à gérer les besoins en matière de sécurité et de conformité des données. Commencez dès maintenant au hub d’essais portail de conformité Microsoft Purview. En savoir plus sur les conditions d’inscription et d’essai.

Avant d’effectuer l’apprentissage d’un modèle

Pendant un cycle de formation, étiquetez les éléments comme Pertinents ou Non pertinents en fonction de la pertinence du contenu du document. Ne basez pas votre décision sur les valeurs des champs de métadonnées. Par exemple, pour les messages électroniques ou les conversations Teams, ne basez pas votre décision d’étiquetage sur les participants au message.

Effectuer l’apprentissage d’un modèle pour la première fois

Dans le portail de conformité Microsoft Purview, ouvrez un cas eDiscovery (Premium), puis sélectionnez l’onglet Vérifier les ensembles.
Ouvrez un jeu de révision, puis sélectionnez Analytics>Gérer le codage prédictif (préversion) .
Dans la page Modèles de codage prédictifs (préversion), sélectionnez le modèle que vous souhaitez entraîner.
Sous l’onglet Vue d’ensemble , sous Round 1, sélectionnez Start next training round (Démarrer la prochaine série d’entraînement).

L’onglet Formation s’affiche et contient 50 éléments à étiqueter.
Passez en revue chaque document, puis sélectionnez le bouton Pertinent ou Non pertinent en bas du volet de lecture pour l’étiqueter.
Après avoir étiqueté les 50 éléments, sélectionnez Terminer.

Il faudra quelques minutes au système pour « apprendre » de votre étiquetage et mettre à jour le modèle. Une fois ce processus terminé, un status de Prêt s’affiche pour le modèle dans la page Modèles de codage prédictif (préversion).

Effectuer des rondes d’entraînement supplémentaires

Après avoir effectué la première série d’entraînement, vous pouvez effectuer les cycles d’entraînement suivants en suivant les étapes de la section précédente. La seule différence est que le nombre du cycle d’entraînement sera mis à jour sous l’onglet Vue d’ensemble du modèle. Par exemple, après avoir effectué la première ronde d’entraînement, vous pouvez sélectionner Démarrer la prochaine série d’entraînement pour commencer la deuxième série d’entraînement. Et ainsi de suite.

Chaque cycle d’entraînement (ceux en cours et ceux qui sont terminés) s’affiche sous l’onglet Entraînement du modèle. Lorsque vous sélectionnez un cycle d’entraînement, une page de menu volant contenant des informations et des métriques pour la ronde s’affiche.

Que se passe-t-il après avoir effectué une ronde d’entraînement

Une fois que vous avez effectué la première ronde d’entraînement, un travail est démarré et effectue les opérations suivantes :

En fonction de la façon dont vous avez étiqueté les 40 éléments du jeu d’entraînement, le modèle apprend de votre étiquetage et se met à jour pour devenir plus précis.
Le modèle traite ensuite chaque élément de l’ensemble de révision et attribue un score de prédiction compris entre 0 (non pertinent) et 1 (pertinent).
Le modèle affecte un score de prédiction aux 10 éléments du jeu de contrôles que vous avez étiqueté pendant la ronde d’entraînement. Le modèle compare le score de prédiction de ces 10 éléments avec l’étiquette réelle que vous avez affectée à l’élément pendant la ronde d’entraînement. Sur la base de cette comparaison, le modèle identifie la classification suivante (appelée matrice de confusion du jeu de contrôles) pour évaluer les performances de prédiction du modèle :

Étiquette	Le modèle prédit que l’élément est pertinent	Le modèle prédit que l’élément n’est pas pertinent
Élément d’étiquettes de réviseur comme pertinent	Vrai positif	Faux positif
Réviseur étiquette l’élément comme non pertinent	Faux négatif	Vrai négatif

Sur la base de ces comparaisons, le modèle dérive des valeurs pour les métriques F-score, precision et recall, ainsi que la marge d’erreur pour chacune d’elles. Les scores de ces métriques de performances de modèle sont affichés sur une page volante pour la ronde d’entraînement. Pour obtenir une description de ces métriques, consultez Informations de référence sur le codage prédictif.

Enfin, le modèle détermine les 50 éléments suivants qui seront utilisés pour le prochain cycle d’entraînement. Cette fois, le modèle peut sélectionner 20 éléments du jeu de contrôles et 30 nouveaux éléments du jeu de révision et les désigner comme jeu d’entraînement pour la prochaine série. L’échantillonnage du cycle d’entraînement suivant n’est pas échantillonné uniformément. Le modèle optimise la sélection par échantillonnage des éléments de l’ensemble de révision pour sélectionner les éléments pour lesquels la prédiction est ambiguë, ce qui signifie que le score de prédiction se situe dans la plage 0,5. Ce processus est appelé sélection biaisée.

Que se passe-t-il après avoir effectué des rondes d’entraînement suivantes

Après avoir effectué les cycles d’entraînement suivants (après le premier cycle d’entraînement), le modèle effectue les opérations suivantes :

Le modèle est mis à jour en fonction des étiquettes que vous avez appliquées au jeu d’entraînement dans cette série d’entraînement.
Le système évalue le score de prédiction du modèle sur les éléments du jeu de contrôles et case activée si le score s’aligne sur la façon dont vous avez étiqueté les éléments dans le jeu de contrôles. L’évaluation est effectuée sur tous les éléments étiquetés du jeu de contrôles pour toutes les rondes d’entraînement. Les résultats de cette évaluation sont incorporés dans le tableau de bord sous l’onglet Vue d’ensemble du modèle.
Le modèle mis à jour retraite chaque élément du jeu de révision et attribue à chaque élément un score de prédiction mis à jour.

Étapes suivantes

Après avoir effectué le premier cycle d’entraînement, vous pouvez effectuer d’autres cycles d’entraînement ou appliquer le filtre de score de prédiction du modèle à l’ensemble de révision pour afficher les éléments que le modèle a prédits comme pertinents ou non pertinents. Pour plus d’informations, consultez Appliquer un filtre de score de prédiction à un jeu de révision.