Élaborer des stratégies pilotées par les données et influencer la prise de décision

Les modèles Machine Learning sont très efficaces pour identifier des modèles (patterns) dans les données et faire des prédictions. Par contre, ils n’aident pas beaucoup pour estimer dans quelle mesure le résultat effectif change en présence d’une intervention.

Les praticiens se concentrent de plus en plus sur l’utilisation de données historiques pour éclairer leurs décisions et interventions commerciales futures. Par exemple, dans quelle mesure les recettes seront-elles affectées si une entreprise adopte une nouvelle stratégie de prix ? Un nouveau médicament améliorerait-il l’état de santé d’un patient, toutes choses égales par ailleurs ?

Le composant Inférence causale du tableau de bord IA responsable répond à ces questions en évaluant l’effet d’une caractéristique sur un résultat d’intérêt en moyenne, sur une population ou une cohorte et à un niveau individuel. Il permet également de créer des interventions prometteuses en simulant les réponses de caractéristiques à diverses interventions et en créant des règles pour déterminer les cohortes de population qui bénéficieraient d’une intervention. Ensemble, ces fonctionnalités permettent aux décideurs d’appliquer de nouvelles stratégies et d’opérer un changement réel.

Les fonctionnalités de ce composant viennent du package EconML. Il estime les effets de traitement hétérogènes des données observationnelles via la technique du machine learning double.

Utilisez l’inférence causale lorsque vous devez :

  • Identifier les fonctionnalités qui ont l’effet le plus direct sur votre résultat d’intérêt.
  • Décider de la politique globale de traitement à adopter pour maximiser l’impact réel sur un résultat d’intérêt.
  • Comprendre comment les personnes associées à certaines valeurs de caractéristiques réagiraient à une politique de traitement particulière.

Comment les insights d’inférence causale sont-elles générées ?

Notes

Seules des données historiques sont requises pour générer des insights causales. Les effets de causalité calculés sur la base des caractéristiques du traitement sont purement une propriété des données. Par conséquent, un modèle entraîné est facultatif quand vous calculez les effets de causalité.

Le machine learning double est une méthode pour estimer les effets hétérogènes d’un traitement lorsque tous les éléments perturbateurs/contrôles potentiels (facteurs ayant simultanément un effet direct sur la décision de traitement dans les données collectées et le résultat observé) sont observés, mais qu’il existe l’un des problèmes suivants :

  • Il y a trop d’approches statistiques classiques applicables. Autrement dit, elles sont hautement dimensionnelles.
  • Leur effet sur le traitement et le résultat ne peuvent pas être modélisés de manière satisfaisante par des fonctions paramétriques. Autrement dit, elles sont non paramétriques.

Vous pouvez utiliser des techniques de machine learning pour résoudre les deux problèmes. Pour avoir un exemple, consultez Chernozhukov2016.

Le machine Learning double réduit le problème en commençant par estimer deux tâches prédictives :

  • Prédiction de résultat à partir des contrôles
  • Prédiction de traitement à partir des contrôles

Ensuite, la méthode combine ces deux modèles prédictifs dans une estimation de phase finale pour créer un modèle de l’effet de traitement hétérogène. Cette approche permet d’utiliser des algorithmes de machine learning arbitraires pour les deux tâches prédictives, tout en conservant de nombreuses propriétés statistiques favorables liées au modèle final. Ces propriétés incluent une petite erreur carrée moyenne, une normalité asymptotique et la construction d’intervalles de confiance.

Quels autres outils Microsoft fournit-il pour l’inférence causale ?

  • Project Azua offre une nouvelle infrastructure axée sur l’inférence causale de bout en bout.

    La technologie DECI (deep end-to-end causal inference) d’Azua est un modèle unique capable de réaliser simultanément une découverte causale et une inférence causale. L’utilisateur fournit les données et le modèle peut produire les relations causales entre toutes les variables.

    En soi, cette approche peut fournir des insights sur les données. Elle permet de calculer des métriques telles que l’effet de traitement individuel (ITE), l’effet de traitement moyen (ATE) et l’effet de traitement moyen conditionnel (CATE). Vous pouvez ensuite utiliser ces calculs pour prendre des décisions optimales.

    L’infrastructure est scalable pour les données volumineuses, aussi bien en termes de nombre de variables que de nombre de points de données. Elle peut également gérer les entrées de données manquantes avec des types statistiques mixtes.

  • EconML alimente le back-end du composant d’inférence causale du tableau de bord IA responsable. C’est un package Python qui applique les techniques de machine learning pour estimer des réponses causales individualisées à partir de données observationnelles ou expérimentales.

    La suite de méthodes d’estimation dans EconML représente les dernières avancées du machine learning causal. En intégrant des étapes individuelles d’apprentissage automatique dans des modèles causaux interprétables, ces méthodes améliorent la fiabilité des prédictions de simulation. Elles accélèrent et facilitent également l’analyse causale pour un vaste éventail d’utilisateurs.

  • DoWhy est une bibliothèque Python qui vise à déclencher la réflexion et l’analyse causales. DoWhy fournit une interface raisonnée en quatre étapes pour l’inférence causale, qui se concentre sur la modélisation explicite d’hypothèses causales et leur validation autant que possible.

    La principale fonctionnalité de DoWhy est son API de réfutation de pointe qui peut tester automatiquement des hypothèses causales pour n’importe quelle méthode d’estimation. Elle rend l’inférence plus robuste et accessible aux non-experts.

    DoWhy prend en charge l’estimation de l’effet causal moyen pour la porte arrière (back-door), la porte avant (front-door), la variable instrumentale et autres méthodes d’identification. Il prend également en charge l’estimation de l’effet CATE via une intégration à la bibliothèque EconML.

Étapes suivantes