Kontrafaktisk analys och konsekvensanalys

Konsekvensräknarna tar upp frågan om vad modellen skulle förutsäga om du ändrade åtgärdsindata. De möjliggör förståelse och felsökning av en maskininlärningsmodell när det gäller hur den reagerar på indataändringar (funktion).

Standardtolkningstekniker approximeras en maskininlärningsmodell eller rangordnar funktioner efter deras prediktiva betydelse. Däremot "frågar" kontrafaktisk analys en modell för att avgöra vilka ändringar av en viss datapunkt som skulle vända modellbeslutet.

En sådan analys hjälper till att isolera effekten av korrelerade funktioner. Det hjälper dig också att få en mer nyanserad förståelse för hur mycket av en funktionsändring som krävs för att se en modellbeslutsvändning för klassificeringsmodeller och en beslutsändring för regressionsmodeller.

Den kontrafaktiska analysen och konsekvenskomponenten i instrumentpanelen för ansvarsfull AI har två funktioner:

  • Generera en uppsättning exempel med minimala ändringar till en viss punkt så att de ändrar modellens förutsägelse (visar de närmaste datapunkterna med motsatta modellförutsägelser).
  • Gör det möjligt för användare att generera egna konsekvensförändringar för att förstå hur modellen reagerar på funktionsändringar.

En av de främsta differentiatorerna i instrumentpanelen för ansvarsfull AI-instrumentpanelens kontrafaktiska analyskomponent är det faktum att du kan identifiera vilka funktioner som ska variera och deras tillåtna intervall för giltiga och logiska kontrafaktiska exempel.

Funktionerna i den här komponenten kommer från DiCE-paketet .

Använd konsekvensräknare när du behöver:

  • Granska rättvise- och tillförlitlighetskriterier som beslutsutvärdering genom att förvränga känsliga attribut som kön och etnicitet och sedan observera om modellförutsägelserna ändras.
  • Felsöka specifika indatainstanser på djupet.
  • Tillhandahålla lösningar till användare och fastställa vad de kan göra för att få ett önskvärt resultat från modellen.

Hur genereras kontrafaktiska exempel?

För att generera kontrafaktiska metoder implementerar DiCE några modellagnostiska tekniker. Dessa metoder gäller för alla ogenomskinliga klassificerare eller regressorer. De baseras på sampling av närliggande punkter till en indatapunkt, samtidigt som du optimerar en förlustfunktion baserat på närhet (och valfritt, gleshet, mångfald och genomförbarhet). Metoder som stöds för närvarande är:

  • Slumpmässig sökning: Den här metoden visar slumpmässiga punkter nära en frågepunkt och returnerar kontrafaktiska värden som punkter vars förutsagda etikett är önskad klass.
  • Genetisk sökning: Den här metoden provar punkter med hjälp av en genetisk algoritm, givet det kombinerade målet att optimera närheten till frågepunkten, ändra så få funktioner som möjligt och söka mångfald bland de genererade kontrafakterna.
  • KD-trädsökning: Den här algoritmen returnerar counterfactuals från träningsdatauppsättningen. Det konstruerar ett KD-träd över träningsdatapunkterna baserat på en avståndsfunktion och returnerar sedan de närmaste punkterna till en viss frågepunkt som ger den önskade förutsagda etiketten.

Nästa steg