Analýza kontrafaktuals a citlivostní analýza

Kontrafaktuály citlivostní analýzy řeší otázku, co by model predikoval, kdybyste změnili vstup akce. Umožňují pochopit a ladit model strojového učení z hlediska toho, jak reaguje na změny vstupů (funkcí).

Standardní techniky interpretability aproximují model strojového učení nebo řadí funkce podle jejich prediktivní důležitosti. Naproti tomu kontrafaktuální analýza model "vyslýchá", aby určila, jaké změny konkrétního datového bodu by rozhodnutí o modelu převrátily.

Taková analýza pomáhá izolovaně oddělovat dopad korelovaných funkcí. Pomůže vám to také získat podrobnější přehled o tom, jak velká část změny funkcí je potřeba k tomu, abyste viděli překlopení rozhodnutí o modelu u klasifikačních modelů a změnu rozhodnutí pro regresní modely.

Kontrafaktuální analýza a komponenta citlivostní analýzy řídicího panelu Odpovědné AI má dvě funkce:

  • Vygenerujte sadu příkladů s minimálními změnami určitého bodu tak, aby změnily predikci modelu (zobrazují nejbližší datové body s předpověďmi opačného modelu).
  • Umožněte uživatelům generovat vlastní perturbace citlivostní analýzy, abyste pochopili, jak model reaguje na změny funkcí.

Jedním z hlavních odlišovačů komponenty pro kontrafaktuální analýzu řídicího panelu Odpovědné AI je skutečnost, že můžete určit, které funkce se mají lišit, a jejich přípustné rozsahy pro platné a logické kontrafaktuální příklady.

Možnosti této komponenty pocházejí z balíčku DiCE .

Funkce citlivostní analýzy použijte, když potřebujete:

  • Prozkoumejte kritéria spravedlnosti a spolehlivosti jako vyhodnocovače rozhodnutí tím, že zpochybníte citlivé atributy, jako je pohlaví a etnická příslušnost, a pak budete sledovat, jestli se mění předpovědi modelu.
  • Podrobné ladění konkrétních vstupních instancí
  • Poskytovat uživatelům řešení a určit, co můžou udělat, aby z modelu získali žádoucí výsledek.

Jak se generují protifakční příklady?

Aby bylo možné generovat protifaktuály, DiCE implementuje několik technik, které jsou nezávislé na modelu. Tyto metody platí pro jakýkoli klasifikátor nebo regresor opaque-box. Jsou založeny na vzorkování blízkých bodů vstupního bodu a současně optimalizují ztrátovou funkci na základě vzdálenosti (a volitelně také na rozlehlých bodech, rozmanitosti a proveditelnosti). Aktuálně podporované metody jsou:

  • Randomizované vyhledávání: Tato metoda náhodně vzorkuje body v blízkosti bodu dotazu a vrací kontrafaktuály jako body, jejichž predikovaný popisek je požadovanou třídou.
  • Genetické vyhledávání: Tato metoda vzorkuje body pomocí genetického algoritmu, a to s ohledem na kombinovaný cíl optimalizace blízkosti bodu dotazu, změnu co nejméně vlastností a hledání rozmanitosti mezi vygenerovanými kontrafaktuály.
  • Hledání stromu KD: Tento algoritmus vrací z trénovací datové sady protifakciály. Vytvoří strom KD nad trénovacími datovými body na základě funkce vzdálenosti a pak vrátí nejbližší body ke konkrétnímu bodu dotazu, který poskytuje požadovaný předpovězený popisek.

Další kroky