Simulazione e analisi di controfattuali

I controfattuali di simulazione cercano di determinare cosa stimerebbe il modello se l'input dell'azione venisse modificato. Consentono di comprendere e eseguire il debug di un modello di Machine Learning in termini di come reagisce alle modifiche di input (funzionalità).

Le tecniche di interpretabilità standard approssimano un modello di Machine Learning o le funzionalità di classificazione in base all'importanza predittiva. Al contrario, l'analisi controfattuale "interroga" un modello per determinare quali modifiche apportate a un determinato punto dati capovolgerebbero la decisione del modello.

Un'analisi di questo tipo favorisce il disentangling dell'impatto delle funzionalità correlate in isolamento. Consente inoltre di ottenere una comprensione più dettagliata della quantità di modifiche di una funzionalità necessarie per visualizzare un cambiamento decisionale del modello per i modelli di classificazione e delle modifiche decisionali per i modelli di regressione.

Il componente di simulazione e analisi dei controfattuali del dashboard di intelligenza artificiale responsabile ha due funzioni:

  • Generare un set di esempi con modifiche minime a un determinato punto in modo che modifichino la stima del modello (mostrando i punti dati più vicini con stime del modello opposto).
  • Consentire agli utenti di generare le proprie perturbazioni di simulazione per comprendere in che modo il modello reagisce alle modifiche delle funzionalità.

Uno dei principali differenziatori del componente di analisi controfattuale del dashboard di intelligenza artificiale responsabile è il fatto che è possibile identificare le funzionalità da variare e i relativi intervalli consentiti per esempi controfattuali validi e logici.

Le funzionalità di questo componente provengono dal pacchetto DiCE.

Usare i controfattuali di simulazione quando è necessario:

  • Esaminare i criteri di equità e affidabilità come fattore di valutazione delle decisioni perturbando attributi sensibili, ad esempio sesso ed etnia, e quindi osservando se le stime del modello cambiano.
  • Eseguire il debug approfondito di istanze di input specifiche.
  • Fornire soluzioni agli utenti e determinare le operazioni che possono eseguire per ottenere un risultato auspicabile dal modello.

Come vengono generati esempi controfattuali?

Per generare controfattuali, DiCE implementa alcune tecniche indipendenti dal modello. Questi metodi si applicano a qualsiasi classificatore o regressore di caselle opache. Si basano sul campionamento nei punti vicini a un punto di input, ottimizzando una funzione di perdita in base alla prossimità (e facoltativamente, la densità, la diversità e la fattibilità). I metodi attualmente supportati sono:

  • Ricerca casuale: questo metodo esegue l'esempio in modo casuale vicino a un punto di query e restituisce contatori come punti la cui etichetta stimata è la classe desiderata.
  • Ricerca genetica: questo metodo campiona punti usando un algoritmo genetico, dato l'obiettivo combinato di ottimizzare la prossimità al punto di query, modificando il minor numero possibile di caratteristiche e cercando la diversità tra i contatori generati.
  • Ricerca ad albero KD: questo algoritmo restituisce contatori dal set di dati di training. Costruisce un albero KD sui punti dati di training in base a una funzione di distanza e quindi restituisce i punti più vicini a un determinato punto di query che sospende l'etichetta stimata desiderata.

Passaggi successivi