Comprendere i set di dati

I modelli di Machine Learning "imparano" dalle decisioni cronologiche e dalle azioni acquisite nei dati di training. Di conseguenza, le prestazioni negli scenari reali sono fortemente influenzate dai dati per cui vengono sottoposti al training. Quando la distribuzione delle funzionalità in un set di dati è asimmetrica, un modello può prevedere erroneamente i punti dati che appartengono a un gruppo sottorappresentato o che devono essere ottimizzati secondo una metrica inappropriata.

Ad esempio, mentre un modello esegue il training di un sistema di intelligenza artificiale per stimare i prezzi delle case, il set di training rappresentava il 75% delle case più recenti con prezzi inferiori a quelli medi. Di conseguenza, era molto meno accurato nell'identificare con successo case storiche più costose. La correzione consisteva nell'aggiungere case più vecchie e costose ai dati di training e aumentare le funzionalità per includere informazioni dettagliate sul valore storico. L'aumento dei dati ha migliorato i risultati.

Il componente di analisi dei dati del dashboard di intelligenza artificiale responsabile consente di visualizzare i set di dati in base a risultati stimati ed effettivi, gruppi di errori e funzionalità specifiche. Consente di identificare i problemi di sovrarappresentazione e sottorappresentazione e di vedere in che modo i dati vengono raggruppati nel set di dati. Le visualizzazioni dei dati sono costituite da tracciati aggregati o singoli punti dati.

Quando usare l'analisi dei dati

Usare l'analisi dei dati quando è necessario:

  • Esplorare le statistiche del set di dati selezionando filtri diversi per suddividere i dati in dimensioni diverse (note anche come coorti).
  • Comprendere la distribuzione del set di dati tra coorti e gruppi di funzionalità diversi.
  • Determinare se i risultati correlati all'equità, all'analisi degli errori e alla causalità (derivati da altri componenti del dashboard) sono il risultato della distribuzione del set di dati.
  • Decidere in quali aree raccogliere più dati per mitigare gli errori provenienti da problemi di rappresentazione, disturbo delle etichette, disturbo delle funzionalità, distorsione delle etichette e fattori simili.

Passaggi successivi