Vysvětlení datových sad

Modely strojového učení se "učí" z historických rozhodnutí a akcí zachycených v trénovacích datech. V důsledku toho je jejich výkon v reálných scénářích silně ovlivněn daty, na které jsou natrénovány. Pokud je distribuce funkcí v datové sadě nerovnoměrná, může to způsobit, že model nesprávně predikuje datové body, které patří do nedostatečně reprezentované skupiny, nebo může být optimalizován podle nevhodné metriky.

Například zatímco model trénoval systém AI pro predikci cen domů, trénovací sada představovala 75 procent novějších domů, které měly nižší než medián cen. V důsledku toho bylo mnohem méně přesné při úspěšné identifikaci dražších historických domů. Opravili jsme přidání starších a drahých domů do trénovacích dat a rozšíření funkcí tak, aby zahrnovaly přehledy o historických hodnotách. Toto rozšíření dat zlepšilo výsledky.

Komponenta analýzy dat řídicího panelu Odpovědné AI pomáhá vizualizovat datové sady na základě predikovaných a skutečných výsledků, skupin chyb a konkrétních funkcí. Pomůže vám identifikovat problémy s překryvným a podreprezentováním a zjistit, jak jsou data v datové sadě clusterována. Vizualizace dat se skládají z agregovaných grafů nebo jednotlivých datových bodů.

Kdy použít analýzu dat

Analýzu dat použijte v případech, kdy potřebujete:

  • Prozkoumejte statistiky datové sady tak, že vyberete různé filtry a rozdělíte data do různých dimenzí (označovaných také jako kohorty).
  • Seznamte se s rozdělením datové sady mezi různé kohorty a skupiny funkcí.
  • Určete, jestli jsou vaše zjištění týkající se spravedlnosti, analýzy chyb a kauzality (odvozená z jiných komponent řídicího panelu) výsledkem distribuce vaší datové sady.
  • Rozhodněte se, ve kterých oblastech se má shromažďovat více dat, abyste zmírnili chyby, které pocházejí z problémů se reprezentací, šumu popisků, šumu funkcí, zkreslení popisků a podobných faktorů.

Další kroky