Ocenianie błędów w modelach uczenia maszynowego

Jednym z największych wyzwań związanych z bieżącymi rozwiązaniami debugowania modelu jest użycie zagregowanych metryk do oceniania modeli w zestawie danych porównawczych. Dokładność modelu może nie być jednolita w podgrupach danych i mogą występować kohorty wejściowe, dla których model częściej kończy się niepowodzeniem. Bezpośrednie konsekwencje tych niepowodzeń są brakiem niezawodności i bezpieczeństwa, pojawieniem się problemów z uczciwością i utratą zaufania do uczenia maszynowego.

Diagram przedstawiający przykład współczynnika dokładności i niepowodzeń dla modelu testów porównawczych i uczenia maszynowego.

Analiza błędów odchodzi od zagregowanych metryk dokładności. Uwidacznia ona dystrybucję błędów deweloperom w przejrzysty sposób i umożliwia im efektywne identyfikowanie i diagnozowanie błędów.

Składnik analizy błędów pulpitu nawigacyjnego odpowiedzialnej sztucznej inteligencji zapewnia praktykom uczenia maszynowego dokładniejsze zrozumienie dystrybucji błędów modelu i pomaga im szybko identyfikować błędne kohorty danych. Ten składnik identyfikuje kohorty danych z wyższym współczynnikiem błędów w porównaniu z ogólnym współczynnikiem błędów testu porównawczego. Przyczynia się on do etapu identyfikacji przepływu pracy cyklu życia modelu za pomocą następujących elementów:

  • Drzewo decyzyjne, które ujawnia kohorty z wysokimi współczynnikami błędów.
  • Mapa cieplna, która wizualizuje, w jaki sposób funkcje wejściowe wpływają na szybkość błędów w kohortach.

Rozbieżności w błędach mogą wystąpić, gdy system jest niewystarczający dla określonych grup demograficznych lub rzadko obserwowanych kohort wejściowych w danych treningowych.

Możliwości tego składnika pochodzą z pakietu Analizy błędów , który generuje profile błędów modelu.

W razie potrzeby użyj analizy błędów:

  • Dowiedz się, jak awarie modelu są dystrybuowane między zestawem danych oraz w kilku wymiarach danych wejściowych i cechowych.
  • Podziel zagregowane metryki wydajności, aby automatycznie odnaleźć błędne kohorty w celu poinformowania o ukierunkowanych krokach ograniczania ryzyka.

Drzewo błędów

Często wzorce błędów są złożone i obejmują więcej niż jedną lub dwie funkcje. Deweloperzy mogą mieć trudności z eksplorowanie wszystkich możliwych kombinacji funkcji w celu odnalezienia ukrytych kieszeni danych z krytycznymi awariami.

Aby złagodzić obciążenie, wizualizacja drzewa binarnego automatycznie partycjonuje dane porównawcze w podgrupy, które mają nieoczekiwanie wysokie lub niskie współczynniki błędów. Innymi słowy, drzewo używa funkcji wejściowych, aby maksymalnie oddzielić błąd modelu od powodzenia. Dla każdego węzła definiującego podgrupę danych użytkownicy mogą zbadać następujące informacje:

  • Współczynnik błędów: część wystąpień w węźle, dla której model jest niepoprawny. Jest on pokazany przez intensywność koloru czerwonego.
  • Pokrycie błędów: część wszystkich błędów, które należą do węzła. Jest on wyświetlany za pośrednictwem współczynnika wypełnienia węzła.
  • Reprezentacja danych: liczba wystąpień w każdym węźle drzewa błędów. Jest on wyświetlany przez grubość krawędzi przychodzącej do węzła wraz z całkowitą liczbą wystąpień w węźle.

Zrzut ekranu przedstawiający drzewo analizy błędów pokazujące kohorty z wyższymi lub niższymi współczynnikami błędów i pokryciem.

Błąd mapy cieplnej

Widok fragmentuje dane na podstawie jednowymiarowej lub dwuwymiarowej siatki cech wejściowych. Użytkownicy mogą wybrać interesujące cię funkcje wejściowe do analizy.

Mapa cieplna wizualizuje komórki o wysokim błędzie przy użyciu ciemniejszego koloru czerwonego, aby zwrócić uwagę użytkownika na te regiony. Ta funkcja jest szczególnie korzystna, gdy motywy błędów różnią się w różnych partycjach, co często występuje w praktyce. W tym widoku identyfikacji błędów analiza jest bardzo kierowana przez użytkowników i ich wiedzę lub hipotezy dotyczące tego, jakie funkcje mogą być najważniejsze w celu zrozumienia błędów.

Zrzut ekranu przedstawiający mapę cieplną analizy błędów pokazującą błędy modelu podzielone na partycje według jednej lub dwóch funkcji.

Następne kroki