Memahami himpunan data Anda

Model pembelajaran mesin "belajar" dari keputusan dan tindakan historis yang diambil dalam data pelatihan. Akibatnya, performa mereka dalam skenario dunia nyata sangat dipengaruhi oleh data yang mereka latih. Saat distribusi fitur dalam himpunan data miring, hal ini dapat menyebabkan model salah memprediksi titik data yang termasuk dalam grup yang kurang terwakili atau dioptimalkan di sepanjang metrik yang tidak pantas.

Misalnya, saat model melatih sistem AI untuk memprediksi harga rumah, set pelatihan mewakili 75 persen rumah yang lebih baru yang memiliki harga kurang dari median. Akibatnya, itu jauh kurang akurat dalam berhasil mengidentifikasi rumah bersejarah yang lebih mahal. Perbaikannya adalah menambahkan rumah yang lebih lama dan mahal ke data pelatihan dan menambah fitur untuk menyertakan wawasan tentang nilai historis. Augmentasi data itu meningkatkan hasil.

Komponen analisis data dasbor AI yang Bertanggung Jawab membantu memvisualisasikan himpunan data berdasarkan hasil yang diprediksi dan aktual, grup kesalahan, dan fitur tertentu. Ini membantu Anda mengidentifikasi masalah overrepresentation dan underrepresentation dan untuk melihat bagaimana data diklusterkan dalam himpunan data. Visualisasi data terdiri dari plot agregat atau titik data individual.

Kapan menggunakan analisis data

Gunakan analisis data saat Anda perlu:

  • Menjelajahi statistik himpunan data Anda dengan memilih filter yang berbeda untuk membagi data Anda ke dimensi yang berbeda (juga dikenal sebagai kohor).
  • Memahami distribusi himpunan data Anda di berbagai kelompok dan grup fitur.
  • Tentukan apakah temuan Anda terkait dengan kewajaran, analisis kesalahan, dan kausalitas (berasal dari komponen dasbor lain) adalah hasil dari distribusi himpunan data Anda.
  • Tentukan di area mana untuk mengumpulkan lebih banyak data untuk mengurangi kesalahan yang berasal dari masalah representasi, kebisingan label, kebisingan fitur, bias label, dan faktor serupa.

Langkah berikutnya