Descripción de los conjuntos de datos

Los modelos de Machine Learning "aprenden" de las decisiones históricas y las acciones capturadas en los datos de entrenamiento. Como resultado, su rendimiento en escenarios reales está muy influenciado por los datos según los que se han entrenado. Cuando la distribución de características de un conjunto de datos está sesgada, esto puede hacer que un modelo prediga incorrectamente puntos de datos que pertenecen a un grupo que apenas está representado o que se optimicen a lo largo de una métrica inapropiada.

Por ejemplo, mientras un modelo entrenaba un sistema de inteligencia artificial para predecir los precios de las casas, el conjunto de entrenamiento representaba el 75 % de las casas más recientes que tenían un precio inferior al valor medio. Como resultado, el proceso fue menos preciso a la hora de identificar las casas históricas más costosas. Para corregir esto, se agregaron casas más antiguas y costosas a los datos de entrenamiento y se aumentaron las características para incluir información sobre su valor histórico. Ese aumento de datos ha mejorado los resultados.

El componente de análisis de datos del panel de IA responsable le permite visualizar conjuntos de datos basados en resultados previstos y reales, grupos de errores y características específicas. Esto ayuda a identificar problemas de representación excesiva e insuficiente, y a ver cómo se agrupan los datos en el conjunto de datos. Las visualizaciones de datos constan de trazados agregados o puntos de datos individuales.

Uso del análisis de datos

Use el análisis de datos cuando necesite:

  • Explorar las estadísticas del conjunto de datos seleccionando distintos filtros para segmentar los datos en diferentes dimensiones (también conocidas como cohortes).
  • Comprender la distribución del conjunto de datos entre diferentes cohortes y grupos de características.
  • Determinar si los resultados relacionados con la equidad, el análisis de errores y la causalidad (derivados de otros componentes del panel) son el resultado de la distribución del conjunto de datos.
  • Decidir en qué áreas debe recopilar más datos para mitigar los errores derivados de problemas de representación, ruido de etiquetas, ruido de características, sesgo de etiquetas y factores similares.

Pasos siguientes