Cómo limpiar y separar los datos para los proyectos de inteligencia artificial

Completado

El siguiente paso es importar los datos de las imágenes de rocas existentes que usaremos para enseñar a nuestro equipo a reconocer los distintos tipos de rocas.

Antes de importar imágenes, es necesario revisar dos pasos críticos del proceso de inteligencia artificial: la limpieza y separación de datos. Es importante completar estos pasos para asegurarse de que el equipo pueda clasificar con precisión las imágenes de rocas.

Limpiar datos

Para limpiar los datos, tenemos que asegurarnos de que están completos y son uniformes. En nuestro ejemplo de rocas, muchos de los archivos de imagen tienen distintos tamaños. Para limpiar este conjunto, debemos cambiar el tamaño de cada archivo de imagen para que todos tengan el mismo. Es posible que tengamos que rellenar celdas en las que faltan datos y eliminar filas con datos incorrectos.

Separación de datos

Para programar la inteligencia artificial, primero debemos proporcionar al equipo muchos datos y decirle qué representan. Este proceso se denomina entrenamiento. Después de entrenar el equipo, se prueba para ver si puede clasificar los nuevos datos que se le proporcionen.

La NASA ha proporcionado una gran cantidad de datos sobre los diferentes tipos de roca. Es necesario indicar al equipo qué datos se usarán para entrenamiento y cuáles se usarán para pruebas. Para realizar la separación, distribuimos los datos de forma aleatoria en estos dos grupos. La proporción de la cantidad de datos que se coloca en cada grupo puede variar. En nuestro ejemplo, haremos el entrenamiento con el 80 % de los datos y la prueba con un 20 % de los datos.