Inicio rápido: Creación de un modelo de clasificación de imágenes mediante el portal de Custom Vision

Artículo
01/21/2024

Al consultar este inicio rápido, obtendrá información sobre cómo usar el portal web de Custom Vision para crear un modelo de clasificación de imágenes. Una vez que cree un modelo, puede probarlo con nuevas imágenes y, finalmente, integrarlo en su propia aplicación de reconocimiento de imágenes.

Si no tiene una suscripción a Azure, cree una cuenta gratuita antes de empezar.

Prerrequisitos

Un conjunto de imágenes con el que entrenar al modelo de clasificación. Puede usar el conjunto de imágenes de ejemplo en GitHub. O bien, puede elegir sus propias imágenes con las sugerencias que se indican a continuación.
Un explorador web compatible

Creación de recursos de Custom Vision

Para usar Custom Vision Service, tendrá que crear recursos de entrenamiento y predicción de Custom Vision en Azure Portal. Para ello, en Azure Portal rellene la ventana del cuadro de diálogo de la página Create Custom Vision (Crear recurso de Custom Vision) para crear un recurso de entrenamiento y predicción.

Creación de un nuevo proyecto

En el explorador web, vaya a la página web de Custom Vision y seleccione Sign in (Iniciar sesión). Inicie sesión con la misma cuenta que usó para iniciar sesión en Azure Portal.

Image of the sign-in page

Para crear su primer proyecto, seleccione New Project (Nuevo proyecto). Aparecerá el cuadro de diálogo Crear nuevo proyecto.
Escriba un nombre y una descripción para el proyecto. Después, seleccione el recurso de aprendizaje de Custom Vision. Si la cuenta con la que ha iniciado sesión está asociada a una cuenta de Azure, el menú desplegable Recursos mostrará todos los recursos compatibles de Azure.

Nota:

Si no hay ningún recurso disponible, confirme que ha iniciado sesión en customvision.ai con la misma cuenta que usó para iniciar sesión en Azure Portal. Además, confirme que el directorio seleccionado en el sitio web de Custom Vision es el mismo que el de Azure Portal donde se encuentran los recursos de Custom Vision. En ambos sitios, puede seleccionar el directorio en el menú de cuentas desplegable de la esquina superior derecha de la pantalla.
Seleccione Classification (Clasificación) en Project Types (Tipos de proyecto). Después, en Classification Types (Tipos de clasificación), elija Multilabel (Multietiqueta) o Multiclass (Multiclase) según su caso de uso. La clasificación multietiqueta aplica un número cualquiera de etiquetas a una imagen (cero o más), mientras que la clasificación multiclase ordena las imágenes en categorías únicas (cada imagen que envíe se clasificará en la etiqueta más probable). Puede cambiar el tipo de clasificación más adelante si lo desea.

A continuación, seleccione uno de los dominios disponibles. Cada dominio optimizará al modelo para el uso de determinados tipos de imágenes, tal y como se describe en la tabla siguiente. Puede cambiar el dominio más adelante si lo desea.

Dominio	Propósito
Genérico	Optimizado para una amplia gama de tareas de clasificación de imágenes. Si ninguno de los otros dominios es adecuado o si no está seguro de qué dominio elegir, seleccione el dominio genérico.
Alimentos	Optimizado para fotos de platos tal y como los vería en el menú de un restaurante. Si quiere clasificar fotos de frutas o verduras individuales, use el dominio de alimentos.
Puntos de referencia	Optimizado para lugares de interés reconocibles, tanto naturales como artificiales. Este dominio funciona mejor cuando el punto de referencia es claramente visible en la foto. Este dominio funciona incluso si hay gente delante del punto de referencia que obstruye parcialmente su visión.
Minoristas	Optimizado para imágenes que se encuentran en un catálogo de compra o un sitio web de compras. Si quiere una clasificación de alta precisión entre vestidos, pantalones y camisas, use este dominio.
Dominios compactos	Optimizados para las restricciones de clasificación en tiempo real en dispositivos móviles. Los modelos generados por los dominios compactos se pueden exportar para ejecutarse localmente.

Por último, seleccione Create project (Crear proyecto).

Elección de las imágenes de entrenamiento

Como mínimo, se recomienda que use 30 imágenes por etiqueta en el conjunto de entrenamiento inicial. También conviene recopilar algunas imágenes adicionales para probar el modelo una vez que está entrenado.

Para entrenar el modelo de forma eficaz, use imágenes con variedad visual. Seleccione imágenes que varíen en:

ángulos de cámara
iluminación
background
estilo visual
sujetos individuales o grupos
tamaño
type

Además, asegúrese de que todas las imágenes de entrenamiento cumplen los criterios siguientes:

formato .jpg, .png, .bmp o .gif
tienen menos de 6 MB de tamaño (4 MB en el caso de imágenes de predicción)
tienen más de 256 píxeles en el borde más corto. Custom Vision Service escalará verticalmente y de forma automática todas las imágenes que sean más cortas

Carga y etiquetado de imágenes

En esta sección, cargará y etiquetará manualmente las imágenes para ayudar a entrenar al clasificador.

Para agregar imágenes, seleccione Add images (Agregar imágenes) y, después, Browse local files (Examinar archivos locales). Seleccione Open (Abrir) para empezar a etiquetar. La selección de etiquetas se aplicará a todo el grupo de imágenes que ha seleccionado para su carga, por lo que es más fácil cargar imágenes en grupos independientes según las etiquetas que se han aplicado. También puede cambiar las etiquetas de las imágenes individuales después de que se hayan cargado.
Para crear una etiqueta, escriba texto en el campo My Tags (Mis etiquetas) y pulse ENTRAR. Si la etiqueta ya existe, aparecerá en un menú desplegable. En un proyecto multietiqueta, puede agregar más de una etiqueta a las imágenes, pero en un proyecto multiclase solo puede agregar una. Para terminar la carga de las imágenes, use el botón Upload [number] files (Cargar [número] archivos).
Seleccione Listo una vez cargadas las imágenes.

Para cargar otro conjunto de imágenes, vuelva a la parte superior de esta sección y repita los pasos.

Entrenamiento del clasificador

Para entrenar al clasificador, seleccione el botón Train (Entrenar). El clasificador usa todas las imágenes actuales para crear un modelo que identifica las calidades visuales de cada etiqueta. Este proceso puede tardar varios minutos.

The train button in the top right of the web page's header toolbar

El proceso de entrenamiento solo debe llevar unos minutos. Durante este tiempo, se muestra información sobre el proceso de entrenamiento en la pestaña Performance (Rendimiento).

The browser window with a training dialog in the main section

Evaluación del clasificador

Una vez finalizado el entrenamiento, se calcula el rendimiento del modelo y se muestra. Custom Vision Service usa las imágenes que ha enviado para entrenamiento para calcular la precisión y la coincidencia. La precisión y la coincidencia constituyen dos medidas diferentes de la eficacia de un clasificador:

La precisión indica la fracción de las clasificaciones identificadas que fueron correctas. Por ejemplo, si el modelo identificó 100 imágenes como perros y 99 de ellas eran realmente de perros, la precisión sería del 99 %.
La coincidencia indica la fracción de las clasificaciones reales que se identificaron correctamente. Por ejemplo, si había realmente 100 imágenes de manzanas y el modelo identificó 80 como manzanas, la coincidencia sería del 80 %.

The training results show the overall precision and recall, and the precision and recall for each tag in the classifier.

Umbral de probabilidad

Observe el control deslizante Probability Threshold (Umbral de probabilidad) situado en el panel izquierdo de la pestaña Performance (Rendimiento). Este es el nivel de confianza que debe tener una predicción para que se considere correcta (para los fines de calcular la precisión y la coincidencia).

Al interpretar llamadas de predicción con un umbral alto de probabilidad, tienden a devolver resultados muy precisos pero con una baja coincidencia; las clasificaciones detectadas son correctas, pero muchas siguen sin detectarse. Un umbral bajo de probabilidad tiene el efecto contrario: la mayoría de las clasificaciones reales se detectan, pero hay más falsos positivos en ese conjunto. Teniendo esto en cuenta, debe establecer el umbral de probabilidad según las necesidades específicas de su proyecto. Posteriormente, si va a recibir resultados de predicción en el cliente, debe usar el mismo valor de umbral de probabilidad que el empleado aquí.

Administración de iteraciones de entrenamiento

Cada vez que entrena al clasificador, se crea una nueva iteración con métricas de rendimiento actualizadas. Puede ver todas las iteraciones en el panel izquierdo de la pestaña Performance (Rendimiento). Encontrará también el botón Delete (Eliminar), que puede usar para eliminar una iteración si está obsoleta. Cuando se elimina una iteración, elimina las imágenes que están asociadas exclusivamente a ella.

Consulte Uso del modelo con Prediction API para aprender a acceder a los modelos entrenados mediante programación.

Pasos siguientes

En este inicio rápido ha aprendido a crear y entrenar un modelo de clasificación de imágenes mediante el portal web de Custom Vision. A continuación, obtenga más información sobre el proceso iterativo de mejora del modelo.

Prueba y reentrenamiento del modelo

¿Qué es Custom Vision?