Краткое руководство. Создание модели классификации изображений с помощью портала Пользовательского визуального распознавания

Статья
01/21/2024

Из этого краткого руководства вы узнаете, как создать модель классификации изображений на веб-портале Пользовательского визуального распознавания. Созданную модель можно протестировать с использованием новых изображений, а затем интегрировать в собственное приложение для распознавания изображений.

Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем приступить к работе.

Необходимые компоненты

Набор изображений для обучения модели классификации. Можно использовать набор примеров изображений в GitHub. Также можно выбрать новые изображения, используя советы, приведенные ниже.
Поддерживаемый веб-обозреватель

Создание ресурсов Пользовательского визуального распознавания

Чтобы использовать службу "Пользовательское визуальное распознавание", понадобится создать ресурсы обучения и прогнозирования этой службы в Azure. Чтобы сделать это на портале Azure, укажите требуемые сведения в диалоговом окне на странице создания Пользовательского визуального распознавания, чтобы создать ресурс для обучения и прогнозирования.

Создание нового проекта

В веб-браузере перейдите на веб-страницу Пользовательской службы визуального распознавания и щелкните Sign in (Вход). Войдите с той же учетной записью, которую вы использовали для входа в портал Azure.

Image of the sign-in page

Для создания первого проекта щелкните Новый проект. Откроется диалоговое окно "Создание проекта ".
Введите имя и описание проекта. Затем выберите ресурс обучения Пользовательское визуальное распознавание. Если учетная запись входа связана с учетной записью Azure, раскрывающийся список ресурсов отображает все совместимые ресурсы Azure.

Примечание.

Если ресурс недоступен, убедитесь, что вы вошли в customvision.ai с той же учетной записью, что и для входа в портал Azure. Кроме того, убедитесь, что вы выбрали на веб-сайте Пользовательского визуального распознавания тот же каталог, что и каталог на портале Azure, где расположены ваши ресурсы Пользовательского визуального распознавания. На обоих сайтах вы можете выбрать свой каталог из раскрывающегося списка меню учетной записи в правом верхнем углу экрана.
Выберите Classification (Классификация) в поле Project Types (Типы проектов). Затем в разделе Classification Types (Типы классификации) выберите вариант Multilabel (По нескольким меткам) или Multiclass (По нескольким классам) в зависимости от ситуации. Классификация по нескольким меткам применяет к изображению любое количество (нуль или более) указанных вами тегов, а классификация по нескольким классам относит каждое изображение к конкретной категории (каждому изображению присваивается один наиболее вероятный тег). Если потребуется, вы сможете изменить этот тип классификации позже.

Затем выберите один из доступных доменов. Каждый домен оптимизирует модель для определенных типов изображений, как описано в следующей таблице. Если потребуется, вы сможете изменить этот домен позднее.

Домен	Характер использования
Общие вопросы	Рассчитан на самые разные задачи классификации изображений. Если не подходит ни один из других доменов или вы не уверены, какой домен выбрать, выберите универсальный домен.
Food	Рассчитан для фотографий блюд, которые будут отображаться в меню ресторана. Если вы хотите классифицировать фотографии отдельных фруктов или овощей, используйте домен Food.
Landmarks	Рассчитан на распознавание естественных и искусственных ориентиров. Этот домен работает лучше всего, когда ориентир четко виден на фотографии. Этот домен работает, даже если ориентир немного заслоняют люди.
Розничная торговля	Рассчитан на изображения из каталогов товаров и торговых веб-сайтов. Если требуется высокая точность при распознавании таких объектов, как платья, брюки и рубашки, следует использовать этот домен.
Домены Compact	Оптимизированы для ограничений классификации в режиме реального времени на мобильных устройствах. Модели, созданные доменами Compact, можно экспортировать для локального запуска.

И наконец, щелкните Create project (Создать проект).

Выбор обучающих изображений

Мы рекомендуем включить в начальный обучающий набор не менее 30 изображений для каждого тега. Кроме того, вам потребуются несколько дополнительных изображений для тестирования обученной модели.

Чтобы обучение модели было эффективным, используйте разнообразные изображения. Изображения должны отличаться по следующим аспектам:

угол обзора камеры;
освещение;
background
стиль изображения;
отдельные объекты и группы;
size
type

Также убедитесь, что все обучающие изображения соответствуют следующим критериям:

формат JPG, PNG, BMP или GIF;
размер не более 6 МБ (4 МБ для прогнозирования изображений);
не менее 256 пикселей по короткой стороне (Пользовательская служба визуального распознавания автоматически увеличивает изображения меньшего размера).

Отправка и снабжение тегами изображений

В этом разделе вы отправляете и вручную помечаете изображения, помогающие обучить классификатор.

Чтобы добавить изображения, последовательно выберите элементы Add images (Добавить изображения) и Browse local files (Обзор локальных файлов). Выберите Открыть, чтобы переместить теги. Выбор тега применяется ко всей группе изображений, которые вы выбрали для отправки, поэтому проще отправлять изображения в отдельных группах в соответствии с примененных тегами. Вы также можете изменить теги для отдельных изображений после их отправки.
Чтобы создать тег, введите произвольный текст в поле My Tags (Мои теги) и нажмите клавишу ВВОД. Если тег уже существует, он отображается в раскрывающемся меню. В проекте с классификацией по нескольким меткам вы можете добавить к каждому изображению более одного тега, а в проекте с классификацией по нескольким классам — только один. Чтобы завершить отправку изображений, нажмите кнопку Upload [number] files (Отправить файлы ([число])).
Нажмите кнопку "Готово" после отправки изображений.

Чтобы отправить новый набор изображений, прокрутите страницу наверх и повторите все шаги.

Обучение классификатора

Для обучения классификатора нажмите кнопку Train (Обучение). Классификатор создаст на основе всех уже полученных изображений модель, которая идентифицирует визуальные характеристики каждого тега. Этот процесс может занять несколько минут.

The train button in the top right of the web page's header toolbar

Процесс обучения обычно занимает пару минут. В течение этого времени информация о процессе обучения отображается на вкладке Performance (Производительность).

The browser window with a training dialog in the main section

Оценка классификатора

После обучения выполняется оценка производительности модели и отображаются результаты этой оценки. Служба Пользовательского визуального распознавания использует изображения, которые вы отправили для обучения, для расчета точности и отзыва. Точность и полнота — это разные характеристики эффективности классификатора.

Точность обозначает долю правильно определенных классов. Например, если модель определила наличие собак на 100 изображениях, из которых на 99 действительно есть собаки, точность этой модели составляет 99 %.
Полнота обозначает долю правильно определенных фактических классов. Например, если в наборе присутствует 100 изображений яблок, из которых модель правильно определила 80, полнота этой модели составляет 80 %.

The training results show the overall precision and recall, and the precision and recall for each tag in the classifier.

Порог вероятности

Обратите внимание на ползунок порогового значения вероятности на левой панели вкладки "Производительность ". Это уровень уверенности, что прогноз должен иметь для того, чтобы считаться правильным (в целях вычисления точности и отзыва).

Когда вы интерпретируете вызовы прогнозирования с высоким порогом вероятности, они обычно возвращают результаты с высокой точностью, обеспеченной за счет отзыва, — обнаруженные классификации верны, но многие из них не удается обнаружить. С низким порогом вероятности ситуация противоположная — обнаруживается большинство фактических классификаций, но в наборе больше ложных срабатываний. Учитывайте это при настройке порога вероятности в соответствии с потребностями для конкретного проекта. Позже, когда вы получите результаты прогнозирования на стороне клиента, вам нужно будет задать используемое здесь значение порога вероятности.

Управление итерациями обучения

При каждом обучении классификатора создается новая итерация с обновленными метриками производительности. Все итерации можно просмотреть на левой панели вкладки "Производительность ". Вы также найдете кнопку "Удалить ", которую можно использовать для удаления итерации, если она устарела. При удалении итерации удаляются только связанные с ней изображения.

Сведения о том, как с помощью программных средств получить доступ к обученным моделям, см. в статье об использовании модели с API прогнозирования.

Следующие шаги

В этом кратком руководстве объясняется, как создать и обучить модель классификации изображений на веб-портале Пользовательского визуального распознавания. См. дополнительные сведения об итеративном процессе улучшения модели.

Тестирование и переобучение модели с помощью Пользовательской службы визуального распознавания

Что такое Пользовательское визуальное распознавание?