Краткое руководство. Создание средства обнаружения объектов с помощью веб-сайта Пользовательского визуального распознавания

Из этого краткого руководства вы узнаете, как создать модель средства обнаружения объектов на веб-сайте Пользовательского визуального распознавания. Созданную модель можно протестировать с использованием новых изображений, а затем интегрировать в собственное приложение для распознавания изображений.

Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.

Предварительные требования

  • Набор изображений для обучения средства обнаружения объектов. Можно использовать набор примеров изображений в GitHub. Также можно выбрать новые изображения, используя советы, приведенные ниже.

Создание ресурсов Пользовательского визуального распознавания

Чтобы использовать службу "Пользовательское визуальное распознавание", понадобится создать ресурсы обучения и прогнозирования этой службы в Azure. Чтобы сделать это на портале Azure, укажите требуемые сведения в диалоговом окне на странице создания Пользовательского визуального распознавания, чтобы создать ресурс для обучения и прогнозирования.

Создание нового проекта

В веб-браузере перейдите на веб-страницу Пользовательской службы визуального распознавания и щелкните Sign in (Вход). Войдите с помощью той же учетной записи, которую использовали для входа на портал Azure.

Изображение страницы входа

  1. Для создания первого проекта щелкните Новый проект. Появится диалоговое окно Create new project (Создание проекта).

    В диалоговом окне нового проекта есть поля для имени, описания и доменов.

  2. Введите имя и описание проекта. Затем выберите группу ресурсов. Если учетная запись, с которой вы вошли в систему, связана с учетной записью Azure, в раскрывающемся списка Resource Group (Группа ресурсов) будут отображаться все группы ресурсов Azure, в которых есть ресурс Пользовательской службы визуального распознавания.

    Примечание

    Если группы ресурсов недоступны, убедитесь, что вы вошли в customvision.ai с помощью той же учетной записи, которую использовали для входа на портал Azure. Кроме того, убедитесь, что вы выбрали на веб-сайте Пользовательского визуального распознавания тот же каталог, что и каталог на портале Azure, где расположены ваши ресурсы Пользовательского визуального распознавания. На обоих сайтах вы можете выбрать свой каталог из раскрывающегося списка меню учетной записи в правом верхнем углу экрана.

  3. Выберите обнаружение объектов в типах проектов.

  4. Затем выберите один из доступных доменов. Каждый домен оптимизирует средство обнаружения для определенных типов изображений, как описано в следующей таблице. Если потребуется, вы сможете изменить этот домен позднее.

    Домен Назначение
    Общие сведения Рассчитан на самые разные задачи обнаружения объектов. Если не подходит ни один из других доменов или вы не уверены, какой домен выбрать, выбирайте Generic.
    Логотип Оптимизировано для поиска марочных логотипов в изображениях.
    Продукты на полках Оптимизировано для обнаружения и классификации продуктов на полках.
    Домены Compact Оптимизированы для ограничений обнаружения объектов в режиме реального времени на мобильных устройствах. Модели, созданные доменами Compact, можно экспортировать для локального запуска.
  5. И наконец, щелкните Create project (Создать проект).

Выбор обучающих изображений

Мы рекомендуем включить в начальный обучающий набор не менее 30 изображений для каждого тега. Кроме того, вам потребуются несколько дополнительных изображений для тестирования обученной модели.

Чтобы обучение модели было эффективным, используйте разнообразные изображения. Изображения должны отличаться по следующим аспектам:

  • угол обзора камеры;
  • освещение;
  • background
  • стиль изображения;
  • отдельные объекты и группы;
  • size
  • type

Также убедитесь, что все обучающие изображения соответствуют следующим критериям:

  • формат JPG, PNG, BMP или GIF;
  • размер не более 6 МБ (4 МБ для прогнозирования изображений);
  • не менее 256 пикселей по короткой стороне (Пользовательская служба визуального распознавания автоматически увеличивает изображения меньшего размера).

Примечание

Вам нужен более широкий набор изображений для выполнения обучения? Trove, проект Microsoft Garage, позволяет создавать и покупать наборы изображений для обучения. После сбора изображений их можно скачать, а затем импортировать в проект Пользовательского визуального распознавания обычным способом. Чтобы узнать больше, посетите страницу Trove.

Отправка и снабжение тегами изображений

При работе с этим разделом вы отправите изображения и вручную добавите к ним теги для средства обнаружения.

  1. Чтобы добавить изображения, последовательно выберите элементы Add images (Добавить изображения) и Browse local files (Обзор локальных файлов). Выберите Открыть, чтобы загрузить изображение.

    Визуальный элемент для добавления изображений отображается в левом верхнем углу и в виде кнопки по центру снизу.

  2. Вы увидите свои переданные изображения в разделе Без тегов. Следующий этап — вручную отметить объекты, которые вы хотите, чтобы средство обнаружения научилось распознавать. Щелкните первое изображение, чтобы открыть диалоговое окно присвоения тегов.

    Изображения отправлены в раздел без тегов

  3. Щелкните и перетащите прямоугольник вокруг объекта на своем изображении. Затем введите новое имя тега с помощью кнопки + или выберите существующий тег из раскрывающегося списка. Это необходимо, чтобы отметить каждый экземпляр объекта (объектов), который нужно обнаружить, так как средство обнаружения использует фон области без тегов в качестве отрицательного примера при обучении. Когда вы закончите расстановку тегов, щелкните на стрелку справа, чтобы сохранить свои теги и перейти к следующему изображению.

    Расстановка тегов объекта с помощью прямоугольной области

Чтобы отправить новый набор изображений, прокрутите страницу наверх и повторите все шаги.

Обучение средства обнаружения

Для обучения модели средства обнаружения нажмите кнопку Train (Обучение). Средство обнаружения использует все текущие изображения и их теги для создания модели, которая идентифицирует каждый помеченный объект.

Кнопка обучения в правом верхнем углу панели инструментов в заголовке веб-страницы

Процесс обучения обычно занимает пару минут. В течение этого времени информация о процессе обучения отображается на вкладке Performance (Производительность).

Окно браузера с диалоговым окном в основной части

анализ средств обнаружения;

После обучения выполняется вычисление производительности модели и отображаются результаты этой оценки. Служба Пользовательского визуального распознавания использует изображения, которые вы отправили для обучения, для расчета точности, отзыва и средней точности. Точность и полнота — это разные характеристики эффективности средства обнаружения.

  • Точность обозначает долю правильно определенных классов. Например, если модель определила наличие собак на 100 изображениях, из которых на 99 действительно есть собаки, точность этой модели составляет 99 %.
  • Полнота обозначает долю правильно определенных фактических классов. Например, если в наборе присутствует 100 изображений яблок, из которых модель правильно определила 80, полнота этой модели составляет 80 %.
  • Усредненная точность — среднее значение средней точности (AP). AP — это площадь под кривой соотношения полноты и точности (значение точности соотносится со значением полноты для каждого прогноза).

Результаты обучения показывают общую точность и отзыв, а также среднюю точность.

Порог вероятности

Обратите внимание на ползунок Probability Threshold (Порог вероятности) на левой панели вкладки Performance (Производительность). Это уровень достоверности, который должен иметь прогноз, чтобы считаться верным (для вычисления точности и отзыва).

Когда вы интерпретируете вызовы прогнозирования с высоким порогом вероятности, они обычно возвращают результаты с высокой точностью, обеспеченной за счет отзыва — обнаруженные классификации верны, но многие из них не удается обнаружить. С низким порогом вероятности ситуация противоположная — обнаруживается большинство фактических классификаций, но в наборе больше ложных срабатываний. Учитывайте это при настройке порога вероятности в соответствии с потребностями для конкретного проекта. Позже, когда вы получите результаты прогнозирования на стороне клиента, вам нужно будет задать используемое здесь значение порога вероятности.

Порог перекрытия

Ползунок порога перекрытия определяет то, насколько точным должен быть прогноз объекта, чтобы считаться "правильным" при обучении. Этот ползунок позволяет установить минимальное допустимое перекрытие между ограничивающим прямоугольником прогнозируемого объекта и фактическим ограничивающим прямоугольником, который указал пользователь. Если ограничивающие прямоугольники не перекрываются до установленного показателя степени, прогноз не будет считаться правильным.

Управление итерациями обучения

При каждом обучении средства обнаружения создается новая итерация с обновленными метриками производительности. Все выполненные итерации можно просмотреть на панели слева на вкладке Performance (Производительность). Также на панели слева есть кнопка Delete (Удалить), которая позволяет удалить устаревшие итерации. При удалении итерации удаляются только связанные с ней изображения.

Сведения о том, как с помощью программных средств получить доступ к обученным моделям, см. в статье об использовании модели с API прогнозирования.

Дальнейшие действия

В этом кратком руководстве объясняется, как создать и обучить модель средства обнаружения на веб-сайте Пользовательского визуального распознавания. См. дополнительные сведения об итеративном процессе улучшения модели.