Визуальное распознавание искусственного интеллекта Azure

3 мин

Хотя вы можете обучать собственные модели машинного обучения для компьютерного зрения, архитектура моделей компьютерного зрения может быть сложной; и вам требуются значительные объемы обучающих образов и вычислительных ресурсов для выполнения процесса обучения.

Служба визуального распознавания искусственного интеллекта Microsoft Azure предоставляет предварительно созданные и настраиваемые модели компьютерного зрения, основанные на базовой модели Флоренции и предоставляющие различные мощные возможности. С помощью Azure AI Vision вы можете быстро и легко создавать сложные решения компьютерного зрения; использование функциональных возможностей "вне полки" для многих распространенных сценариев компьютерного зрения, сохраняя возможность создавать пользовательские модели с помощью собственных изображений.

Ресурсы Azure для службы "Визуальное распознавание ИИ Azure"

Чтобы использовать Azure AI Vision, необходимо создать ресурс для него в подписке Azure. Можно использовать один из следующих типов ресурсов.

Azure AI Vision: определенный ресурс для службы "Визуальное распознавание ИИ Azure". Используйте этот тип ресурса, если вы не планируете использовать другие службы ИИ Azure или если вы хотите отслеживать использование и затраты для ресурса Azure AI Vision отдельно.
Службы ИИ Azure: общий ресурс, включающий Azure AI Vision, а также множество других служб ИИ Azure, таких как язык ИИ Azure, Пользовательское визуальное распознавание ИИ Azure, Переводчик ИИ Azure и другие. Используйте этот тип ресурса, если планируется использовать несколько служб ИИ и хотите упростить администрирование и разработку.

Анализ изображений с помощью службы "Визуальное распознавание ИИ Azure"

После создания подходящего ресурса в подписке вы можете отправить изображения в службу "Визуальное распознавание ИИ Azure" для выполнения широких аналитических задач.

Azure AI Vision поддерживает несколько возможностей анализа изображений, в том числе:

Оптическое распознавание символов (OCR) — извлечение текста из изображений.
Создание подпись и описания изображений.
Обнаружение тысяч распространенных объектов на изображениях.
Добавление тегов визуальных функций в изображениях

Эти задачи и многое другое можно выполнять в Azure AI Vision Studio.

Screenshot of Vision Studio.

Распознавание текста

Служба визуального распознавания искусственного интеллекта Azure может использовать возможности оптического распознавания символов (OCR) для обнаружения текста в изображениях. Например, рассмотрим следующее изображение метки питания на продукте в продуктовом магазине:

Diagram of a nutrition label.

Служба визуального распознавания ИИ Azure может проанализировать это изображение и извлечь следующий текст:

Nutrition Facts Amount Per Serving
Serving size:1 bar (40g)
Serving Per Package: 4
Total Fat 13g
Saturated Fat 1.5g
Amount Per Serving
Trans Fat 0g
calories 190
Cholesterol 0mg
ories from Fat 110
Sodium 20mg
ntDaily Values are based on
Vitamin A 50
calorie diet

Совет

Дополнительные сведения о возможностях OCR визуального распознавания ИИ Azure можно изучить в модуле "Распознавание искусственного интеллекта Azure" в Microsoft Learn.

Описание изображения с помощью подпись

Azure AI Vision имеет возможность анализировать изображение, оценивать обнаруженные объекты и создавать фразу или предложение, доступное для чтения человеком, которое может описать, что было обнаружено на изображении. Например, рассмотрим следующее изображение:

Diagram of a man on a skateboard.

Azure AI Vision возвращает следующие подпись для этого образа:

Мужчина прыгает на скейтборде

Обнаружение общих объектов на изображении

Визуальное распознавание искусственного интеллекта Azure может определять тысячи распространенных объектов на изображениях. Например, при использовании для обнаружения объектов на изображении скейтбордера, рассмотренном ранее, Azure AI Vision возвращает следующие прогнозы:

Скейтборд (90,40%)
Person (95,5%)

Прогнозы включают оценку достоверности, указывающую вероятность вычисления модели для прогнозируемых объектов.

Помимо обнаруженных меток объектов и их вероятностей, Azure AI Vision возвращает ограничивающие координаты прямоугольник , указывающие верхнюю, левую, ширину и высоту обнаруженного объекта. Эти координаты можно использовать для определения того, где на изображении обнаружен каждый объект, как показано ниже.

Diagram of a skateboarder with bounding boxes around detected objects.

Добавление тегов к визуальным компонентам

Azure AI Vision может предлагать теги для изображения на основе его содержимого. Эти теги можно связать с изображением как метаданные, которые суммируют атрибуты изображения и могут быть полезны, если вы хотите индексировать изображение вместе с набором ключевых терминов, которые могут использоваться для поиска изображений с определенными атрибутами или содержимым.

Например, теги, возвращаемые для изображения скейтбордера (с связанными оценками достоверности), включают:

спорт (99,60%)
person (99,56%)
обувь (98,05%)
коньки (96,27%)
boardsport (95,58%)
оборудование для скейтбординга (94,43%)
одежда (94,02%)
wall (93,81%)
скейтбординг (93,78%)
скейтбордер (93,25%)
отдельные виды спорта (92,80%)
уличные трюки (90,81%)
баланс (90,81%)
переход (89,87%)
спортивное оборудование (88,61%)
экстремальный спорт (88,35%)
kickflip (88,18%)
трюк (87,27%)
скейтборд (86,87%)
исполнитель трюка (85,83%)
колено (85,30%)
спорт (85,24%)
longboard (84,61%)
longboarding (84,45%)
езда (73,37%)
скейт (67,27%)
воздух (64,83%)
молодой (63,29%)
открытый (61,39%)

Обучение пользовательских моделей

Если встроенные модели, предоставляемые Azure AI Vision, не соответствуют вашим потребностям, вы можете использовать службу для обучения пользовательской модели для классификации изображений или обнаружения объектов. Azure AI Vision создает пользовательские модели на предварительно обученной базовой модели, что означает, что можно обучать сложные модели с помощью относительно небольшого обучающего изображения.

Классификация изображений

Модель классификации изображений используется для прогнозирования категории или класса изображения. Например, можно обучить модель, чтобы определить, какой тип фруктов отображается на изображении, как показано ниже:

Apple	Банан	Апельсин

Обнаружение объектов

Модели обнаружения объектов обнаруживают и классифицируют объекты на изображении, возвращая координаты ограничивающего прямоугольника для поиска каждого объекта. Помимо встроенных возможностей обнаружения объектов в Azure AI Vision, вы можете обучить пользовательскую модель обнаружения объектов с помощью собственных изображений. Например, можно использовать фотографии фруктов для обучения модели, которая обнаруживает несколько фруктов на изображении, как показано ниже.

Diagram of multiple detected fruits in an image.

Примечание.

Сведения об использовании Azure AI Vision для обучения пользовательской модели выходят за рамки область этого модуля. Сведения об обучении пользовательских моделей см. в документации по Azure AI Vision.

Продолжить