Что такое анализ изображений?

Статья
02/20/2024

Служба анализа изображений Зрение ИИ Azure может извлекать из ваших изображений самые разные визуальные характеристики. Например, служба может определить, есть ли на изображении содержимое для взрослых, конкретные торговые марки или объекты, или найти человеческие лица.

Последняя версия анализа изображений 4.0, которая в настоящее время является общедоступной, имеет новые функции, такие как синхронное обнаружение OCR и людей. Рекомендуется использовать эту версию.

Вы можете использовать Анализ изображений с помощью пакета SDK для клиентской библиотеки или посредством прямого вызова REST API. Чтобы приступить к работе, ознакомьтесь с этим руководством.

Краткое руководство

Вы также можете быстро и легко опробовать возможности Анализа изображений в браузере с помощью Vision Studio.

Попробовать Vision Studio

Эта документация включает статьи следующих видов:

Краткие руководства — пошаговые инструкции, которые помогут вам вызвать службу и быстро получить результат.
Практические руководства — содержат инструкции для более специфического или специализированного использования службы.
Тематические статьи — подробно описывают функциональность и возможности службы.
Учебники — расширенные руководства, которые описывают использование службы в качестве компонента бизнес-решений.

Для более структурированного подхода следуйте модулю обучения для анализа изображений.

Анализ изображений с помощью службы "Визуальное распознавание ИИ Azure"

Версии анализа изображений

Внимание

Выберите версию API анализа изображений, которая лучше всего соответствует вашим требованиям.

Версия	Доступные возможности	Рекомендации
версия 4.0	Чтение текста, субтитров, плотных подпись, тегов, обнаружения объектов, классификации пользовательских изображений/ обнаружения объектов, Люди, интеллектуальной обрезки	Лучшие модели; используйте версию 4.0, если она поддерживает вариант использования.
версия 3.2	Теги, объекты, описания, бренды, лица, тип изображения, цветовая схема, ориентиры, знаменитости, содержимое для взрослых, смарт-обрезка	Более широкий спектр функций; используйте версию 3.2, если вариант использования еще не поддерживается в версии 4.0

Рекомендуется использовать API анализа изображений 4.0, если он поддерживает вариант использования. Используйте версию 3.2, если вариант использования еще не поддерживается 4.0.

Кроме того, вам потребуется использовать версию 3.2, если вы хотите сделать образ подпись ing и ресурс Vision находится за пределами этих регионов Azure: Восточная часть США, Центральная Франция, Центральная Корея, Северная Европа, Юго-Восточная Азия, Западная Европа и Западная ЧАСТЬ США, Восточная Азия. Функция подпись изображения в анализе изображений 4.0 поддерживается только в этих регионах Azure. Изображение подпись в версии 3.2 доступно во всех регионах Azure AI Vision.

Анализ изображения

Вы можете проанализировать изображения, чтобы получить сведения о визуальных компонентах и характеристиках. Все функции в этом списке предоставляются API анализа изображений. Чтобы приступить к работе, ознакомьтесь с этим руководством.

Имя	Описание	Страница концепции
Настройка модели (только предварительная версия версии 4.0)	Вы можете создавать и обучать пользовательские модели для классификации изображений или обнаружения объектов. Приведите собственные изображения, пометьте их настраиваемыми тегами, а анализ изображений обучает модель, настраиваемую для вашего варианта использования.	Настройка модели
Чтение текста из изображений (только версия 4.0)	Предварительная версия 4.0 анализа изображений позволяет извлекать доступный для чтения текст из изображений. По сравнению с асинхронным Компьютерное зрение API чтения 3.2 новая версия предлагает знакомый механизм чтения OCR в унифицированном API с улучшенным производительностью, что упрощает получение OCR вместе с другими аналитическими сведениями в одном вызове API.	OCR для изображений
Обнаружение людей в изображениях (только версия 4.0)	Версия 4.0 анализа изображений позволяет обнаруживать людей, отображаемых на изображениях. Координаты ограничивающего прямоугольника каждого обнаруженного человека возвращаются вместе с оценкой достоверности.	обнаружение Люди
Создание подпись изображений	Создайте подпись изображения на удобочитаемом языке, используя полные предложения. алгоритмы Компьютерное зрение создают подпись на основе объектов, определенных на изображении. Модель подпись ing образа версии 4.0 является более расширенной реализацией и работает с более широким диапазоном входных образов. Он доступен только в следующих географических регионах: восточная часть США, Центральная Франция, Центральная Корея, Северная Европа, Юго-Восточная Азия, Западная Европа, Западная Европа, Западная часть США. Версия 4.0 также позволяет использовать плотную подпись, которая создает подробные подпись для отдельных объектов, найденных на изображении. API возвращает координаты ограничивающего прямоугольника (в пикселях) каждого объекта, найденного на изображении, а также подпись. Эту функцию можно использовать для создания описания отдельных частей изображения.	Создание подпись изображений (версия 3.2) (версия 4.0)
Обнаружение объектов	Обнаружение объекта похоже на добавление тегов, но API возвращает координаты ограничивающего прямоугольника для каждого примененного тега. Например, если изображение содержит собаку, кота и человека, операция обнаружения перечисляет эти объекты вместе с их координатами на изображении. Эту функциональность можно использовать, чтобы обрабатывать дальнейшие отношения между объектами изображения. Это также позволяет определить множество экземпляров одного тега на изображении.	Обнаружение объектов (версия 3.2) (версия 4.0)
Добавление тегов к визуальным компонентам	Определяйте визуальные компоненты на изображении и добавляйте к ним теги из набора тысяч распознаваемых объектов, живых существ, пейзажей и действий. В случаях, когда теги могут быть неоднозначными или не общеизвестными, в ответ API входят подсказки, уточняющие содержимое тега. Добавление тегов не ограничивается основным предметом, например человеком на переднем плане, но также включает параметр (внутри помещения или снаружи), мебель, инструменты, растения, животных, аксессуары, гаджеты и т. д.	Визуальные функции тегов (версия 3.2) (версия 4.0)
Получение области интереса / интеллектуальной обрезки	Проанализируйте содержимое изображения, чтобы вернуть координаты интересующей области , которая соответствует указанному пропорции. Компьютерное зрение возвращает координаты ограничивающего поля региона, поэтому вызывающее приложение может изменить исходное изображение по мере необходимости. Модель интеллектуальной обрезки версии 4.0 является более расширенной реализацией и работает с более широким диапазоном входных изображений. Он доступен только в следующих географических регионах: восточная часть США, Центральная Франция, Центральная Корея, Северная Европа, Юго-Восточная Азия, Западная Европа, Западная Европа, Западная часть США.	Создание эскиза (версия 3.2) (предварительная версия версии 4.0)
Обнаружение брендов (только для версии 3.2)	Определяет торговые марки в изображениях или видео из базы данных тысяч глобальных логотипов. Вы можете использовать эту функцию, например, чтобы узнать, какие торговые марки наиболее популярны в социальных сетях или наиболее распространены при размещении медиа-продуктов.	Обнаружение торговых марок
Классификация изображения (только для версии 3.2)	Определение и классификация всего изображения с помощью классификации категорий с родительскими или дочерними наследственными иерархиями. Категории могут использоваться отдельно или с новыми моделями добавления тегов. В настоящее время единственным поддерживаемым языком для добавления тегов и классификации изображений является английский.	Классификация изображения
Обнаружение лиц (только для версии 3.2)	Обнаружение лиц на изображении, а также предоставление сведений о каждом обнаруженном лице. Azure AI Vision возвращает координаты, прямоугольник, пол и возраст для каждого обнаруженного лица. Для этих целей также можно использовать отдельный API Распознавания лиц . Его можно использовать для более глубокого анализа, например для идентификации по лицу и определении позы.	Распознавание лиц
Обнаружение типов изображений (только версия 3.2)	Выявление характеристик изображения, например, является ли изображение графическим или же это иллюстрация.	Обнаружение типов изображения
Обнаружение содержимого для конкретного домена (только версия 3.2)	Использование модели предметной области для обнаружения и идентификации отдельного предметного содержимого в изображении, например знаменитостей и достопримечательностей. Например, если изображение содержит людей, Azure AI Vision может использовать модель домена для знаменитостей, чтобы определить, обнаружены ли люди на изображении известны знаменитостей.	Обнаружение содержимого, связанного с определенными сферами
Обнаружение цветовой схемы (только версия 3.2)	Анализ использования цвета в изображении. Визуальное распознавание искусственного интеллекта Azure может определить, является ли изображение черным и белым или цветным, а для цветовых изображений и определять доминирующие и акцентные цвета.	Обнаружение цветовой схемы
Умеренное содержимое в изображениях (только версия 3.2)	Azure AI Vision позволяет обнаруживать содержимое взрослых в изображении и возвращать оценки достоверности для различных классификаций. Порог для обозначения содержимого можно настроить в соответствии с предпочтением пользователя по степени принятия материалов данного характера.	Обнаружение содержимого для взрослых

Совет

Функции обнаружения текста и объектов чтения можно использовать с помощью службы Azure OpenAI . GPT-4 Turbo с моделью визуального распознавания позволяет общаться с помощник ИИ, которые могут анализировать общие изображения, и параметр "Улучшение зрения" использует анализ изображений, чтобы предоставить ИИ дополнительные сведения (доступные для чтения текст и расположения объектов) о изображении. Дополнительные сведения см. в кратком руководстве по GPT-4 Turbo с vision.

Распознавание продуктов (только предварительная версия версии 4.0)

API распознавания продуктов позволяют анализировать фотографии полков в розничном магазине. Вы можете обнаружить наличие или отсутствие продуктов и получить их ограничивающие координаты коробки. Используйте его в сочетании с настройкой модели для обучения модели для идентификации конкретных продуктов. Вы также можете сравнить результаты распознавания продуктов с документом планограммы магазина.

Распознавание продуктов

Многомодальные внедрения (только версия 4.0)

Api-интерфейсы многомодальных внедрения обеспечивают векторизацию изображений и текстовых запросов. Они преобразуют изображения в координаты в многомерном векторном пространстве. Затем входящие текстовые запросы также можно преобразовать в векторы, а изображения можно сопоставить с текстом на основе семантической близости. Это позволяет пользователю выполнять поиск по набору изображений с помощью текста без необходимости использовать теги изображений или другие метаданные. Семантическая близость часто дает лучшие результаты в поиске.

2024-02-01 API включает многоязычную модель, которая поддерживает поиск текста на 102 языках. Исходная модель только на английском языке по-прежнему доступна, но ее нельзя объединить с новой моделью в том же индексе поиска. Если векторизованный текст и изображения с помощью модели только на английском языке, эти векторы не будут совместимы с многоязычным текстом и векторами изображений.

Эти API доступны только в следующих географических регионах: восточная часть США, Центральная Франция, Центральная Корея, Северная Европа, Юго-Восточная Азия, Западная Европа, Западная Часть США.

Многомодальные внедрения

Удаление фона (только предварительная версия версии 4.0)

Анализ изображений 4.0 (предварительная версия) позволяет удалить фон изображения. Эта функция может выводить изображение обнаруженного объекта переднего плана с прозрачным фоном или изображением альфа-матового цвета серого цвета, показывающее непрозрачность обнаруженного объекта переднего плана.

Удаление фона

Исходное изображение	Удаление фона	Альфа-матовый

Анализ изображений работает на изображениях, которые отвечают следующим требованиям:

Изображение должно быть в формате JPEG, PNG, GIF, BMP, WEBP, ICO, TIFF или MPO
Размер файла изображения должен быть меньше 20 МБ
Размеры изображения должны быть более 50 x 50 пикселей и менее 16 000 x 16 000 пикселей

Совет

Требования к входным данным для многомодальных внедрения отличаются и перечислены в многомодальных внедрениях.

Конфиденциальность и безопасность данных

Как и во всех службах ИИ Azure, разработчики, использующие службу "Визуальное распознавание ИИ Azure", должны учитывать политики Майкрософт по данным клиентов. Дополнительные сведения см. на странице служб ИИ Azure в Центре управления безопасностью Майкрософт.

Следующие шаги

Начните работу с Анализом изображений, изучив краткое руководство по предпочтительному языку разработки: