Что собой представляет Компьютерное зрениеWhat is Computer Vision?

Важно!

TLS 1.2 теперь применяется для всех HTTP-запросов к этой службе.TLS 1.2 is now enforced for all HTTP requests to this service. Дополнительные сведения см. в статье Безопасность в Azure Cognitive Services.For more information, see Azure Cognitive Services security.

Компьютерное зрение Azure обеспечивает разработчикам доступ к расширенным алгоритмам обработки изображений и возврата данных, в зависимости от интересующих вас визуальных функций.Azure's Computer Vision service provides developers with access to advanced algorithms that process images and return information, depending on the visual features you're interested in. Например, API компьютерного зрения может определить, содержит ли изображение содержимое для взрослых, или найти все лица людей на изображении.For example, Computer Vision can determine if an image contains adult content, or it can find all of the human faces in an image.

С помощью собственного пакета SDK или вызова REST API напрямую в приложении вы можете использовать Компьютерное зрение.You can use Computer Vision in your application through a native SDK or by invoking the REST API directly. Эта страница содержит подробные сведения о действиях, которые можно совершить с помощью API компьютерного зрения.This page broadly covers what you can do with Computer Vision.

Компьютерное зрение для управления цифровыми активамиComputer Vision for digital asset management

Компьютерное зрение может использовать многие сценарии управления цифровыми активами (DAM).Computer Vision can power many digital asset management (DAM) scenarios. DAM — это бизнес-процесс организации, хранения и извлечения мультимедийных ресурсов, а также управления цифровыми правами и разрешениями.DAM is the business process of organizing, storing, and retrieving rich media assets and managing digital rights and permissions. Например, компании может потребоваться группировать и обозначать изображения на основе видимых логотипов, лиц, объектов, цветов и т. д.For example, a company may want to group and identify images based on visible logos, faces, objects, colors, and so on. Или, если вы хотите автоматически создавать подписи для изображений и прикреплять ключевые слова для возможности поиска.Or, you might want to automatically generate captions for images and attach keywords so they're searchable. Сведения о комплексном решении DAM с использованием Когнитивного поиска Azure и интеллектуальных отчетов см. в статье Knowledge Mining Solution Accelerator Guide (Руководство по решению для интеллектуального анализа данных) на GitHub.For an all-in-one DAM solution using Cognitive Services, Azure Cognitive Search, and intelligent reporting, see the Knowledge Mining Solution Accelerator Guide on GitHub. Другие примеры DAM см. в разделе репозитория Шаблоны решений Компьютерного зрения.For other DAM examples, see the Computer Vision Solution Templates repository.

Анализ изображений для получения полезных сведенийAnalyze images for insight

Вы можете проанализировать изображения, чтобы обнаружить и получить сведения о визуальных компонентах и характеристиках.You can analyze images to detect and provide insights about their visual features and characteristics. API анализа изображений предоставляет все функции в следующей таблице.All of the features in the table below are provided by the Analyze Image API.

ДействиеAction ОписаниеDescription
Добавление тегов к визуальным компонентамTag visual features Определяйте визуальные компоненты на изображении и добавляйте к ним теги из набора тысяч распознаваемых объектов, живых существ, пейзажей и действий.Identify and tag visual features in an image, from a set of thousands of recognizable objects, living things, scenery, and actions. В случаях, когда теги могут быть неоднозначными или не общеизвестными, в ответ API входят подсказки, уточняющие содержимое тега.When the tags are ambiguous or not common knowledge, the API response provides hints to clarify the context of the tag. Добавление тегов не ограничивается основным предметом, например человеком на переднем плане, но также включает параметр (внутри помещения или снаружи), мебель, инструменты, растения, животных, аксессуары, гаджеты и т. д.Tagging isn't limited to the main subject, such as a person in the foreground, but also includes the setting (indoor or outdoor), furniture, tools, plants, animals, accessories, gadgets, and so on.
Обнаружение объектовDetect objects Обнаружение объекта похоже на добавление тегов, но API возвращает координаты ограничивающего прямоугольника для каждого примененного тега.Object detection is similar to tagging, but the API returns the bounding box coordinates for each tag applied. Например, если на изображении есть собака, кот и человек, операция определения отобразит список этих объектов с их координатами на изображении.For example, if an image contains a dog, cat and person, the Detect operation will list those objects together with their coordinates in the image. Эту функциональность можно использовать, чтобы обрабатывать дальнейшие отношения между объектами изображения.You can use this functionality to process further relationships between the objects in an image. Это также позволяет определить множество экземпляров одного тега на изображении.It also lets you know when there are multiple instances of the same tag in an image.
Обнаружение торговых марокDetect brands Определяет торговые марки в изображениях или видео из базы данных тысяч глобальных логотипов.Identify commercial brands in images or videos from a database of thousands of global logos. Вы можете использовать эту функцию, например, чтобы узнать, какие торговые марки наиболее популярны в социальных сетях или наиболее распространены при размещении медиа-продуктов.You can use this feature, for example, to discover which brands are most popular on social media or most prevalent in media product placement.
Классификация изображенияCategorize an image Определение и классификация всего изображения с помощью классификации категорий с родительскими или дочерними наследственными иерархиями.Identify and categorize an entire image, using a category taxonomy with parent/child hereditary hierarchies. Категории могут использоваться отдельно или с новыми моделями добавления тегов.Categories can be used alone, or with our new tagging models.
В настоящее время единственным поддерживаемым языком для добавления тегов и классификации изображений является английский.Currently, English is the only supported language for tagging and categorizing images.
Описание изображенияDescribe an image Создание описания всего изображения на удобочитаемом языке с использованием полных предложений.Generate a description of an entire image in human-readable language, using complete sentences. Алгоритмы API компьютерного зрения создают различные описания в зависимости от объектов, определенных на изображении.Computer Vision's algorithms generate various descriptions based on the objects identified in the image. Каждое описание оценивается и получает оценку достоверности.The descriptions are each evaluated and a confidence score generated. Затем возвращается список, упорядоченный от наибольшей оценки достоверности к наименьшей.A list is then returned ordered from highest confidence score to lowest.
Распознавание лицDetect faces Обнаружение лиц на изображении, а также предоставление сведений о каждом обнаруженном лице.Detect faces in an image and provide information about each detected face. API компьютерного зрения возвращает координаты, прямоугольник, пол и возраст для каждого обнаруженного лица.Computer Vision returns the coordinates, rectangle, gender, and age for each detected face.
Компьютерное зрение предоставляет подмножество функциональных служб Распознавание лиц.Computer Vision provides a subset of the Face service functionality. Службу распознавание лиц можно использовать для более глубокого анализа, например, в качестве идентификации по лицу и определении позы.You can use the Face service for more detailed analysis, such as facial identification and pose detection.
Обнаружение типов изображенияDetect image types Выявление характеристик изображения, например, является ли изображение графическим или же это иллюстрация.Detect characteristics about an image, such as whether an image is a line drawing or the likelihood of whether an image is clip art.
Обнаружение содержимого, связанного с определенными сферамиDetect domain-specific content Использование модели предметной области для обнаружения и идентификации отдельного предметного содержимого в изображении, например знаменитостей и достопримечательностей.Use domain models to detect and identify domain-specific content in an image, such as celebrities and landmarks. К примеру, если на изображении люди, API компьютерного зрения может использовать модель предметной области для знаменитостей, чтобы определить, являются ли люди, обнаруженные на изображении, знаменитостями.For example, if an image contains people, Computer Vision can use a domain model for celebrities to determine if the people detected in the image are known celebrities.
Обнаружение цветовой схемыDetect the color scheme Анализ использования цвета в изображении.Analyze color usage within an image. API компьютерного зрения может определить, является ли изображение черно-белым или цветным, а для цветных изображений может определить основные цвета и акцентные.Computer Vision can determine whether an image is black & white or color and, for color images, identify the dominant and accent colors.
Создание эскизаGenerate a thumbnail Анализ содержимого изображения, чтобы создать для него соответствующий эскиз.Analyze the contents of an image to generate an appropriate thumbnail for that image. API компьютерного зрения сначала генерирует высококачественный эскиз, а затем анализирует объекты изображения, чтобы определить интересующую область.Computer Vision first generates a high-quality thumbnail and then analyzes the objects within the image to determine the area of interest. Затем он обрезает изображение для соответствия требованиям интересующей области.Computer Vision then crops the image to fit the requirements of the area of interest. Для удовлетворения потребностей пользователя созданный эскиз можно пропорционально изменять в размерах.The generated thumbnail can be presented using an aspect ratio that is different from the aspect ratio of the original image, depending on your needs.
Получение интересующей областиGet the area of interest Анализ содержимого изображения для возврата координат интересующей области.Analyze the contents of an image to return the coordinates of the area of interest. Вместо обрезания изображения и создания эскиза, компьютерное зрение возвращает координаты ограничивающего прямоугольника региона, чтобы вызывающее приложение могло изменять исходное изображение при необходимости.Instead of cropping the image and generating a thumbnail, Computer Vision returns the bounding box coordinates of the region, so the calling application can modify the original image as desired.

Извлечение текста из изображенийExtract text from images

Чтобы извлечь печатный и рукописный текст из изображений в поток символов, обрабатываемых компьютером можно использовать API Чтения компьютерного зрения.You can use Computer Vision Read API to extract printed and handwritten text from images into a machine-readable character stream. Read API использует обновленные модели и работает с текстом на таких разнообразных поверхностях и фонах, как квитанции, плакаты, визитные карточки, письма и доски.The Read API uses our latest models and works with text on a variety of surfaces and backgrounds, such as receipts, posters, business cards, letters, and whiteboards. Сейчас поддерживаются только английский и испанский языки.Currently, English and Spanish are the only supported languages.

Чтобы извлечь печатный текст на нескольких языках также можно использовать API оптического распознавания текста (OCR).You can also use the optical character recognition (OCR) API to extract printed text in several languages. При необходимости функция OCR выравнивает распознанный текст и предоставляет координаты кадра каждого слова.If needed, OCR corrects the rotation of the recognized text and provides the frame coordinates of each word. Функция OCR поддерживает 25 языков и автоматически определяет язык распознанного текста.OCR supports 25 languages and automatically detects the language of the recognized text.

Модерация содержимого на изображенияхModerate content in images

API компьютерного зрения можно использовать для обнаружения содержимого для взрослых на изображении и оценки достоверности для различных классификаций.You can use Computer Vision to detect adult content in an image and return confidence scores for different classifications. Порог для обозначения содержимого можно настроить в соответствии с предпочтением пользователя по степени принятия материалов данного характера.The threshold for flagging content can be set on a sliding scale to accommodate your preferences.

Использование контейнеровUse containers

Контейнеры Компьютерного зрения можно использовать для распознавания печатного и рукописного текста на локальном компьютере, установив стандартные контейнер Docker в непосредственной близости к данным.Use Computer Vision containers to recognize printed and handwritten text locally by installing a standardized Docker container closer to your data.

Требования к образамImage requirements

API компьютерного зрения может анализировать изображения, отвечающие следующим требованиям:Computer Vision can analyze images that meet the following requirements:

  • Изображение должно быть представлено в формате JPEG, PNG, GIF или BMP.The image must be presented in JPEG, PNG, GIF, or BMP format
  • Размер файла изображения должен быть меньше 4 МБ.The file size of the image must be less than 4 megabytes (MB)
  • Размеры изображения должны быть больше 50 x 50 пикселей.The dimensions of the image must be greater than 50 x 50 pixels
    • Размер изображения для API чтения должен быть от 50 x 50 до 10000 x 10000 пикселей.For the Read API, the dimensions of the image must be between 50 x 50 and 10000 x 10000 pixels.

Конфиденциальность и безопасность данныхData privacy and security

Как и в случае со всеми другими Cognitive Services, разработчикам, использующим API компьютерного зрения, следует учитывать политику корпорации Майкрософт касательно клиентских данных.As with all of the Cognitive Services, developers using the Computer Vision service should be aware of Microsoft's policies on customer data. Дополнительные сведения см. на странице о Cognitive Services Центра управления безопасностью Майкрософт.See the Cognitive Services page on the Microsoft Trust Center to learn more.

Дальнейшие действияNext steps

Чтобы начать работу с API компьютерного зрения, следуйте инструкциям краткого руководства.Get started with Computer Vision by following a quickstart guide: