Новые возможности Компьютерного зрения

Узнайте о новых возможностях службы. Эти элементы могут включать заметки о выпуске, видео, записи блогов и другие типы информации. Добавьте эту страницу в закладки, чтобы узнавать о новых и дополнительных возможностях, исправлениях проблем и обновлениях документации.

Июнь 2022 г.

Запуск Vision Studio

Vision Studio — это набор средств на основе пользовательского интерфейса, позволяющий исследовать, создавать и интегрировать функции Azure Cognitive Services для службы зрения в ваши приложения.

Language Studio предоставляет платформу для пробного ознакомления с несколькими функциями службы и позволяет наглядно увидеть, какие данные они возвращают. Кроме того, здесь предоставлен простой в использовании интерфейс для создания пользовательских проектов и моделей для работы с данными. С помощью Studio можно приступить к работе без написания кода, а затем использовать доступные клиентские библиотеки и REST API в приложении.

Ответственное применение ИИ для распознавания лиц

Документация по обеспечению прозрачности для Распознавания лиц

  • Документация по обеспечению прозрачности содержит рекомендации, которые помогут нашим клиентам повысить точность и справедливость своих систем за счет включения значимой проверки человеком для выявления и устранения случаев неправильной идентификации или других сбоев, предоставления поддержки людям, которые считают, что их результаты были неправильными, а также выявления и устранения колебаний точности из-за различий в условиях эксплуатации.

Прекращение использования конфиденциальных атрибутов

  • Мы отказались от возможностей анализа лица, которые предназначены для вывода эмоциональных состояний и атрибутов личности, таких как гендер, возраст, улыбка, волосы на лице, прическа и макияж.
  • Возможности обнаружения лиц (включая обнаружение размытия, экспозиции, очков, положения головы, ориентиров, шума, перекрытия, ограничивающего прямоугольника для лица) останутся общедоступными и не требуют приложения.

Пакет Fairlearn и панель мониторинга справедливости от Майкрософт

Политика ограниченного доступа

  • В рамках приведения Распознавания лиц в соответствие с обновленным стандартом ответственного ИИ была реализована новая политика ограниченного доступа для API Распознавания лиц и Компьютерного зрения. У существующих клиентов есть один год, чтобы подать заявку и получить одобрение на продолжение доступа к службам распознавания лиц на основе предоставленных ими вариантов использования. Дополнительные сведения о ограниченном доступе для Распознавания лиц см. здесь, а для Компьютерного зрения — здесь.

Компьютерное зрение 3.2 общедоступно.

Общедоступная версия 3.2 API уже выпущена. Учитывайте следующие изменения по сравнению с версиями 3.2-preview:

  1. Вызовы API анализа изображений и чтения теперь принимают необязательный параметр model-version, который можно использовать для указания используемой модели ИИ. По умолчанию они будут использовать последнюю модель.
  2. Вызовы API анализа изображений и чтения также возвращают поле model-version в успешных ответах API. В этом поле сообщается, какая модель использовалась.
  3. API анализа изображений теперь используют другой формат отчетов об ошибках. Сведения о корректировке кода обработки ошибок см. в справочной документации по API.

Май 2022 г

Общедоступная версия модели API распознавания текста (чтение)

Появилась общедоступная версия новейшей модели API распознавания текста (чтение) в виде облачной службы и контейнера со 164 поддерживаемыми языками.

  • Распознавание текста (OCR) теперь поддерживает печатный текст на 164 языках, включая русский, арабский, хинди и другие языки на основе кириллицы, письменности деванагари и арабской письменности.
  • Поддержка OCR для рукописного текста теперь охватывает девять языков: английский, испанский, итальянский, китайский (упрощенное письмо), корейский, немецкий, португальский, французский и японский.
  • Улучшена поддержка распознавания отдельных символов, рукописных дат, сумм, имен и других элементов, часто встречающихся в счетах и накладных.
  • Улучшена обработка цифровых PDF-документов.
  • Максимальный размер входного файла увеличен в 10 раз — до 500 МБ.
  • Улучшена производительность и уменьшена задержка.
  • Решение доступно в виде облачной службы и контейнера Docker.

Сведения об использовании общедоступной модели см. в руководстве по OCR.

Февраль 2022 г.

Общедоступная предварительная версия API OCR (чтение) поддерживает 164 языка

API OCR (чтение) в Компьютерном зрении расширяет список поддерживаемых языков до 164 в последней предварительной версии:

  • OCR поддерживает печатный текст на 42 новых языках, включая арабский, хинди и другие языки на основе письменности деванагари и арабской письменности.
  • Поддержка рукописного ввода для оптического распознавания символов (OCR) расширяется за счет японского и корейского языков в дополнение к английскому, китайскому (упрощенное письмо), французскому, немецкому, итальянскому, португальскому и испанскому.
  • Среди улучшений была оптимизирована поддержка извлечения рукописных дат, сумм, имен и полей с одним символом.
  • Общие улучшения производительности и качества искусственного интеллекта

Ознакомьтесь с руководством по OCR, чтобы узнать, как использовать новые функции предварительной версии.

Новый атрибут Quality в Detection_01 и Detection_03

  • Чтобы сборщикам систем и их клиентам было проще делать высококачественные изображения, необходимые для получения высококачественных выходных данных от API распознавания лиц, мы представляем новый атрибут качества QualityForRecognition, который поможет определять, является ли изображение достаточно качественным для распознавания лиц. Значение атрибута — неформальная оценка: низкое, среднее или высокое качество. Новый атрибут доступен только при использовании моделей обнаружения detection_01 или detection_03, а также моделей распознавания recognition_03 или recognition_04 в любой комбинации. Для регистрации пользователей рекомендуется использовать только изображения "высокого" качества, а для сценариев идентификации достаточно "среднего". Дополнительные сведения о новом атрибуте качества см. в разделе Обнаружение и атрибуты лиц, а инструкции по применению — в кратком руководстве.

Сентябрь 2021 г.

Общедоступная предварительная версия API OCR (чтение) поддерживает 122 языка

API OCR (чтение) в Компьютерном зрении расширяет список поддерживаемых языков до 122 в последней предварительной версии.

  • OCR поддерживает печатный текст на 49 новых языках, включая русский, болгарский и другие языки на основе кириллицы и латиницы.
  • OCR поддерживает рукописный текст на 6 новых языках, включая английский, китайский упрощенный, французский, немецкий, итальянский, португальский и испанский.
  • Усовершенствования обработки цифровых документов PDF и текста машиночитаемой зоны (MRZ) в удостоверениях личности.
  • Общие улучшения производительности и качества искусственного интеллекта

Ознакомьтесь с руководством по OCR, чтобы узнать, как использовать новые функции предварительной версии.

Август 2021 г.

Расширение языка тегирования изображений

Последняя версия (3.2) для средства тегирования изображений теперь поддерживает теги на 50 языках. Дополнительные сведения см. на странице Поддержка языков.

Июль 2021 г.

Оптимизированные атрибуты HeadPose и ориентиры для Detection_03

  • Модель Detection_03 была обновлена и теперь поддерживает ориентиры лица.
  • Функция ориентиров в Detection_03 стала точнее, особенно в отношении ориентиров глазного яблока, которые являются ключевыми для отслеживания взгляда.

Май 2021 г.

Обновление контейнера пространственного анализа

Выпущена новая версия контейнера для пространственного анализа с новым набором возможностей. Этот контейнер Docker позволяет анализировать потоковую передачу видео в реальном времени для распознавания пространственных связей между людьми и их перемещения в физических средах.

  • Теперь операции пространственного анализа можно настраивать для определения направления, в котором смотрит человек.

    • Для операций personcrossingline и personcrossingpolygon можно включить классификатор ориентации, настроив параметр enable_orientation. По умолчанию он имеет значение OFF.
  • Операции пространственного анализа теперь также предлагают конфигурацию для определения скорости человека во время ходьбы или бега.

    • Скорость можно определить для операций personcrossingline и personcrossingpolygon, включив классификатор enable_speed, который по умолчанию отключен. Выходные данные отражаются в параметрах speed, avgSpeed и minSpeed.

Апрель 2021 г.

Общая доступность Компьютерного зрения версии 3.2

API Компьютерного зрения версии 3.2 уже общедоступен со следующими обновлениями:

  • Улучшенная модель для назначения тегов изображениям: анализирует визуальное содержимое и создает соответствующие теги на основе объектов, действий и содержимого, присутствующих на изображении. Эта модель доступна через API назначения тегов изображениям. Дополнительные сведения см. в руководстве и обзоре по Анализу изображений.
  • Обновленная модель модерации контента: обнаруживает наличие содержимого для взрослых и предоставляет флаги для фильтрации изображений с содержимым для взрослых, содержимым непристойного характера или сценами насилия. Эта модель доступна через API анализа. Дополнительные сведения см. в руководстве и обзоре по Анализу изображений.
  • OCR (чтение) доступен для 73 языков, включая упрощенный и традиционный китайский, японский, корейский и латинский языки.
  • OCR (чтение) также доступен в виде контейнера без дистрибутива для локального развертывания.

Структура данных PersonDirectory (предварительная версия)

  • Для выполнения операций распознавания лиц, таких как обнаружение и поиск похожих лиц, клиентам API Распознавания лиц необходимо создать список объектов Person. Новый PersonDirectory — это структура данных, содержащая уникальные идентификаторы, строки необязательных имен и необязательные пользовательские строки метаданных для каждого удостоверения Person, добавляемого в каталог. В настоящее время API Распознавания лиц предлагает структуру LargePersonGroup, которая имеет аналогичные функциональные возможности, но ограничена 1 млн удостоверений. Структуру PersonDirectory можно увеличить, чтобы вместить 75 млн удостоверений.
  • Еще одно важное отличие между PersonDirectory и предыдущими структурами данных заключается в том, что вам больше не нужно будет выполнять какие-либо вызовы Train после добавления лиц в объект Person — процесс обновления происходит автоматически. Дополнительные сведения см. в разделе Использование структуры PersonDirectory.

Март 2021 г.

Обновление общедоступной предварительной версии Компьютерного зрения версии 3.2

Общедоступная предварительная версия API компьютерного зрения версии 3.2 была обновлена. В предварительной версии доступны все функции Компьютерного зрения, а также обновленные API чтения и анализа.

Февраль 2021 года

В API чтения версии 3.2 (общедоступная предварительная версия) включена функция OCR для 73 языков

Общедоступная предварительная версия API чтения Компьютерного зрения 3.2, доступная в качестве облачной службы и контейнера Docker, включает следующие обновления:

  • OCR для 73 языков, включая упрощенный и традиционный китайский, японский, корейский и латинский языки;
  • естественный порядок чтения для выходных данных строки текста (только для латинских языков);
  • классификация стилей рукописного ввода для строк текста и оценка достоверности (только для латинских языков);
  • извлечение текста только для выбранных страниц многостраничного документа;
  • доступность в качестве контейнера без дистрибутива для локального развертывания.

Чтобы узнать больше, см. руководство по API чтения.

Новая модель обнаружения API распознавания лиц

  • Новая модель обнаружения 03 — это наиболее точная модель обнаружения, доступная в настоящее время. Если вы являетесь новым клиентом, рекомендуем использовать именно эту модель. Обнаружение 03 улучшает как уровень полноты, так и точность для мелких лиц, найденных в изображениях (64 x 64 пикселей). Среди дополнительных возможностей следует отметить общее снижение числа ложноположительных результатов и более качественное обнаружение на повернутых ориентациях лиц. Сочетание модели обнаружения 03 с новой моделью распознавания 04 также обеспечит более высокую точность распознавания. Дополнительные сведения см. в разделе Указание модели обнаружения лиц.

Новые обнаруживаемые атрибуты лиц

  • Атрибут faceMask доступен в последней модели 03 вместе с дополнительным атрибутом "noseAndMouthCovered", который определяет, надета ли маска лица должным образом, то есть закрывает ли она как нос, так и рот. Чтобы использовать новую функцию обнаружения маски, пользователям необходимо указать модель обнаружения в запросе API: назначить версию модели с параметром detectionModel, для которого задано значение detection_03. Дополнительные сведения см. в разделе Указание модели обнаружения лиц.

Новая модель API распознавания лиц

  • Новая модель распознавания 04 — это самая точная модель распознавания, доступная в настоящее время. Если вы являетесь новым клиентом, рекомендуем использовать именно эту модель для проверки и идентификации. Она повышает точность модели распознавания 03, включая улучшенное распознавание зарегистрированных пользователей с масками на лице (хирургические маски, маски N95, тканевые маски). Мы не рекомендуем регистрировать изображения пользователей в масках, поскольку это снизит качество распознавания. Теперь клиенты могут создавать надежные и удобные возможности работы для пользователей, позволяющие распознавать наличие маски с помощью последней модели обнаружения 03, а также распознавать лица, используя новую модель распознавания 04. Дополнительные сведения см. в разделе Указание модели распознавания лиц.

Январь 2021 г.

Обновление контейнера пространственного анализа

Выпущена новая версия контейнера для пространственного анализа с новым набором возможностей. Этот контейнер Docker позволяет анализировать потоковую передачу видео в реальном времени для распознавания пространственных связей между людьми и их перемещения в физических средах.

  • Теперь можно настроить операции пространственного анализа для определения того, надето ли на лице человека что-либо, например защитная маска.
    • Для операций personcount, personcrossingline и personcrossingpolygon можно включить классификатор масок, настроив параметр ENABLE_FACE_MASK_CLASSIFIER.
    • Для каждого человека, обнаруженного в видеопотоке, будут возвращаться атрибуты face_mask и face_noMask как метаданные с оценкой достоверности.
  • Расширена операция personcrossingpolygon для вычисления время задержки человека в определенной зоне. В конфигурации зоны для операции можно задать параметру type значение zonedwelltime, и новое событие типа personZoneDwellTimeEvent будет содержать поле durationMs с числом миллисекунд, в течение которых пользователь был в определенной зоне.
  • Критическое изменение. Событие personZoneEvent было переименовано в personZoneEnterExitEvent. Это событие вызывается операцией personcrossingpolygon, когда человек пересекает определенную зону или выходит из нее, и предоставляет сведения о направлении и сведения о пересеченной пронумерованной стороной зоны.
  • URL-адрес можно указать как частный параметр (замаскированный) во всех операциях. Обфускация является необязательной. Она будет работать, только если KEY и IV предоставляются в виде переменных среды.
  • Калибровка по умолчанию включена для всех операций. Чтобы отключить ее, укажите do_calibration: false.
  • Включена поддержка автоматической рекалибровки (по умолчанию отключена) с помощью параметра enable_recalibration. Дополнительные сведения см. в статье Операции пространственного анализа.
  • В DETECTOR_NODE_CONFIG добавлены параметры калибровки камеры. Дополнительные сведения см. в статье Операции пространственного анализа.

Уменьшение задержки

Декабрь 2020 г.

Настройка хранилища ИД лиц на стороне клиента

  • Несмотря на то, что служба распознавания лиц не сохраняет изображения клиентов, извлеченные характерные черты лиц будут храниться на сервере. ИД лица — это идентификатор характерной черты лица, который будет использоваться в методах Face — Identify, Face — Verify и Face — Find Similar. Срок хранения характерных черт лиц истекает через 24 часа после исходного запроса на обнаружение, после чего они будут удалены. Теперь клиенты могут определить период времени, в течение которого такие ИД лиц будут находиться в кэше. Максимальное значение по-прежнему равно 24 часам, но теперь можно установить минимальное значение в 60 секунд. Новые диапазоны времени для ИД лиц, которые помещаются в кэш, допускают значения от 60 секунд до 24 часов. Дополнительные сведения можно найти в справочнике по API Face — Detect (параметр faceIdTimeToLive).

Ноябрь 2020 г.

Пример приложения регистрации лиц

  • Команда опубликовала пример приложения регистрации лиц, чтобы продемонстрировать рекомендации по определению обоснованно запрашиваемого согласия и созданию систем высокоточного распознавания лиц благодаря высококачественной регистрации. Пример с открытым исходным кодом можно найти в руководстве Создание приложения регистрации и в GitHub, который разработчики могут использовать при развертывании или настройке.

Октябрь 2020 г.

API "Компьютерное зрение" общедоступной версии 3.1

Выпущена общедоступная версия API "Компьютерное зрение" 3.1.

Сентябрь 2020 г.

Контейнер для пространственного анализа (предварительная версия)

Контейнер для пространственного анализа предоставляется в предварительной версии. Функция пространственного анализа службы Компьютерного зрения позволяет анализировать потоковую передачу видео в реальном времени для распознавания пространственных связей между людьми и их движением в физических средах. Пространственный анализ — это контейнер Docker, который можно использовать в локальной среде.

В API чтения версии 3.1 (общедоступная предварительная версия) включена функция OCR для японского языка

Общедоступная предварительная версия API чтения 3.1 Компьютерного зрения включает следующие возможности:

  • OCR для японского языка

  • Для каждой строки текста выберите стиль написания (рукописный или печатный текст) и оценку достоверности (только для латинских языков).

  • В многостраничных документах извлекать текст можно только для выбранных страниц или диапазона страниц.

  • Эта предварительная версия API чтения поддерживает английский, голландский, испанский, итальянский, упрощенный китайский, немецкий, португальский, французский и японский языки.

Чтобы узнать больше, см. руководство по API чтения.

Август 2020 г.

Управляемое клиентом шифрование неактивных данных

  • Служба распознавания лиц автоматически шифрует данные перед их сохранением в облаке. Такое шифрование защищает данные и помогает соблюдать корпоративные обязательства по обеспечению безопасности и соответствия требованиям. По умолчанию в подписке используются ключи шифрования, управляемые корпорацией Майкрософт. Подпиской также можно управлять с помощью собственных ключей, которые называются управляемыми клиентом ключами (CMK). Дополнительные сведения см. в статье Ключи, управляемые клиентом.

Июль 2020 г.

В API чтения версии 3.1 (общедоступная предварительная версия) включена функция OCR для китайского языка (упрощенная версия) языка

В общедоступной предварительной версии API чтения 3.1 Компьютерного зрения включена поддержка китайского языка (упрощенное письмо).

  • Эта предварительная версия API чтения поддерживает английский, голландский, французский, немецкий, итальянский, португальский, упрощенный китайский и испанский языки.

Чтобы узнать больше, см. руководство по API чтения.

Май 2020 г.

Выпущена общедоступная версия API "Компьютерное зрение" 3.0 с обновлениями для API чтения с

  • поддержкой английского, голландского, французского, немецкого, итальянского, португальского и испанского языков.
  • Повышенная точность
  • Оценка достоверности каждого извлеченного слова.
  • Новый формат вывода.

Чтобы узнать больше, см. Общие сведения об OCR.

Апрель 2020 г.

Новая модель API распознавания лиц

  • Новая модель распознавания 03 — это самая точная модель, доступная в настоящее время. Если вы являетесь новым клиентом, рекомендуем использовать именно эту модель. Модель распознавания 03 обеспечит более высокую точность при определении как сходства, так совпадающих черт на лицах людей. Дополнительные сведения см. в статье Указание модели распознавания лиц.

Март 2020 г.

Январь 2020 г.

Общедоступная предварительная версия API чтения 3.0

Теперь вы можете использовать API чтения (версия 3.0), чтобы извлекать печатный или рукописный текст из изображений. По сравнению с предыдущими версия 3.0 предоставляет:

  • Повышенная точность
  • Новый формат вывода.
  • Оценка достоверности каждого извлеченного слова.
  • Поддержка испанского и английского языков с языковым параметром.

Выполните указания Краткого руководства по извлечению текста, чтобы начать использовать API 3.0.

Июнь 2019 г.

Новая модель обнаружения API распознавания лиц

Апрель 2019 г.

Повышенная точность атрибутов

  • Повышен уровень общей точности атрибутов age и headPose. Атрибут headPose также обновлен и поддерживает значение pitch. Эти атрибуты можно указать в параметре returnFaceAttributes для параметра Face — DetectreturnFaceAttributes.

Повышенная скорость обработки

Март 2019 г.

Новая модель API распознавания лиц

Январь 2019 г.

Функция Face Snapshot

Октябрь 2018 г.

Сообщения API

Май 2018 г.

Повышенная точность атрибутов

  • Значительно улучшено поведение атрибута gender, а также улучшены атрибуты age, glasses, facialHair, hair и makeup. Вы можете использовать их в параметре returnFaceAttributes метода Face — Detect.

Увеличен предельный размер файла

Март 2018 г.

Новая структура данных

  • LargeFaceList и LargePersonGroup. Дополнительные сведения см. в статье How to use the large-scale feature (Использование функции для увеличения масштаба).
  • Для параметра maxNumOfCandidatesReturned в методе Face — Identify расширен диапазон с [1, 5] до [1, 100], а значение по умолчанию — 10.

Май 2017 г.

Новые обнаруживаемые атрибуты лиц

  • Добавлены атрибуты hair, makeup, accessory, occlusion, blur, exposure и noise в параметре returnFaceAttributes метода Face — Identify.
  • Для PersonGroup в методе Face — Identify поддерживаются до 10 000 пользователей.
  • Добавлено разбиение на страницы в методе PersonGroup Person — List с использованием необязательных параметров start и top.
  • Добавлена поддержка параллелизма при добавлении и удалении лиц для разных FaceLists и разных людей в PersonGroup.

Март 2017 г.

Новый обнаруживаемый атрибут лиц

  • Добавлен атрибут emotion в параметре returnFaceAttributes метода Face — Detect.

Устраненные проблемы

  • Не удавалось повторно обнаружить лицо с наложенным прямоугольником, который возвращается методом Face — Detect в качестве targetFace в FaceList — Add Face и PersonGroup Person — Add Face.
  • Размер обнаруживаемого лица находится строго в диапазоне от 36×36 до 4096×4096 пикселей.

Ноябрь 2016 г.

Новый уровень подписки

  • Добавлена подписка категории "Стандартный" для Хранилища изображений лиц, которая позволяет сохранять между сеансами дополнительные изображения лиц и использовать их в PersonGroup Person — Add Face или FaceList — Add Face для идентификации людей или поиска похожих. За хранение изображений взимается плата: 0,5 долл. США за 1000 изображений лиц. Плата распределяется пропорционально за каждый день. Для подписки категории "Бесплатный" сохраняется ограничение на общее количество людей — до 1000 человек.

Октябрь 2016 г.

Сообщения API

  • Изменено сообщение об ошибке, возникающее при передаче сведений о нескольких лицах в метод targetFace. Вместо "There are more than one face in the image" теперь возвращается строка "There is more than one face in the image" в методах FaceList — Add Face и PersonGroup Person - Add Face.

Июль 2016 г.

новые функции;

  • Добавлена поддержка аутентификации путем сравнения идентификатора лица с идентификатором объекта Person в методе Face — Verify.
  • Добавлен необязательный параметр mode, который позволяет выбрать один из двух режимов работы (matchPerson или matchFace) в методе Face — Find Similar. По умолчанию используется значение matchPerson.
  • Добавлен необязательный параметр confidenceThreshold, с помощью которого пользователь может задать порог привязки лица к объекту Person в методе Face — Identify.
  • Добавлены необязательные параметры start и top в методе PersonGroup — List, с помощью которых пользователь может указать начальную точку и общее число отображаемых групп PersonGroup.

Отличия версии 1.0 от версии 0

  • Корневая конечная точка службы изменена с https://westus.api.cognitive.microsoft.com/face/v0/ на https://westus.api.cognitive.microsoft.com/face/v1.0/. Внесены изменения в методы Face — Detect, Face — Identify, Face — Find Similar и Face — Group.
  • Минимальный размер обнаруживаемого лица изменен на 36×36 пикселей. Теперь лица размером менее 36×36 не обнаруживаются.
  • Данные PersonGroup и Person в интерфейсе распознавания лиц версии 0 объявлены нерекомендуемыми. Эти данные недоступны в службе распознавания лиц версии 1.0.
  • Конечная точка API распознавания лиц версии 0 объявлена нерекомендуемой с 30 июня 2016 г.

Обновления Cognitive Service

Объявление об обновлениях Azure для Cognitive Services