Новые возможности аналитики документов ВИ Azure

Это содержимое относится к:флажокv4.0 (предварительная версия)флажок3.1 (GA)v3.0 (GA)флажокфлажокv2.1 (GA)

Служба аналитики документов обновляется на постоянной основе. Закладыв эту страницу, чтобы оставаться в курсе заметок о выпуске, усовершенствованиях функций и самой новой документации.

Внимание

Предварительные версии API удаляются после выпуска ОБЩЕДОСТУПНОго API. Версия API предварительной версии 2023-02-28-preview прекращена, если вы по-прежнему используете API предварительной версии или связанные версии пакета SDK, обновите код, чтобы использовать последнюю версию API 2023-07-31 (GA).

Май 2024 г.

Служба Document Intelligence Studio добавила поддержку проверки подлинности Microsoft Entra (прежнее название — Azure Active Directory). Дополнительные сведения см. в обзоре Document Intelligence Studio.

Февраль 2024 г.

Теперь доступен REST API аналитики документов 2024-02-29-preview . Этот API предварительной версии предоставляет новые и обновленные возможности:

  • Общедоступная предварительная версия 2024-02-29-preview в настоящее время доступна только в следующих регионах Azure:

    • Восточная часть США
    • Западная часть США2
    • Западная Европа
  • Модель макета теперь поддерживает обнаружение фигур и анализ структуры иерархических документов (разделы и подразделы). Кроме того, улучшается качество чтения и обнаружения логических ролей.

  • Пользовательские модели извлечения

    • Пользовательские модели извлечения теперь поддерживают оценки достоверности ячеек, строк и таблиц. Дополнительные сведения о таблице, строке и достоверности ячеек.
    • Пользовательские модели извлечения имеют улучшения качества ИИ для извлечения полей.
    • Пользовательская модель извлечения шаблонов теперь поддерживает извлечение перекрывающихся полей. Узнайте больше о перекрывающихся полях и их использовании.
  • Пользовательская модель классификации

    • Пользовательская модель классификации теперь поддерживает добавочное обучение для сценариев, где необходимо обновить модель классификатора с дополнительными примерами или дополнительными классами. Дополнительные сведения о добавочном обучении.
    • Пользовательская модель классификации добавляет поддержку типов документов Office (.docx, .pptx и .xls). Дополнительные сведения о поддержке расширенного типа документа.
  • Модель накладных

    • Поддержка новых языковых стандартов:
    Локаль Код
    Арабский (ar)
    Болгарский (bg)
    Греческий (el)
    Иврит (he)
    Macedonian (mk)
    Русский (ru) Сербский кириллица (sr-cyrl)
    Украинский (uk)
    Тайский (th)
    Турецкий (tr)
    Вьетнамский (vi)
    • Поддержка новых кодов валют:
    Валюта Локаль Код
    BAM Боснийский преобразуемый марк (ba)
    BGN Болгарский Лев (bg)
    ILS Израильский Новый Шекель (il)
    MKD Македонский Денар (mk)
    руб. Российский рубль (ru)
    THB Тайский Бат (th)
    TRY Турецкая Лира (tr)
    UAH Гривна (ua)
    VND Вьетнамский Донг (vn)
    • Налоговые элементы поддерживают расширение для Германии (), Испании (de),Португалии (espt), английского Канадыen-CA.
  • Модель идентификатора

  • 🆕 Ипотечные документы

    • Извлеките сведения из универсального приложения жилищного кредита (форма 1003).
    • Извлеките сведения из универсального подзаписи и передачи сводки или формы 1008.
    • Извлеките информацию из раскрытия ипотечных кредитов.
  • 🆕 Модель кредитной и дебетовой карта

    • Извлеките информацию из банковских карта.
  • 🆕 Свидетельство о браке

    • Новая предварительно созданная для извлечения информации из сертификатов о браке.

Декабрь 2023 г.

Клиентские библиотеки аналитики документов, предназначенные для REST API 2023-10-31-preview , теперь доступны для использования!

Ноябрь 2023 г.

Теперь доступен REST API аналитики документов 2023-10-31-preview . Этот API предварительной версии предоставляет новые и обновленные возможности:

  • Общедоступная предварительная версия 2023-10-31-preview в настоящее время доступна только в следующих регионах Azure:

    • Восточная часть США
    • Западная часть США2
    • Западная Европа
  • Модель чтения

    • Расширение языка для рукописного ввода: русский(), арабский(ruar), тайский(th).
    • Соответствие кибер-исполнительного указа (EO).
  • Модель макета

    • Поддержка office и HTML-файлов.
    • Поддержка выходных данных Markdown.
    • Улучшения обнаружения заголовков заголовков таблиц, порядка чтения и раздела.
    • При использовании аналитики документов 2023-10-31-preview общая модель документов (предварительно созданная версия документа) устарела. Чтобы извлечь пары "ключ-значение" из документов, используйте prebuilt-layout модель с включенным необязательным параметром features=keyValuePairs строки запроса.
  • Модель получения

    • Теперь извлекает валюту для всех полей, связанных с ценами.
  • Модель карты медицинского страхования

    • Новая поддержка полей для сведений Medicare и Medicaid.
  • Модели налогового документа США

    • Новая модель налогообложения 1099 года. Поддерживает базовую форму 1099 и следующие варианты: A, B, C, CAP, DIV, G, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, Q, R, S, SA, SB.
  • Модель накладных

    • KVK Поддержка поля.
    • BPAY Поддержка поля.
    • Многочисленные уточнения полей.
  • Настраиваемая классификация

    • Поддержка многоязычных документов.
    • Новые параметры разделения страниц: autosplit, всегда разделенные по страницам, без разделения.
  • Возможности надстройки

Примечание.

При выпуске общедоступной версии API 2022-08-31 не рекомендуется использовать связанные api предварительной версии. Если вы используете версию API 2021-09-30-preview, 2022-01-30-preview или 2022-06-30-preview API, обновите приложения, чтобы использовать версию API 2022-08-31. Дополнительные сведения см . в руководстве по миграции.

Июль 2023 г.

Примечание.

Распознаватель документов сейчас Аналитика документов ИИ Azure!

  • Документ, службы ИИ Azure охватывают все ранее известные как Cognitive Services и приложение Azure лиированные службы ИИ.
  • Нет изменений в ценах.
  • Имена Cognitive Services и приложение Azure lied AI продолжают использоваться в выставлении счетов Azure, анализе затрат, прайс-листе и API цен.
  • Критические изменения в интерфейсах программирования приложений (API) или клиентских библиотеках отсутствуют.
  • Некоторые платформы по-прежнему ожидают переименования обновления. Все упоминание Распознаватель документов или аналитики документов в нашей документации относятся к одной службе Azure.

Аналитика документов версии 3.1 (GA)

API аналитики документов версии 3.1 теперь общедоступен (GA)! Версия API соответствует 2023-07-31. API версии 3.1 предоставляет новые и обновленные возможности:

Обновления пользовательского интерфейса Document Intelligence Studio

✔️ Параметры анализа

  • Аналитика документов теперь поддерживает более сложные возможности анализа, и Студия позволяет использовать одну точку входа (кнопку "Анализ параметров") для настройки возможностей надстройки с легкостью.

  • В зависимости от сценария извлечения документов настройте диапазон анализа, диапазон страниц документов, необязательные функции обнаружения и обнаружения premium.

    Анимированный снимок экрана, показывающий использование кнопки

    Примечание.

    Извлечение шрифтов не визуализировано в Studio Document Intelligence. Однако можно проверка раздел стилей выходных данных JSON для результатов обнаружения шрифтов.

✔️ Автоматическая маркировка документов с предварительно созданными моделями или одной из собственных моделей

  • На странице маркировки пользовательской модели извлечения теперь можно автоматически пометить документы с помощью одной из предварительно созданных моделей или моделей интеллектуальной службы документов, которые вы ранее обучили.

    Анимированный снимок экрана: автоматическая маркировка в Студии.

  • Для некоторых документов можно дублировать метки после запуска автоматической метки. Обязательно измените метки таким образом, чтобы на странице маркировки не было повторяющихся меток.

    Снимок экрана: предупреждение о дублировании меток после автоматического добавления меток.

✔️ Таблицы автоматической маркировки

  • На странице маркировки пользовательской модели извлечения теперь можно автоматически пометить таблицы в документе без необходимости пометить таблицы вручную.

    Анимированный снимок экрана: автоматическая метка таблицы в Студии.

✔️ Добавление тестовых файлов непосредственно в обучающий набор данных

  • Обучив пользовательскую модель извлечения, используйте тестовую страницу для улучшения качества модели, отправив тестовые документы в обучающий набор данных при необходимости.

  • Если оценка достоверности возвращается для некоторых меток, убедитесь, что они правильно помечены. Если нет, добавьте их в набор данных обучения и перенастройте их для улучшения качества модели.

Анимированный снимок экрана, показывающий, как добавить тестовые файлы в набор данных для обучения.

✔️ Использование параметров списка документов и фильтров в пользовательских проектах

  • Используйте страницу меток модели пользовательского извлечения. Теперь вы можете легко перемещаться по учебным документам, используя поиск, фильтрацию и сортировку по функциям.

  • Используйте представление сетки для предварительного просмотра документов или используйте представление списка для упрощения прокрутки документов.

    Снимок экрана: параметры представления списка документов и фильтры.

✔️ Общий доступ к проекту

Май 2023 г .

Введение обновленной документации по сборке 2023

  • 🆕 Обзор расширенной навигации, структурированных точек доступа и обогащенных изображений.

  • 🆕 Выбор модели аналитики документов предоставляет рекомендации по выбору оптимального решения аналитики документов для проектов и рабочих процессов.

Апрель 2023 г.

Объявление о последнем выпуске общедоступной предварительной версии клиентской библиотеки Аналитики документов

Март 2023 г.

Внимание

2023-02-28-preview Возможности в настоящее время доступны только в следующих регионах:

  • Западная Европа
  • западная часть США 2
  • Восточная часть США
  • Пользовательская модель классификации — это новая возможность в аналитике документов, начиная с 2023-02-28-preview API. Попробуйте использовать возможность классификации документов с помощью Студии аналитики документов или REST API.
  • Возможности полей запросов, добавленные в модель общего документа, используют модели Azure OpenAI для извлечения определенных полей из документов. Попробуйте использовать общие документы с функциями полей запросов с помощью Studio Document Intelligence. Поля запросов в настоящее время активны только для ресурсов в регионе East US .
  • Возможности надстройки:
    • Извлечение шрифтов 2023-02-28-preview теперь распознается с помощью API.
    • Извлечение формул теперь распознается с помощью 2023-02-28-preview API.
    • Извлечение высокого разрешения теперь распознается с помощью 2023-02-28-preview API.
  • Обновления пользовательской модели извлечения:
  • Обновления Document Intelligence Studio :
    • Помимо поддержки всех новых функций, таких как классификация и поля запросов, Студия теперь обеспечивает общий доступ к проектам проектов для пользовательских проектов модели.
    • Новые дополнения модели в предварительной версии: вакцинация карта, контракты, налог США 1098, налог США 1098-E и налог США 1098-T. Чтобы запросить доступ к закрытым моделям предварительной версии, заполните и отправьте форму запроса частной предварительной версии аналитики документов.
  • Обновления модели квитанций:
    • Модель квитанций добавляет поддержку тепловых квитанций.
    • Модель квитанций теперь добавляет поддержку языка для 18 языков и трех региональных языков (английский, французский, португальский).
    • Модель квитанций теперь поддерживает TaxDetails извлечение.
  • Модель макета теперь улучшает распознавание таблиц.
  • Теперь модель чтения добавляет улучшение для распознавания однозначных символов.

2023 февраля

  • Теперь доступны контейнеры аналитики документов для версии 3.0!

  • В настоящее время доступны контейнеры Layout версии 3.0 и Layout версии 3.0.

    Дополнительные сведения см. в разделе"Установка и запуск контейнеров аналитики документов".


2023 января

  • Предварительно созданная модель квитанции — добавленные языки, поддерживаемые. Модель квитанций теперь поддерживает эти добавленные языки и языковые стандарта.

    • Японский - Япония (ja-JP)
    • Французский - Канада (fr-CA)
    • Голландский - Нидерланды (nl-NL)
    • Английский - Объединенные Арабские Эмираты (en-AE)
    • Португальский - Бразилия (pt-BR)
  • Предварительно созданная модель счета — добавленные языки, поддерживаемые. Модель счета теперь поддерживает эти добавленные языки и языковые стандарты.

    • Английский - США (en-US), Австралия (en-AU), Канада (en-CA), Соединенное Королевство (en-UK), Индия (en-IN)
    • Испанский - Испания (es-ES)
    • Французский - Франция (fr-FR)
    • Итальянский - Италия (it-IT)
    • Португальский - Португалия (pt-PT)
    • Голландский - Нидерланды (nl-NL)
  • Предварительно созданная модель счета — добавлены поля, распознанные. Модель счета теперь распознает эти добавленные поля

    • Код валюты
    • Варианты оплаты
    • Итоговая скидка
    • Налоговые элементы (только для en-IN)
  • Предварительно созданная модель идентификатора — добавленные типы документов, поддерживаемые. Модель идентификаторов теперь поддерживает эти добавленные типы документов

    • Военный идентификатор США

Совет

Все обновления за январь 2023 г. доступны в REST API версии 2022-08-31 (GA).

  • Предварительно созданная модель квитанции — дополнительная поддержка языка:

    Предварительно созданная модель квитанции добавляет поддержку следующих языков:

    • Английский - Объединенные Арабские Эмираты (en-AE)
    • Голландский - Нидерланды (nl-NL)
    • Французский - Канада (fr-CA)
    • Немецкий - (de-DE)
    • Итальянский - (it-IT)
    • Японский - Япония (ja-JP)
    • Португальский - Бразилия (pt-BR)
  • Предварительно созданная модель счета— дополнительная поддержка языка и извлечение полей

    Предварительно созданная модель счета добавляет поддержку следующих языков:

    • Английский - Австралия (en-AU), Канада (en-CA), Соединенное Королевство (en-UK), Индия (en-IN)
    • Португальский - Бразилия (pt-BR)

    Предварительно созданная модель счета теперь добавляет поддержку для следующих извлечений полей:

    • Код валюты
    • Варианты оплаты
    • Итоговая скидка
    • Налоговые элементы (только для en-IN)
  • Предварительно созданная модель документа идентификатора — поддержка дополнительных типов документов

    Предварительно созданная модель документов идентификатора теперь добавляет поддержку для следующих типов документов:

    • Расширение лицензии водителя, поддерживающее Индию, Канаду, Соединенное Королевство и Австралию
    • Военные идентификаторы США карта и документы
    • Идентификатор Индии карта и документы (PAN и Aadhaar)
    • Идентификатор Австралии карта и документы (фото карта, идентификатор ключа)
    • Идентификаторы Канады карта и документы (идентификационные карта, Maple карта)
    • Идентификатор Соединенного Королевства карта и документы (карта национального и регионального удостоверения)

Декабрь 2022 г.

  • Обновления Document Intelligence Studio

    Декабрьский выпуск Document Intelligence Studio включает последние обновления в Document Intelligence Studio. Существует значительное улучшение взаимодействия с пользователем, в первую очередь с поддержкой пользовательских меток моделей.

    • Диапазон страниц. Теперь Студия поддерживает анализ указанных страниц из документа.

    • Метка пользовательской модели:

      • Автоматически запустите API макета. Вы можете автоматически запустить API макета для всех документов в хранилище BLOB-объектов во время настройки пользовательской модели.

      • Поиск. Теперь Студия включает функции поиска для поиска слов в документе. Это улучшение позволяет упростить навигацию во время маркировки.

      • Навигация. Вы можете выбрать метки для целевых слов, помеченных в документе.

      • Автоматическая маркировка таблиц. Выбрав значок таблицы в документе, вы можете выбрать автоматическую метку извлеченной таблицы в представлении меток.

      • Подтипы меток и подтипы второго уровня в Студии теперь поддерживают подтипы для столбцов таблиц, строк таблицы и подтипов второго уровня для таких типов, как даты и числа.

  • Создание пользовательских нейронных моделей теперь поддерживается в регионе Us Gov Вирджинии.

  • Предварительная версия 2022-01-30-preview API и 2021-09-30-preview будет прекращена 31 января 2023 г. 2022-08-31 Обновите версию API, чтобы избежать сбоев служб.


Ноябрь 2022 г.

  • Объявление о последнем стабильном выпуске библиотек Аналитики документов Azure
    • Этот выпуск включает важные изменения и обновления для клиентских библиотек .NET, Java, JavaScript и Python. Дополнительные сведения см. в статьеAzure SDK DevBlog.
    • Наиболее значительными улучшениями являются введение двух новых клиентов, DocumentAnalysisClient а также DocumentModelAdministrationClient.

Октябрь 2022

  • Содержимое с версиями аналитики документов

    • Документация по аналитике документов обновлена, чтобы представить версию интерфейса. Теперь вы можете просмотреть содержимое, ориентированное v3.0 GA на интерфейс или v2.1 GA интерфейс. По умолчанию используется интерфейс версии 3.0.

      Снимок экрана: целевая страница аналитики документов, обозначающая раскрывающееся меню версии.

  • Пример кода Document Intelligence Studio

    • Пример кода для интерфейса маркировки Document Intelligence Studio теперь доступен на сайте GitHub. Клиенты могут разрабатывать и интегрировать Аналитику документов в собственный интерфейс или создавать собственный ПОЛЬЗОВАТЕЛЬСКИЙ интерфейс с помощью примера кода Document Intelligence Studio.
  • Расширение языка

    • С помощью последней предварительной версии модели чтения документов (OCR), макета и пользовательских шаблонов поддерживаются 134 новых языков. Эти дополнения языка включают греческий, латышский, сербский, тайский, украинский и вьетнамский, а также несколько латинских и кириллических языков. Аналитика документов теперь имеет в общей сложности 299 поддерживаемых языков в последних общедоступной версии и новых предварительных версий. Перейдите на страницу поддерживаемых языков , чтобы просмотреть все поддерживаемые языки.
    • Используйте параметр api-version=2022-06-30-preview REST API при использовании API или соответствующего пакета SDK для поддержки новых языков в приложениях.
  • Новая предварительно созданная модель контракта

    • Новая предварительно созданная версия, которая извлекает информацию из таких контрактов, как стороны, название, идентификатор контракта, дата выполнения и многое другое. Модель контрактов в настоящее время находится в предварительной версии, запросите здесь доступ.
  • Расширение региона для обучения пользовательских нейронных моделей

    • Обучение пользовательских нейронных моделей теперь поддерживается в добавленных регионах.
      • Восточная часть США
      • восточная часть США 2
      • US Gov (Аризона)

2022 сентября

Примечание.

Начиная с версии 4.0.0, появился новый набор клиентов для использования новейших функций службы аналитики документов.

Выпуск пакета SDK версии 4.0.0.0 GA включает следующие обновления:

  • Версия 4.0.0 — общедоступная (09.08.2022)
  • Поддерживает клиенты REST API версии 3.0 и 2.0

Пакет (NuGet)

Журнал изменений и выпусков

Руководство по миграции

Readme

Примеры

  • Расширение региона для обучения пользовательских нейронных моделей теперь поддерживается в шести новых регионах

    • Восточная Австралия
    • Центральная часть США
    • Восточная Азия
    • Центральная Франция
    • южная часть Соединенного Королевства
    • западная часть США 2
    • Полный список регионов, где поддерживается обучение, см. в разделе пользовательских нейронных моделях.

    • Выпуск пакета SDK для аналитики 4.0.0 GA документов:

      • Клиентские библиотеки аналитики документов версии 4.0.0 (.NET/C#, Java, JavaScript) и версии 3.2.0 (Python) являются общедоступными и готовыми для использования в рабочих приложениях!.
      • Дополнительные сведения о клиентских библиотеках аналитики документов см. в обзоре пакета SDK.
      • Обновите приложения с помощью руководства по миграции языка программирования.

Август 2022 г.

Предварительная версия пакета SDK для аналитики документов за август 2022 г. включает следующие обновления:

  • Общедоступная аналитика документов версии 3.0

    • REST API аналитики документов версии 3.0 теперь общедоступен и готов к использованию в рабочих приложениях! Обновите приложения с помощью REST API версии 2022-08-31.
  • Обновления Document Intelligence Studio

    • Дальнейшие действия. Теперь на каждой странице модели в Студии есть раздел с дальнейшими действиями. Пользователи могут быстро ссылаться на пример кода, рекомендации по устранению неполадок и сведения о ценах.
    • Настраиваемые модели. Теперь Студия включает возможность переупорядочения меток в проектах пользовательской модели для повышения эффективности маркировки.
    • Пользовательские модели копирования можно копировать в службах аналитики документов из студии. Эта операция обеспечивает повышение уровня обученной модели в других средах и регионах.
    • Удаление документов. Теперь Студия поддерживает удаление документов из помеченного набора данных в пользовательских проектах.
  • Обновления службы аналитики документов

    • prebuilt-read. Модель OCR теперь доступна в аналитике документов с абзацами и обнаружением языка в качестве двух новых функций. Аналитика документов предназначена для расширенных сценариев документов, согласованных с более широкими возможностями аналитики документов в аналитике документов.
    • prebuilt-layout. Модель Layout (Структура) извлекает абзацы и определяет, являются ли они простыми абзацами, заголовками, подзаголовками, сносками, колонтитулами или номерами страниц.
    • prebuilt-invoice. Поля TotalVAT и Line/VAT теперь разрешаются в существующих полях TotalTax и Line/Tax соответственно.
    • prebuilt-idDocument. Поддержка извлечения данных идентификатора штата США, сведений о социальном обеспечении и зеленых картах. Поддержка информации о визах в паспорте.
    • prebuilt-receipt. Расширенная поддержка языкового стандарта для французского (fr-FR), испанского (es-ES), португальского (pt-PT), итальянского (it-IT) и немецкого (de-DE) языков.
    • prebuilt-businessCard. Поддержка синтаксического анализа адресов для извлечения подфилдов для таких компонентов адресов, как адрес, город, штат, страна или регион и почтовый индекс.
  • Улучшения качества искусственного интеллекта

    • prebuilt-read. Улучшенная поддержка отдельных символов, рукописных дат, сумм, имен, других ключевых данных, часто найденных в квитанциях и счетах, а также улучшенная обработка цифровых PDF-документов.
    • prebuilt-layout. Поддержка лучшего обнаружения обрезанных таблиц, таблиц без границ и улучшенного распознавания длинных ячеек.
    • prebuilt-document. Улучшено определение значений и флажков.
    • custom-neural. Улучшенная точность обнаружения и извлечения таблиц.

Июнь 2022 г.

  • Бета-версия пакета SDK для Аналитики документов за июнь 2022 г. включает следующие обновления:

2022 февраля


Ноябрь 2021 г.

  • Обновление выпуска пакета SDK для аналитики документов версии 3.0 (бета.2) включает исправления ошибок и дополнительные обновления компонентов.

2021 октября

  • Предварительная версия аналитики документов версии 3.0.0.0-beta.1 (2021-10-07)представляет несколько новых функций и возможностей:

    • Общая модель документов — это новый API, который использует предварительно обученную модель для извлечения текста, таблиц, структуры и пар "ключ-значение" из форм и документов.

    • Модель Гостиничная квитанция добавлена в предварительно созданную обработку получения.

    • Развернутые поля для документа с идентификатором модель идентификаторов поддерживает подтверждения, ограничения и извлечение классификации транспортных средств из водительских удостоверений США.

    • Поле подписи — это новый тип поля в пользовательских формах, позволяющий обнаружить наличие подписи в поле формы.

    • Расширение языка Поддержка 122 языков (печатный текст) и 7 языков (рукописный текст). Макет аналитики документов и настраиваемая форма расширяют поддерживаемые языки до 122 с помощью последней предварительной версии. Предварительная версия включает в себя извлечение текста для печатного текста на 49 новых языках, в т.ч. на русском, болгарском и других языках на основе кириллицы и латиницы. Кроме того, извлечение рукописного текста теперь поддерживает семь языков, включающих английский и новые предварительные версии китайского упрощенного, французского, немецкого, итальянского, португальского и испанского.

    • Макет Усовершенствования извлечения таблиц и текста теперь поддерживает извлечение таблиц с одной строкой, также называемых таблицами "ключ-значение". Доработки извлечения текста включают в себя улучшенную обработку текста цифровых документов в формате PDF и машиночитаемой зоны (MRZ) в документах, удостоверяющих личность, а также общую производительность.

    • Document Intelligence Studio для упрощения использования службы теперь можно получить доступ к Студии аналитики документов для тестирования различных предварительно созданных моделей или меток и обучения пользовательской модели.

    • Начало работы с новым пакетом SDK для REST API, Python или .NET для предварительной версии API версии 3.0.

  • Извлечение данных модели аналитики документов

    Модель Извлечение текста Пары "ключ-значение" Метки выделения Таблицы
    Документ общего назначения
    Макет
    Счет
    Получение
    Удостоверение
    Визитная карточка
    Пользовательское

Сентябрь 2021 года

  • Дополнительные возможности обозревателя метрик Azure доступны на странице обзора ресурсов аналитики документов в портал Azure.

  • Меню мониторинга:

    Снимок экрана: меню мониторинга в портал Azure.

  • Диаграммы.

    Снимок экрана: пример диаграммы метрик на портале Azure

  • Обновление Модели Идентификатор документа: заданные имена, включая суффиксы, с точкой или без нее, успешно обрабатываются:

    Входной текст Результат обновления
    Уильям Исаак Кирби-мл. Имя: Уильям Исаак

    Фамилия: Кирби-мл.
    Генри Калеб Росс-ст. FirstName: Генри Калеб

    LastName
    : Росс Sr.

Июль 2021

  • Поддержка управляемого удостоверения, назначаемого системой: теперь можно включить управляемое удостоверение, назначаемое системой, для предоставления ограниченного доступа к частным учетным записям хранения, включая учетные записи, защищенные виртуальная сеть, брандмауэром или включенным собственным хранилищем (BYOS). Дополнительные сведения см. в статье"Создание и использование управляемого удостоверения" для ресурса аналитики документов.

Июнь 2021 года

  • Контейнеры аналитики документов версии 2.1, выпущенные в закрытой предварительной версии и теперь поддерживаются шестью контейнерами функций: Layout, Business Card, ID Document, Receipt, Invoice и Custom. Чтобы использовать их, необходимо отправить онлайн-запрос и получить одобрение.

  • Соединитель аналитики документов, выпущенный в предварительной версии: соединитель аналитики документов интегрируется с Azure Logic Apps, Microsoft Power Automate и Microsoft Power Apps. Соединитель поддерживает действия рабочего процесса и триггеры для извлечения и анализа данных документа и структуры из пользовательских и предварительно созданных форм, счетов, квитанций, бизнес-карта и документов идентификаторов.

  • Пакет SDK для аналитики документов версии 3.1.0, исправленный до версии 3.1.1 для C#, Java и Python. Это исправление связано со счетами, в которых не обнаруживались поля элементов подстроки, например FormField с Text, но без параметров BoundingBox или Page.


Май 2021 г .

  • Версия 3.1.0 (2021-05-26)

Справочник по журналу изменений и выпуску| документации | по пакету NuGet версии 3.0.1 |

  • Аналитика документов 2.1 общедоступна. Выпуск общедоступной версии отмечает стабильность изменений, представленных в предыдущих версиях пакетов предварительной версии 2.1. Этот выпуск позволяет обнаруживать и извлекать информацию и данные из следующих типов документов:

  • Чтобы приступить к работе, попробуйте использовать средство аналитики документов и следуйте инструкциям из краткого руководства.

  • Обновленная функция таблицы API макета позволяет включать распознавание заголовков для заголовков столбцов, которые могут занимать несколько строк. Каждая ячейка таблицы имеет атрибут, указывающий на принадлежность к заголовку. Это обновление можно использовать для определения строк, которые составляют заголовок таблицы.


Апрель 2021 г.

  • Пакет NuGet версии 3.1.0-beta.4

  • Журнал изменений и выпусков.

  • Новые методы анализа данных из документов удостоверений:

    StartRecognizeIdDocumentsFromUriAsync

    StartRecognizeIdDocumentsAsync

    Список значений полей см. в разделе"Поля", извлеченные в документации по аналитике документов.

  • Расширен набор языков документов, которые можно предоставить методу StartRecognizeContent.

  • Новое свойство Pages, поддерживаемое следующими классами:

    RecognizeBusinessCardsOptions
    RecognizeCustomFormsOptions
    RecognizeInvoicesOptions
    RecognizeReceiptsOptions

    Свойство Pages позволяет выбрать отдельные страницы или диапазон страниц для многостраничных документов PDF и TIFF. Для отдельных страниц введите номер страницы, например 3. Для диапазона страниц (например, страница 2 и страницы 5–7) введите номера и диапазоны страниц, разделенные запятыми, например 2, 5-7.

  • Новое свойство ReadingOrder, поддерживаемое следующим классом:

    RecognizeContentOptions

    Свойство ReadingOrder — это необязательный параметр, который позволяет указать, какой алгоритм порядка чтения (basic или natural) должен применяться для упорядочивания при извлечении текстовых элементов. Если не задано, по умолчанию используется значение basic.

  • Предварительные обновления пакета SDK для версии 2.1-preview.3 API содержат обновления компонентов и усовершенствования.

Март 2021 г.

Аналитика документов версии 2.1 общедоступная предварительная версия версии 2.1-preview.3 выпущена и включает следующие функции:

  • Новая предварительно созданная модель идентификаторов Новая предварительно созданная модель идентификаторов позволяет клиентам принимать идентификаторы и возвращать структурированные данные для автоматизации обработки. Она сочетает эффективные возможности технологии оптического распознавания символов (OCR) и модели распознавания удостоверений личности, чтобы извлекать ключевые сведения из паспортов и водительских удостоверений США.

    Дополнительные сведения о предварительно созданной модели идентификаторов

    Снимок экрана: пример паспорта.

  • Извлечение элементов строки для модели счета — предварительно созданная модель счета теперь поддерживает извлечение элементов строки. Теперь она извлекает полные элементы и их части — описание, сумму, количество, идентификатор продукта, дату и многое другое. С помощью простого вызова API или пакета SDK можно извлечь полезные данные из счетов: текст, таблицу, пары "ключ — значение" и элементы строк.

    Дополнительные сведения о модели счета.

  • Защищенные метки таблиц и обучение, присвоение пустых значений. Помимо возможностей автоматического извлечения таблиц в аналитике документов, теперь клиенты могут пометить и обучать их на таблицах. Новый выпуск включает возможность добавлять метки и обучать по элементам строк или таблицам (динамическим и фиксированным), а также обучать пользовательскую модель для извлечения пар "ключ — значение" и элементов строк. После обучения модели модель извлекает элементы строки в рамках выходных данных JSON в разделе documentResults.

    Снимок экрана: функция маркировки таблицы.

    Наряду с возможностью добавления меток к таблицам теперь можно будет отмечать пустые значения и области. Если некоторые документы в обучающем наборе не имеют значений для определенных полей, их можно пометить так, чтобы модель правильно извлекла значения из проанализированных документов.

  • Поддержка 66 новых языков — API макета и пользовательские модели для аналитики документов теперь поддерживают 73 языка.

    Дополнительные сведения о поддержке языка аналитики документов.

  • Естественный порядок чтения, классификация рукописного ввода и выбор страниц. Благодаря этому обновлению вы можете получать выходные данные текстовых строк в естественном порядке чтения, а не по умолчанию слева направо и сверху вниз. Чтобы получить выходные данные с более удобным порядком чтения, используйте новый параметр запроса readingOrder и задайте для него значение "natural" (естественный). Кроме того, для латинских языков аналитика документов классифицирует текстовые строки как рукописный стиль или нет и дает оценку достоверности.

  • Повышение качества предварительно созданной модели для обработки чеков. Это обновление включает множество улучшений качества предварительно созданной модели для обработки чеков, особенно для извлечения элементов строк.


Ноябрь 2020 г.

  • Аналитика документов версии 2.1-preview.2 выпущена и включает следующие функции:

    • Новая предварительно созданная модель для обработки счетов. Новая предварительно созданная модель для обработки счетов позволяет клиентам получать счета в разных форматах и возвращать структурированные данные для автоматизации обработки счетов. Она сочетает эффективные возможности технологии оптического распознавания символов (OCR) и модели глубокого обучения для распознавания счетов, которые позволяют извлекать ключевые сведения в счетах на английском языке. Модель извлекает текст, таблицы, сведения о клиенте, поставщике, идентификаторе счета, дате оплаты счета, сумме, промежуточной сумме, налоге, доставке, выставлении счета и многое другое.

      Дополнительные сведения о предварительно созданной модели для обработки счетов

      Снимок экрана с примером накладной.

    • Расширенное извлечение таблиц . Аналитика документов теперь обеспечивает расширенное извлечение таблиц, которое объединяет наши мощные возможности оптического распознавания символов (OCR) с моделью извлечения таблиц глубокого обучения. Аналитика документов может извлекать данные из таблиц, включая сложные таблицы с объединенными столбцами, строками, без границ и многое другое.

      Снимок экрана: анализ таблиц.

      Дополнительные сведения о извлечении макета.

    • Обновление клиентской библиотеки — последние версии клиентских библиотек для .NET, Python, Java и JavaScript поддерживают API Аналитики документов 2.1.

    • Поддерживается новый язык — японский. Теперь поддерживаются следующие новые языки: для AnalyzeLayout и AnalyzeCustomForm — японский (ja). Поддержка языка.

    • Указание стиля строки текста (рукописный текст или другие) (только на латинских языках) — аналитика документов теперь выводит appearance объект, классифицируя, является ли каждая текстовая строка рукописным стилем или нет, а также оценка достоверности. Эта функция поддерживается только для романских языков.

    • Улучшение качества. Улучшено качество извлечения, в том числе качество извлечения однозначных чисел.

    • Новая функция пробной версии в средстве аналитики документов и средстве маркировки . Возможность попробовать предварительно созданные модели счета, квитанции и визитной карточки и API макета с помощью средства создания примеров меток для аналитики документов. Узнайте, как данные извлекаются без написания кода.

    • Попробуйте использовать средство проверки меток для аналитики документов

      Снимок экрана: домашняя страница средства маркировки образца.

      • Цикл обратной связи. При анализе файлов с помощью Образца средства добавления меток можно также добавить его в набор обучения, при необходимости настроить метки и эффективнее обучить модель.
      • Автоматическое добавление меток в документы. Автоматическое добавление меток в добавляемые документы на основе предыдущих помеченных документов в проекте.

Август 2020 г.

  • **Аналитика v2.1-preview.1 документов включает следующие функции:

    • Справочник по REST API доступен . Просмотр файла v2.1-preview.1 reference.
    • Поддерживаются новые языки помимо английского, теперь поддерживаются следующие языки: для Layout и Train Custom Model — английский (en), китайский (упрощенный) (zh-Hans), голландский (nl), французский (fr), немецкий (de), итальянский (it), португальский (pt) и испанский (es).
    • Флажок / Обнаружение меток выделения — Аналитика документов поддерживает обнаружение и извлечение меток выбора, таких как проверка поля и переключатели. Отметки выбора извлекаются в Layout, поэтому можно также добавлять метки и обучать в разделе Train Custom Model - Обучение с метками, чтобы извлечь пары "ключ — значение" для отметок выбора.
    • Создание модели. Позволяет создать несколько моделей и вызывать их с помощью одного идентификатора модели. При отправке документа для анализа с помощью идентификатора созданной модели сначала выполняется классификация, которая направляется в нужную пользовательскую модель. Возможность создания модели доступна для раздела Train Custom Model - Обучение с метками.
    • Имя модели. Добавление понятного имени в пользовательские модели, которое упрощает управление и отслеживание.
    • Новая предварительно созданная модель для визитных карточек для извлечения общих полей на английском языке, бизнес-карта.
    • Новые языковые стандарты для предварительно созданных квитанций в дополнение к EN-US теперь доступны для EN-AU, EN-CA, EN-GB, EN-IN.
    • Улучшение качества для разделов Layout, Train Custom Model - Обучение без меток и Обучение с метками.
  • Версия 2.0 включает следующее обновление:

    • Клиентские библиотеки для NET, Python, Java и JavaScript являются общедоступными.

    Новые образцы можно найти на сайте GitHub.

    • Рецепты извлечения знаний . Сборник схем форм собирает рекомендации из реальных взаимодействий клиентов с аналитикой документов и предоставляет полезные примеры кода, проверка списки и примеры конвейеров, используемых в разработке этих проектов.
    • Средство маркировки примера обновляется для поддержки новых функций версии 2.1. Ознакомьтесь с этим кратким руководством по началу работы со средством.
    • В примере интеллектуальной аналитики документов киоска показано, как интегрировать Analyze Receipt и обучить безTrain Custom Model - меток.

Июль 2020

  • Доступные справочные материалы по аналитике документов версии 2.0. Просмотрите справочник по API версии 2.0 и обновленные клиентские библиотеки для .NET, Python, Java и JavaScript.
    • Улучшения таблиц и извлечения. Содержат улучшения точности и извлечения таблиц, в частности возможность изучения заголовков и структур таблиц в пользовательском обучении без меток.

    • Поддержка валют. Обнаружение и извлечение символов мировых валют.

    • Azure Gov — Аналитика документов теперь доступна в Azure Gov.

    • Расширенные средства безопасности:

      • Приведите собственный ключ . Аналитика документов автоматически шифрует данные при сохранении в облаке, чтобы защитить его и помочь вам выполнить обязательства по обеспечению безопасности организации и соответствия требованиям. По умолчанию в подписке используются ключи шифрования, управляемые корпорацией Майкрософт. Вы также можете управлять подпиской с помощью собственных ключей шифрования. Ключи, управляемые клиентом, которые также называются ключами BYOK, обеспечивают большую гибкость при создании, смене, отключении и отзыве управления доступа. Они также дают возможность выполнять аудит ключей шифрования, используемых для защиты ваших данных.
      • Частные конечные точки. Позволяют использовать виртуальную сеть для безопасного доступа к данным через Приватный канал.

Июнь 2020 г.


Апрель 2020 г.

  • Поддержка пакета SDK для API аналитики документов версии 2.0 общедоступная предварительная версия . В этом месяце мы расширили поддержку службы, чтобы включить предварительный выпуск пакета SDK для аналитики документов версии 2.0. Используйте следующие ссылки, чтобы приступить к работе с выбранным языком:
  • Пакет SDK для .NET
  • пакет SDK для Java
  • Пакет SDK для Python
  • Пакет SDK для JavaScript

Новый пакет SDK поддерживает все функции REST API версии 2.0 для аналитики документов. Вы можете поделиться своими отзывами о клиентских библиотеках с помощью формы обратной связи пакета SDK.


Март 2020 г.

  • Типы значений для маркировки теперь можно указать типы значений, которые вы наклеит с помощью средства аналитики документов. Сейчас поддерживаются следующие типы и разновидности значений:
  • string
    • no-whitespaces, alphanumeric (по умолчанию);
  • number
    • currency (по умолчанию);
  • date
    • dmy, mdy, ymd (по умолчанию).
  • time
  • integer

Сведения о том, как использовать эту функцию, см. в руководстве Образец средства добавления меток.

  • Визуализация таблиц В Образце средства добавления меток теперь отображаются таблицы, распознанные в документе. Эта функция позволяет просматривать распознанные и извлеченные таблицы из документа перед меткой и анализом. Эту функцию можно включить или отключить с помощью параметра уровней.

  • На рисунке ниже показан пример распознавания и извлечения таблиц.

    Снимок экрана: визуализация таблицы с помощью средства

  • Извлеченные таблицы доступны в выходных данных JSON в разделе "pageResults".

    Внимание

    Возможность добавления меток в таблицы не поддерживается. Если таблицы не распознаются и извлекаются автоматически, их можно пометить только как пары "ключ-значение". При добавлении меток в таблицы в виде пар "ключ — значение" каждую ячейку необходимо пометить в качестве уникального значения.

  • Улучшения извлечения.

  • Этот выпуск включает усовершенствования извлечения и точности, в частности возможность пометки и извлечения нескольких пар "ключ — значение" в одной строке текста.

  • Теперь средство маркировки с открытым кодом.

  • Теперь средство разработки примеров меток для аналитики документов доступно в виде проекта с открытым исходным кодом. Вы можете интегрировать его в свои решения и вносить относящиеся к клиентам изменения в соответствии с вашими потребностями.

  • Дополнительные сведения о средстве создания меток для аналитики документов см. в документации, доступной на сайте GitHub.

  • TLS Принудительное применение 1.2.

  • TLS 1.2 теперь применяется для всех HTTP-запросов к этой службе. Дополнительные сведения см. в статье "Безопасность служб искусственного интеллекта Azure".


Январь 2020 г.

В этом выпуске представлена аналитика документов 2.0. В следующих разделах вы найдете дополнительные сведения о новых функциях, улучшениях и изменениях.

  • Новые возможности

    • Пользовательская модель

      • Обучение с метками Теперь пользовательскую модель можно обучить с помощью данных, помеченных вручную. Этот способ повышает эффективность моделей и позволяет получить модели для работы со сложными документами или документами, содержащими значения без ключей.
      • Асинхронные вызовы API Асинхронные вызовы API можно использовать для обучения и анализа больших наборов данных и файлов.
      • Поддержка файлов TIFF Теперь обучать и извлекать данные можно из документов формата TIFF.
      • Улучшения точности извлечения.
    • Предварительно созданная модель для обработки чеков

      • Суммы советов Теперь можно извлекать суммы советов и другие рукописные значения.
      • Извлечение элементов строк Значения элементов строк можно извлечь из чеков.
      • Значения достоверности Достоверность модели можно просматривать для каждого извлеченного значения.
      • Улучшения точности извлечения.
      • Извлечение макета Теперь API макета можно использовать для извлечения текстовых и табличных данных из документов.
  • Изменения в API пользовательской модели

    Все API для обучения и использования пользовательских моделей переименованы, а некоторые синхронные методы теперь асинхронны. Ниже приводятся основные изменения.

    • Процесс обучения модели теперь является асинхронным. Запуск обучения осуществляется с помощью вызова API /custom/models. Этот вызов возвращает идентификатор операции, который можно передать в custom/models/{modelID} для возврата результатов обучения.
    • Извлечение ключа или значения теперь инициируется вызовом API /custom/models/{modelID}/analyze. Этот вызов возвращает идентификатор операции, который можно передать в custom/models/{modelID}/analyzeResults/{resultID} для возврата результатов извлечения.
    • Идентификаторы операций для операции обучения теперь находятся в заголовке Location ответов HTTP, а не в заголовке Operation-Location.
  • Изменения API чеков

    • API для чтения квитанций о продажах переименованы.

    • Извлечение данных в чеках теперь инициируется вызовом API /prebuilt/receipt/analyze. Этот вызов возвращает идентификатор операции, который можно передать в prebuilt/receipt/analyzeResults/{resultID} для возврата результатов извлечения.

  • Изменения формата выходных данных

    • Ответы JSON для всех вызовов API содержат новые форматы. Некоторые ключи и значения добавляются, удаляются или переименованы. Примеры текущих форматов JSON см. в кратких руководствах.

Следующие шаги

  • Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio.

  • Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.

  • Попробуйте обработать собственные формы и документы с помощью средства проверки меток для аналитики документов.

  • Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.