Вопросы и ответы по аналитике документов Azure

Это содержимое относится к:флажокv4.0 (предварительная версия)флажок3.1 (GA)v3.0 (GA)флажокфлажокv2.1 (GA)

Общие концепции

Что такое Аналитика документов Azure ИИ и что произошло с Распознаватель документов Azure AI?

Azure AI Document Intelligence — это облачная служба, использующая модели машинного обучения для извлечения пар ключей и значений, текста и таблиц из документов. Возвращаемый результат представляет собой структурированные выходные данные JSON. Варианты использования аналитики документов включают автоматическую обработку данных, расширенные стратегии на основе данных и расширенные возможности поиска документов.

Аналитика документов является частью служб ИИ Azure. Службы ИИ Azure охватывают все ранее известные как Azure Cognitive Services и приложение Azure лиированные службы ИИ.

Предыдущее имя аналитики документов было Распознаватель документов Azure AI. Распознаватель документов официально стал аналитикой документов в июле 2023 года.

Нет изменений в ценах. Имена Cognitive Services и примененных служб ИИ продолжают использоваться в выставлении счетов Azure, анализе затрат, прайс-списках и API цен.

Критические изменения в API или клиентских библиотеках (SDK) отсутствуют. REST API и пакеты SDK версии 2024-02-29-preview, 2023-10-31-preview и более поздних версий переименованы document intelligence.

Некоторые платформы по-прежнему ожидают переименования обновления. В документации Майкрософт все упоминание Распознаватель документов и Аналитика документов ссылаются на одну и ту же службу Azure.

Как аналитика документов связана с созданным документом ИИ?

Вы можете использовать решение искусственного интеллекта для создания документов для чата с документами, создания увлекательных содержимого из этих документов и доступа к моделям Azure OpenAI Service в данных. В сочетании Azure AI Document Intelligence и Azure OpenAI вы можете создать корпоративное приложение для эффективного взаимодействия с документами с помощью естественных языков, легко найти ответы и получить ценные сведения, а также создать новое и привлекательное содержимое из существующих документов. Дополнительные сведения см. в блоге технического сообщества.

Как аналитика документов связана с получением дополненного поколения?

Семантическая фрагментирование — это ключевой шаг в создании расширенного экземпляра (RAG) для обеспечения эффективного хранения и извлечения. Модель макета аналитики документов предлагает комплексное решение для расширенных возможностей извлечения содержимого и анализа структуры документов.

С помощью модели макета можно легко извлечь текст и структурные элементы, чтобы разделить большие тела текста на небольшие, значимые фрагменты на основе семантического содержимого, а не произвольных разбиений. Затем можно удобно выводить извлеченные сведения в формат Markdown, чтобы определить стратегию семантического блока на основе предоставленных стандартных блоков. Дополнительные сведения см. в обзоре RAG в аналитике документов.

Какие варианты использования аналитики документов требуют особого внимания?

Внимательно изучите проекты обработки документов, охватывающие финансовые данные, защищенные данные о работоспособности, персональные данные или конфиденциальные данные.

Обязательно соблюдайте все национальные или региональные и отраслевые требования.

Какие языки поддерживает аналитика документов?

Универсальные модели на основе глубокого обучения в Аналитике документов поддерживают множество языков, которые могут извлекать многоязычный текст из изображений и документов, включая текстовые строки с смешанными языками.

Поддержка языка зависит от функциональных возможностей службы аналитики документов. Полный список рукописного и печатного текста, поддерживаемого аналитикой документов, см. в разделе "Поддержка языков".

Доступна ли аналитика документов в моем регионе Azure?

Аналитика документов общедоступна во многих из 60 и более поздних регионов глобальной инфраструктуры Azure.

Выберите регион , который лучше всего подходит для вас и ваших клиентов.

Интегрируется ли аналитика документов с другими службы Майкрософт?

Да, Аналитика документов интегрируется со следующими службами:

Как аналитика документов связана с оптической распознаванием символов?

Аналитика документов — это облачная служба, которая включает оптическое распознавание символов (OCR), анализ текста и настраиваемую классификацию текста из служб ИИ Azure.

Аналитика документов использует OCR для обнаружения и извлечения информации из шрифта и рукописных текстовых документов, поддерживаемых ИИ, чтобы обеспечить большую структуру и информацию для извлечения текста.

Сколько времени доступно для использования пользовательской модели?

Модель имеет тот же жизненный цикл, что и версия API, используемая для обучения. Пользовательские модели, обученные с общедоступной версией API, имеют тот же жизненный цикл, что и версия API. Если версия API устарела, модель больше не доступна для вывода. Модели, обученные с предварительной версией API, также имеют тот же жизненный цикл, что и API предварительной версии.

Ожидается отмена предварительной версии API в течение трех месяцев обновленной версии API предварительной версии или более новой версии API общедоступной версии.

Что такое оценка точности и как она вычисляется?

Выходные данные пользовательской build модели (версии 3.0 и более поздних версий) или train (версии 2.1) включают оценку точности. Эта оценка представляет способность модели точно прогнозировать отмеченное значение в визуально похожем документе.

Точность измеряется в процентном диапазоне от 0% (низкая) до 100 % (высокая).

Дополнительные сведения см. в разделе "Точность и оценка достоверности".

Как повысить оценки точности?

Дисперсии в визуальной структуре документов могут влиять на точность модели. Ниже приведено несколько советов.

  • Включите все варианты документа в обучающий набор данных. Варианты включают различные форматы; например, цифровые и сканированные PDF-файлы.

  • Разделите визуально отличающиеся типы документов и обучите разные модели.

  • Убедитесь, что у вас нет лишних меток.

  • При маркировке подписей и областей не включайте окружающий текст.

Дополнительные сведения см. в разделе "Точность и оценка достоверности".

Что такое оценка достоверности и как она вычисляется?

Оценка достоверности указывает на вероятность, измеряя степень статистической уверенности, что извлеченный результат обнаружен правильно.

Диапазон достоверности — это процент от 0 % (низкий) до 100 % (высокий). Рекомендуется выбрать значение 80 % или выше в качестве целевого. Для более чувствительных случаев, таких как финансовые или медицинские записи, мы рекомендуем оценить около 100 %. Вы также можете потребовать проверки человека.

Дополнительные сведения см. в разделе "Точность и оценка достоверности".

Как повысить оценки достоверности?

После операции анализа просмотрите выходные данные JSON. Изучите значения confidence для каждого результата "ключ — значение" в узле pageResults. Следует также обратить внимание на оценки достоверности в узле readResults, который соответствует операции чтения текста. Достоверность результатов чтения не влияет на достоверность результатов извлечения ключей и значений, поэтому следует проверка обоих. Ниже приведено несколько советов.

  • Если оценка достоверности для объекта readResults является низкой, повысьте уровень качества входных документов.

  • Если оценка достоверности для pageResults объекта низка, убедитесь, что документы, которые вы анализируете, имеют одинаковый тип.

  • Попробуйте включить проверку человеком в рабочие процессы.

  • Используйте формы, имеющие разные значения в каждом поле.

  • Для пользовательских моделей используйте более широкий набор документов для обучения. Добавление тегов в дополнительные документы научит вашу модель распознавать поля с большей точностью.

Дополнительные сведения см. в разделе "Точность и оценка достоверности".

Что такое ограничивающий прямоугольник?

Ограничивающий прямоугольник (polygon в версиях 3.0 и более поздних версиях) — это абстрактный прямоугольник, который окружает текстовые элементы в документе или форме. Он используется в качестве эталонной точки для обнаружения объектов.

Ограничивающий прямоугольник указывает позицию с помощью плоскости координат x и y, представленной в массиве из четырех числовых пар. Каждая пара представляет угол поля в следующем порядке: верхний левый, верхний правый, нижний правый, нижний левый.

Для изображения координаты находятся в пикселях. Для PDF координат находятся в дюймах.

Может ли аналитика документов помочь мне классифицировать документы?

Аналитика документов предоставляет пользовательские модели классификации, которые могут анализировать документы с одним файлом или несколькими файлами, чтобы определить, содержит ли входной файл любой из обученных типов документов. Служба поддерживает следующие сценарии:

  • Один файл, содержащий один тип документа, например форму заявки на кредит.

  • Один файл, содержащий несколько документов. Примером является пакет заявки на кредит, содержащий форму заявки на кредит, payslip и банковский оператор.

  • Один файл, содержащий несколько экземпляров одного документа. Примером является коллекция отсканированных счетов.

Дополнительные сведения см. в обзоре пользовательских моделей классификации.

Разработка приложений

Каковы варианты разработки для аналитики документов?

Аналитика документов предлагает последние варианты разработки на следующих платформах:

Где можно найти поддерживаемую версию API для последних пакетов SDK для языков программирования?

Эта таблица содержит ссылки на последние версии пакета SDK и показывает связь между поддерживаемыми версиями пакета SDK для Аналитики документов и API:

Справочник по поддерживаемым языкам Azure SDK Поддерживаемые версии API
• C#/.NET: 4.0.0

• Java: 4.0.0

• JavaScript: 4.0.0

• Python 3.2.0
2023-10-31-preview
версия 3.0
версия 2.1
версия 2.0

Дополнительные сведения см. в разделе "Поддерживаемые клиенты для клиентов версии 4.0 " и "Поддерживаемые" для версии 3.1.

Какова разница между аналитикой документов версии 3.0 и версии 2.1 и способом миграции на последнюю версию?

Для повышения удобства использования служба "Аналитика документов" версии 3.0 представляет полностью переработанную клиентская библиотека. Чтобы успешно использовать последние функции API аналитики документов, вам потребуется последний пакет SDK, а код приложения должен быть обновлен для использования новых клиентов.

Эта таблица содержит ссылки на подробные инструкции по миграции в последнюю версию аналитики документов:

Язык или API Руководство по миграции
REST API версия 3
C#/.NET 4.0.0
Java 4.0.0
JavaScript 4.0.0
Python 3.2.0

Какие форматы файлов поддерживают аналитику документов? Существуют ли ограничения на размер входных документов?

Чтобы получить наилучшие результаты, ознакомьтесь с требованиями к входным данным.

Как указать диапазон страниц для анализа в документе?

pages Используйте параметр (поддерживается в версии 2.1, версии 3.0 и более поздних версиях REST API), чтобы указать страницы для документов PDF и TIFF. В качестве входных данных могут указываться следующие диапазоны:

  • Отдельные страницы. Например, если указать 1, 2, обрабатываются страницы 1 и 2.
  • Конечные диапазоны. Например, если указать 2-5, обрабатываются страницы 2–5.
  • Открытые диапазоны. Например, если указать 5-, обрабатываются все страницы со страницы 5. При указании -10обрабатываются страницы 1–10.

Эти параметры можно смешивать вместе, а диапазоны могут перекрываться. Например, если указать -5, 1, 3, 5-10, обрабатываются страницы 1–10.

Служба принимает запрос, если он может обрабатывать по крайней мере одну страницу документа. Например, использование 5-100 на пятистраничном документе является допустимым вводом, который означает, что страница 5 обрабатывается.

Если вы не предоставляете диапазон страниц, весь документ обрабатывается.

Доступны как Document Intelligence Studio, так и средство маркировки FOTT. Что же следует использовать?

В большинстве случаев мы рекомендуем Document Intelligence Studio , так как это может сократить время настройки ресурсов аналитики документов и служб хранилища.

Рекомендуется использовать средство тестирования OCR формы (FOTT) для следующих сценариев:

Ограничения службы и цены

Как Azure вычисляет цену на использование аналитики документов?

Выставление счетов аналитики документов вычисляется ежемесячно на основе типа модели и количества проанализированных страниц. Ниже приведены некоторые сведения:

  • При отправке документа для анализа служба анализирует все страницы, если только не указать диапазон страниц с помощью параметра в запросе pages . Когда служба анализирует документы Microsoft Excel и PowerPoint с помощью модели чтения, OCR или макета, она подсчитывает каждый лист Excel и слайд PowerPoint как одну страницу.

  • При анализе PDF-файлов и TIFF служба подсчитывает каждую страницу в PDF-файле или каждый образ в TIFF-файле как одну страницу без максимальных ограничений символов.

  • При анализе microsoft Word и HTML-файлов, которые поддерживают модели чтения и макета, он подсчитывает страницы в блоках из 3000 символов. Например, если в документе содержится 7 000 символов, две страницы с 3000 символами на каждой и одной странице с 1000 символами добавляются в общей сложности три страницы.

  • При использовании модели чтения или макета для анализа файлов Microsoft Word, Excel, PowerPoint и HTML-файлов внедренные или связанные изображения не поддерживаются. Поэтому служба не подсчитывает их как добавленные изображения.

  • Обучение пользовательской модели всегда бесплатно с помощью аналитики документов. Плата взимается только в том случае, если служба использует модель для анализа документа.

  • Цены на контейнеры аналогичны ценам на облачную службу.

  • Аналитика документов предлагает бесплатный уровень (F0), где можно протестировать все функции аналитики документов.

  • Аналитика документов имеет модель ценообразования на основе обязательств для больших рабочих нагрузок.

Дополнительные сведения о ценах azure AI Document Intelligence.

Как проверка использование аналитики документов и оценить цену?

Метрики использования можно найти на панели мониторинга метрик в портал Azure. На панели мониторинга отображается количество страниц, которые обрабатываются в azure AI Document Intelligence. Вы можете проверка предполагаемые затраты, потраченные на ресурс, с помощью калькулятора цен Azure. Подробные инструкции см. в разделе "Проверка использования и оценка затрат".

Каковы рекомендации по устранению регулирования?

Аналитика документов использует автомасштабирование для предоставления необходимых вычислительных ресурсов по требованию, при этом затраты клиентов не требуются. Для снижения регулирования во время автоматического масштабирования рекомендуется использовать следующий подход:

  • Реализуйте в приложении логику повторных попыток.

  • Если вы обнаружите, что вы регулируете количество запросов, рассмотрите возможность добавления задержки POST между запросами.

  • Увеличивайте рабочую нагрузку постепенно. Избегайте резких изменений.

  • Создайте запрос на поддержку для увеличения лимита транзакций в секунду (TPS).

Дополнительные сведения о квотах и ограничениях службы аналитики документов.

Сколько времени занимает анализ документа?

Время анализа документа зависит от размера (например, количества страниц) и связанного содержимого на каждой странице.

Аналитика документов — это мультитенантная служба, в которой задержка для аналогичных документов сравнима, но не всегда идентична. Задержка — это количество времени, затрачиваемого сервером API на обработку входящего запроса и предоставление исходящего ответа клиенту. В любой микрослужбе, без отслеживания состояния, асинхронной службе, которая обрабатывает изображения и большие документы в большом масштабе.

Несмотря на то, что мы постоянно масштабируем оборудование и емкость и возможности масштабирования, могут возникнуть проблемы с задержкой во время выполнения.

Пользовательские модели

Как подготовить данные для обучения наилучшим образом?

При использовании пользовательской модели аналитики документов вы предоставляете собственные обучающие данные. Вот несколько советов по эффективному обучению моделей:

  • По возможности используйте PDF-файлы с распознанным текстом, а не с текстом в виде изображений. Один из способов определить, содержит ли PDF-файл распознанный текст, — попытаться выделить конкретный текст в документе. Если вы можете выбрать только все изображение текста, документ основан на изображении, а не на основе текста.

  • Упорядочьте документы для обучения с использованием вложенной папки для каждого формата (JPEG/JPG, PNG, BMP, PDF или TIFF).

  • Используйте формы, в которых заполнены все доступные поля.

  • Используйте формы с разными значениями в каждом поле.

  • Если изображения являются низким качеством, используйте более крупный набор данных (более пяти обучающих документов).

Дополнительные сведения о создании обучаемого набора данных.

Каковы рекомендации по обучению высоко точной пользовательской модели?

Уровень точности модели зависит от качества учебных материалов. Ниже приведено несколько советов.

  • Определите, нужно ли использовать одну модель или несколько моделей, объединенных в одну модель.

  • Точность модели может уменьшаться, если с помощью одной модели анализируются различные форматы. Разделите набор данных на папки, где каждая папка является уникальным шаблоном. Обучите одну модель для каждой папки и создайте полученные модели в одну конечную точку.

  • Пользовательские формы основываются на согласованном визуальном шаблоне. Если в форме используются различные форматы данных и разрывы страниц, сегментируйте набор данных для обучения нескольких моделей.

  • Убедитесь, что у вас есть сбалансированный набор данных, учитывая форматы, типы документов и структуру.

Дополнительные сведения о составных моделях.

Можно ли повторно обучить пользовательскую модель?

Аналитика документов не имеет явной операции переобучения. Каждая операция обучения создает новую модель.

Если вы обнаружите, что модель нуждается в повторном обучении, добавьте дополнительные примеры в набор данных обучения и обучите новую модель.

Сколько пользовательских моделей можно объединить в одну пользовательскую модель?

С помощью операции создания модели вы можете назначить до 200 моделей одному идентификатору модели. При выполнении Analyze Document запроса с идентификатором модели, аналитика документов классифицирует отправленную форму, выбирает лучшую модель и возвращает результаты. Создание модели сейчас доступно только для пользовательских моделей, обученных с применением меток.

Анализ документа с помощью составных моделей идентичен анализу документа с помощью одной модели. Результат Analyze Document возвращает docType свойство, указывающее, какие из моделей компонентов, выбранных для анализа документа. Нет изменений в ценах на анализ документа с помощью отдельной пользовательской модели или созданной пользовательской модели.

Дополнительные сведения о составных моделях.

Если количество моделей, которые я хочу создать, превышает верхний предел составной модели, то каковы альтернативные варианты?

Вы можете использовать один из следующих вариантов:

Как уточнить модель за рамками первоначального обучения?

Каждая операция обучения создает новую модель.

  1. Создайте набор данных для нового шаблона.

  2. Выполните маркировку и обучение новой модели.

  3. Убедитесь, что новая модель хорошо работает для используемых типов документов.

  4. Объедините новую модель и существующую модель в одну конечную точку. Затем аналитика документов может определить лучшую модель для каждого документа, который необходимо проанализировать.

Дополнительные сведения о составных моделях.

Я создаю пользовательскую модель. Что возвращает метка обнаружения подписей?

Обнаружение подписи ищет наличие подписи, а не удостоверение пользователя, который подписывает документ.

Если модель возвращает без знака для обнаружения подписей, модель не обнаружила подпись в определенном поле.

Что следует учитывать и какие рекомендации по извлечению таблиц из документов?

Вы можете начать с модели макета аналитики документов для извлечения текстов, таблиц, меток выделения и структуры информации из документов и изображений. Также можно учитывать следующие факторы:

  • Являются ли данные, которые вы хотите извлечь как таблицу, и является ли структура таблицы понятной?

  • Если данные не указаны в формате таблицы, можно ли поместить данные в двухмерную сетку?

  • Охватывают ли таблицы несколько страниц? Если это так, чтобы избежать необходимости пометить все страницы, разделите PDF на страницы, прежде чем отправлять его в аналитику документов. После анализа после обработки страниц в одну таблицу.

  • Если вы создаете пользовательские модели, обратитесь к метки в виде таблиц. Динамические таблицы имеют переменное количество строк для каждого столбца. Фиксированные таблицы имеют постоянное количество строк для каждого столбца.

Как переместить обученные модели из одной среды (например, среду бета-версии) в другую (например, рабочую среду)?

API копирования можно использовать для копирования пользовательских моделей из одной учетной записи аналитики документов в другие, которые существуют в любом поддерживаемом географическом регионе. Подробные инструкции см. в разделе "Аварийное восстановление".

Операция копирования ограничена копированием моделей в конкретной облачной среде, в которой вы обучили модель. Например, копирование моделей из общедоступного облака в облако Azure для государственных организаций не поддерживается.

Почему при выполнении пользовательского обучения взимается плата за макет?

Макет необходим для создания меток для набора данных. Если набор данных, используемый для пользовательского обучения, не имеет доступных файлов меток, служба создает их для вас.

Storage account

Мне удалось получить доступ к моей учетной записи хранения несколько дней назад. Почему возникают неполадки при повторном подключении?

При создании подписанного URL-адреса длительность по умолчанию составляет 48 часов. Через 48 часов необходимо создать новый маркер.

Рекомендуется задать длительный период времени использования учетной записи хранения с аналитикой документов.

Если учетная запись хранения находится за виртуальной сетью или брандмауэром, как предоставить доступ к данным аналитики документов?

Если у вас есть учетная запись хранения Azure, защищенная виртуальной сетью или брандмауэром, аналитика документов не может напрямую получить доступ к учетной записи хранения. Однако частный доступ к учетной записи хранения Azure и проверка подлинности поддерживают управляемые удостоверения для ресурсов Azure. При использовании управляемого удостоверения служба аналитики документов может получить доступ к учетной записи хранения с помощью назначенных учетных данных.

Если вы планируете проанализировать данные частной учетной записи хранения с помощью FOTT, необходимо развернуть средство за виртуальной сетью или брандмауэром.

Узнайте, как создать и использовать управляемое удостоверение для ресурса Аналитики документов.

Document Intelligence Studio

Какие разрешения требуются для доступа к Document Intelligence Studio?

Для доступа к Document Intelligence Studio требуется активная учетная запись Azure и подписка с по крайней мере ролью читателя.

Для анализа документов и предварительно созданных моделей ниже приведены требования к роли для пользовательских сценариев:

  • Базовая

  • Расширенные

    • Участник. Эта роль необходима для создания группы ресурсов или ресурса аналитики документов. Роль участника не позволяет перечислять ключи для Cognitive Services. Чтобы использовать Document Intelligence Studio, вам по-прежнему нужна роль пользователя Cognitive Services.

Для проектов пользовательской модели ниже приведены требования к роли для пользовательских сценариев:

  • Базовая

    • Пользователь Cognitive Services. Эта роль необходима для ресурса аналитики документов или нескольких служб Cognitive Services для обучения пользовательской модели или анализа с помощью обученных моделей.

    • служба хранилища участник данных BLOB-объектов. Для создания данных проекта и меток учетной записи хранения требуется эта роль.

  • Расширенные

    • служба хранилища участник учетной записи. Для настройки параметров общего доступа к ресурсам (CORS) требуется эта роль. Это однократная попытка, если вы повторно используете ту же учетную запись хранения.

      Роль участника не позволяет получить доступ к данным в большом двоичном объекте. Чтобы использовать Document Intelligence Studio, вам по-прежнему нужна роль участника данных BLOB-объектов служба хранилища.

    • Участник. Для создания группы ресурсов и ресурсов требуется эта роль. Роль участника не предоставляет доступ к использованию созданных ресурсов или хранилища. Чтобы использовать Document Intelligence Studio, вам по-прежнему нужны основные роли.

Дополнительные сведения см. в статьях о встроенных ролях Microsoft Entra и разделах о назначениях ролей Azure в кратком руководстве по Document Intelligence Studio.

В моем документе несколько страниц. Почему в Студии аналитики документов анализируется только две страницы?

Для ресурсов уровня "Бесплатный" (F0) анализируются только первые две страницы, используются ли вы с помощью Document Intelligence Studio, REST API или пакетов SDK.

В Document Intelligence Studio нажмите кнопку Параметры (шестеренка), перейдите на вкладку "Ресурсы" и проверка ценовую категорию, которую вы используете для анализа документов. Если вы хотите проанализировать все страницы в документе, перейдите на платный ресурс (S0).

Как изменить каталоги или подписки в Document Intelligence Studio?

Чтобы изменить каталог в Document Intelligence Studio, нажмите кнопку Параметры (шестеренка). В разделе "Каталог" выберите каталог из списка и выберите пункт "Переключить каталог". После переключения каталога появится запрос на вход.

Чтобы изменить подписку или ресурс, перейдите на вкладку "Ресурс" в Параметры.

Почему при настройке ресурса учетной записи хранения с брандмауэром или виртуальной сетью возникает ошибка хранения при использовании общего доступа к проекту, автоматической маркировки или операции обновления OCR?

Чтобы настроить ресурсы Azure, ознакомьтесь с управляемыми удостоверениями для аналитики документов.

Почему при настройке ресурса аналитики документов с брандмауэром или брандмауэром возникает ошибка "Доступ запрещен из-за виртуальная сеть/правил брандмауэра" при автоматическом обновлении меток или операции обновления OCR при настройке ресурса аналитики документов с брандмауэром или виртуальной сетью?

Необходимо добавить выделенный IP-адрес 20.3.165.95 в список разрешений брандмауэра для ресурса Аналитики документов.

Можно ли повторно использовать или настраивать возможности маркировки из Document Intelligence Studio и создавать их в собственном приложении?

Да. Интерфейс маркировки из Document Intelligence Studio открытый код в репозитории набор средств.

Почему при открытии пользовательского проекта возникает ошибка "Распознаватель документов не найдена"?

Ресурс аналитики документов, привязанный к этому пользовательскому проекту, был удален или перемещен в другую группу ресурсов. Устранить эту проблему можно двумя способами:

  • Повторно создайте ресурс Аналитики документов в той же подписке и группе ресурсов с тем же именем.

  • Повторно создайте пользовательский проект с перенесенным ресурсом аналитики документов и укажите ту же учетную запись хранения.

Контейнеры

Требуется ли подключение к Интернету для использования контейнеров аналитики документов?

Да. Контейнеры аналитики документов требуют подключения к Интернету для отправки сведений о выставлении счетов в Azure. Дополнительные сведения о безопасности контейнеров Azure.

Какова разница между отключенными и подключенными контейнерами?

Подключение контейнеры отправляют сведения о выставлении счетов в Azure с помощью ресурса аналитики документов в учетной записи Azure. В подключенных контейнерах для отправки сведений о выставлении счетов в Azure требуется подключение к Интернету.

Отключенные контейнеры позволяют использовать API, которые отключены от Интернета. Сведения о выставлении счетов не отправляются через Интернет. Вместо этого плата взимается на основе приобретенного уровня обязательств. В настоящее время отключенное использование контейнера доступно для пользовательских моделей аналитики документов и счетов.

Возможности модели, предоставляемые в подключенных и отключенных контейнерах, одинаковы и поддерживаются аналитикой документов версии 2.1.

Какие данные подключенные контейнеры отправляют в облако?

Подключенные контейнеры аналитики документов отправляют сведения о выставлении счетов в Azure с помощью ресурса аналитики документов в учетной записи Azure. Подключенные контейнеры не отправляют в корпорацию Майкрософт данные клиента, например, анализируемые изображения или текст.

Пример сведений о том, что подключенные контейнеры отправляются в Корпорацию Майкрософт для выставления счетов, см. в разделе часто задаваемые вопросы о контейнере ИИ Azure.

Почему я получаю ошибку "Контейнер не в допустимом состоянии. Сбой проверки подписки с помощью ключа API OutOfQuota не является квотой?

Подключенные контейнеры аналитики документов отправляют сведения о выставлении счетов в Azure с помощью ресурса аналитики документов в учетной записи Azure. Это сообщение можно получить, если контейнеры не могут взаимодействовать с конечной точкой выставления счетов.

Можно ли использовать локальное хранилище для контейнера средства метки для аналитики документов (FOTT)?

Существует версия средства FOTT, которая использует локальное хранилище. Эту версию необходимо установить на компьютере Windows. Его можно установить из этого расположения.

На странице проекта укажите URI папки меток как /shared или /shared/sub-dir, если файлы меток находятся в подкаталоге. Все остальные действия средства аналитики примеров документов совпадают с поведением размещенной службы.

Что рекомендуется использовать для увеличения масштаба?

Для асинхронных вызовов можно запускать несколько контейнеров с общим хранилищем. Контейнер, обрабатывающий POST вызов анализа, сохраняет выходные данные в хранилище. Затем любой другой контейнер может получить результаты из хранилища и обслуживать GET вызовы. Идентификатор запроса не привязан к контейнеру.

Для синхронных вызовов можно запускать несколько контейнеров, но только один контейнер обслуживает запрос. Так как это блокирующий вызов, любой контейнер из пула может обслуживать запрос и отправлять ответ. Здесь только один контейнер привязан к запросу за раз, и опрос не требуется.

Как настроить контейнеры с общим хранилищем?

Контейнеры используют Mounts:Shared свойство при запуске для указания общего хранилища для хранения файлов обработки. Сведения об использовании этого свойства см . в документации по контейнерам.

Безопасность и конфиденциальность

Каковы методы и требования для проверки подлинности запросов к службам ИИ Azure?

Каждый запрос к службе Azure должен содержать заголовок проверки подлинности. Запрос можно пройти проверку подлинности с помощью нескольких методов:

Хранит ли данные аналитика документов?

Для всех функций Аналитика документов временно сохраняет данные и приводит к служба хранилища Azure в том же регионе, что и запрос. Затем данные удаляются в течение 24 часов с момента отправки запроса на анализ.

Дополнительные сведения о данных, конфиденциальности и безопасности для аналитики документов.

Как хранятся и используются в аналитике документов обученные пользовательские модели?

Промежуточные выходные данные после анализа и маркировки хранятся в том же служба хранилища Azure расположении, где хранятся данные обучения. Обученные пользовательские модели хранятся в служба хранилища Azure в том же регионе, и они логически изолированы с помощью подписки Azure и учетных данных API.

Дополнительная помощь и поддержка

Где можно найти дополнительные решения по вопросам аналитики документов Azure?

Microsoft Q&A является домом для технических вопросов и ответов в Корпорации Майкрософт. Вы можете фильтровать запросы, относящиеся к аналитике документов.

Что делать, если служба не распознает определенный текст или распознает его неправильно, когда я подписываю документы?

Мы постоянно обновляем и совершенствуем модель OCR аналитики документов. Вы можете отправить сообщение группе аналитики документов. Если возможно, приложите пример документа с описанием проблемы.