Создание настраиваемых моделей

Это содержимое относится к:v4.0 (предварительная версия) | Предыдущие версии:синий проверка markфлажокv3.1 (GA)v3.0 (GA)синий проверка markсиний проверка markv2.1 (GA)

Это содержимое относится к:v3.1 (GA)Последняя версияфиолетовый проверка mark:v4.0 (предварительная версия) | | Предыдущие версии:флажоксиний проверка markv3.0синий проверка markверсии 2.1

Это содержимое относится к:v3.0 (GA) | Последние версии:фиолетовый проверка markv4.0 (предварительная версия)фиолетовый проверка mark3.1 | Предыдущая версия:флажоксиний проверка markv2.1

Это содержимое относится к:v2.1 Последняя версиясиний проверка mark:флажокv4.0 (предварительная версия) |

Составная модель создается на основе коллекции настраиваемых моделей, которые назначаются одному идентификатору модели. Вы можете назначить до 200 обученных пользовательских моделей одному идентификатору составной модели. При отправке документа в составную модель служба выполняет классификацию, чтобы решить, какая настраиваемая модель точно соответствует форме, представленной для анализа. Составные модели удобно использовать, если вы обучили несколько моделей и хотите сгруппировать их для анализа похожих типов форм. Например, составная модель может содержать настраиваемые модели, обученные для анализа заказов на покупку материалов, оборудования и мебели. Вместо того чтобы вручную выбирать нужную модель, можно использовать составную модель, чтобы определять соответствующую настраиваемую модель для каждой операции анализа и извлечения.

Дополнительные сведения см. в статье Составные настраиваемые модели.

В этой статье вы узнаете, как создавать и использовать создаваемые пользовательские модели для анализа форм и документов.

Необходимые компоненты

Чтобы приступить к работе, вам потребуется следующее:

  • Подписка Azure. Вы можете создать бесплатную подписку Azure.

  • Экземпляр аналитики документов. После получения подписки Azure создайте ресурс аналитики документов в портал Azure, чтобы получить ключ и конечную точку. Если у вас есть существующий ресурс аналитики документов, перейдите непосредственно на страницу ресурсов. Используйте бесплатную ценовую категорию (F0), чтобы опробовать службу, а затем выполните обновление до платного уровня для рабочей среды.

    1. После развертывания ресурса нажмите Перейти к ресурсу.

    2. Скопируйте значения Ключи и конечная точка с портала Azure и вставьте их в удобное место, например в Блокнот (Майкрософт). Для подключения приложения к API аналитики документов нужны значения ключей и конечных точек.

    Фотография: как получить ключ ресурса и URL-адрес конечной точки.

    Совет

    Дополнительные сведения см. в статье о создании ресурса аналитики документов.

  • Учетная запись хранения Azure. Если вы не знаете, как создать учетную запись хранения Azure, обратитесь к краткому руководству по работе со службой хранилища Azure на портале Azure. Используйте бесплатную ценовую категорию (F0), чтобы опробовать службу, а затем выполните обновление до платного уровня для рабочей среды.

Создание настраиваемых моделей

Во-первых, вам потребуется набор пользовательских моделей для создания. Вы можете использовать пакеты SDK для Аналитики документов, REST API или клиентской библиотеки. Для этого необходимо выполнить следующие шаги:

Составление набора данных для обучения

Создание настраиваемой модели начинается с создания набора данных для обучения. Для примера набора данных требуется не менее пяти завершенных форм одного типа. Типы файлов могут быть разными (JPG, PNG, PDF, TIFF). Формы могут содержать как печатный, так и рукописный текст. Формы должны соответствовать требованиям к входным данным для аналитики документов.

Совет

Ниже приведены советы по оптимизации набора данных для обучения:

  • По возможности используйте текстовые документы PDF вместо документов на основе изображений. Отсканированные PDF-файлы обрабатываются как изображения.
  • Для заполненных форм используйте примеры, в которых все поля заполнены.
  • Используйте формы с разными значениями в каждом поле.
  • Если ваши изображения формы имеют более низкое качество, используйте набор данных большего размера (например, 10–15 изображений).

Советы и варианты для сбора документов для обучения см. в этой статье.

Передача набора данных для обучения

При сборе набора обучающих документов необходимо передать данные обучения в контейнер хранилища BLOB-объектов Azure.

Если вы хотите использовать данные, помеченные вручную, необходимо отправить .labels.json и .ocr.json файлы, соответствующие вашим учебным документам.

Обучение настраиваемой модели

При обучении модели с помеченными данными модель использует контролируемое обучение для извлечения важных значений из предоставленных форм с метками. Данные с метками повышают эффективность моделей и позволяют получить модели для достаточно сложных форм и (или) форм со значениями без ключей.

Аналитика документов использует предварительно созданный API модели макета для изучения ожидаемых размеров и позиций шрифтов и рукописных текстовых элементов и извлечения таблиц. Затем он применяет заданные пользователем метки для изучения связей "ключ — значение" и таблиц в предоставленных документах. Мы рекомендуем использовать не менее пяти форм одного типа (одной структуры) с проставленными вручную метками, чтобы начать обучение новой модели. Затем по мере необходимости добавляйте данные с метками для повышения точности модели. Аналитика документов позволяет обучать модель для извлечения пар "ключ-значение" и таблиц с помощью защищенных возможностей обучения.

Для создания настраиваемых моделей начните с настройки проекта:

  1. На домашней странице Студии выберите Создать на карточке настраиваемой модели.

  2. С помощью команды ➕ Создать проект запустите мастер конфигурации проекта.

  3. Введите сведения о проекте, выберите подписку и ресурс Azure, а также контейнер хранилища BLOB-объектов Azure, который содержит ваши данные.

  4. Проверьте и отправьте параметры, чтобы создать проект.

Анимация, показывающая создание пользовательского проекта в Document Intelligence Studio.

При создании настраиваемых моделей может потребоваться извлечь коллекции значений из документов. Эти коллекции могут иметь один из двух форматов. Примеры использования таблиц в качестве визуального шаблона:

  • Динамическое или переменное количество значений (строк) для заданного набора полей (столбцов)

  • Конкретная коллекция значений для заданного набора полей (столбцов и строк)

См. статью Document Intelligence Studio: маркировка в виде таблиц

Создание составной модели

Примечание.

Операция create compose model доступна только для настраиваемых моделей, обученных с применением меток. Попытки создать модели без меток приведут к ошибке.

С помощью операции создания составной модели можно назначить до 100 обученных настраиваемых моделей одному идентификатору модели. При анализе документов с помощью составной модели аналитика документов сначала классифицирует отправленную форму, а затем выбирает оптимальную назначенную модель и возвращает результаты для этой модели. Это очень удобная операция, если входящие документы могут относиться к одному из нескольких шаблонов.

После успешного обучения можно приступить к созданию составной модели. Ниже приведены шаги по созданию и использованию составных моделей:

Сбор идентификаторов моделей

При обучении моделей с помощью Document Intelligence Studio идентификатор модели находится в меню моделей в проекте:

Снимок экрана: окно конфигурации модели в Document Intelligence Studio.

Создание настраиваемых моделей

  1. Выберите проект настраиваемых моделей.

  2. В проекте выберите пункт меню Models.

  3. В итоговом списке моделей выберите модели, которые необходимо объединить.

  4. Нажмите кнопку Compose (Создать) в левом верхнем углу.

  5. Во всплывающем окне укажите имя новой составной модели и щелкните Compose (Создать).

  6. После завершения операции в списке появится только что созданная модель.

  7. Когда модель будет готова, используйте команду Проверить, чтобы проверить ее с помощью используемых для проверки документов и просмотреть результаты.

Анализ документов

Для выполнения операции "Анализ пользовательской модели" требуется предоставить modelID вызов аналитики документов. Необходимо указать идентификатор модели для параметра modelID в приложениях.

Снимок экрана: идентификатор составной модели в Document Intelligence Studio.

Управление составными моделями

Вы можете управлять настраиваемыми моделями в рамках жизненных циклов:

  • Протестируйте и проверьте новые документы.
  • Скачайте модель для использования в приложениях.
  • Удалите модель по завершении ее жизненного цикла.

Снимок экрана: составная модель в Студии аналитики документов

Отлично! Вы узнали шаги по созданию пользовательских и составных моделей и их использованию в проектах и приложениях аналитики документов.

Следующие шаги

Ознакомьтесь с одним из кратких руководств по анализу документов:

C#

Аналитика документов использует расширенную технологию машинного обучения для обнаружения и извлечения информации из изображений документов и возврата извлеченных данных в структурированных выходных данных JSON. С помощью аналитики документов можно обучить автономные пользовательские модели или объединить пользовательские модели для создания составных моделей.

  • Настраиваемые модели. Пользовательские модели аналитики документов позволяют анализировать и извлекать данные из форм и документов, относящихся к бизнесу. Настраиваемые модели обучаются именно для ваших данных и вариантов использования.

  • Составные модели. Составная модель создается на основе коллекции настраиваемых моделей, которые назначаются одной модели, охватывающей определенные типы форм. При отправке документа в составную модель служба выполняет классификацию, чтобы решить, какая настраиваемая модель точно соответствует форме, представленной для анализа.

Из этой статьи вы узнаете, как создавать пользовательские и составные модели аналитики документов с помощью средства маркировки примеров документов, REST API или пакетов SDK для клиентской библиотеки.

Пример средства создания меток

Попробуйте извлечь данные из пользовательских форм с помощью примера средства маркировки данных. Вам потребуются следующие ресурсы:

  • Подписка Azure — создайте бесплатную учетную запись

  • Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

Снимок экрана: расположение ключей и конечной точки на портале Azure.

В пользовательском интерфейсе аналитики документов:

  1. Выберите Использовать настраиваемую форму для обучения модели с метками и получения пар "ключ-значение".

    Снимок экрана: выбор параметра для использования настраиваемой модели в средстве FOTT.

  2. В следующем окне выберите Создать проект:

    Снимок экрана: выбор параметра для создания проекта в средстве FOTT.

Создание моделей

Ниже приведены шаги по созданию, обучению и использованию настраиваемых и составных моделей:

Составление набора данных для обучения

Создание настраиваемой модели начинается с создания набора данных для обучения. Для примера набора данных требуется не менее пяти завершенных форм одного типа. Типы файлов могут быть разными (JPG, PNG, PDF, TIFF). Формы могут содержать как печатный, так и рукописный текст. Формы должны соответствовать требованиям к входным данным для аналитики документов.

Передача набора данных для обучения

Необходимо передать данные обучения в контейнер хранилища BLOB-объектов Azure. Если вы не знаете, как создать учетную запись хранения Azure с контейнером, см.краткое руководство по работе со службой хранилища Azure на портале Azure. Используйте бесплатную ценовую категорию (F0), чтобы опробовать службу, а затем выполните обновление до платного уровня для рабочей среды.

Обучение настраиваемой модели

Для обучения модели используются наборы данных с метками. Наборы данных с метками используют встроенный API макета, однако включены также и дополнительные входные данные пользователя, например определенные метки и расположения полей. Чтобы начать работу с обучающими данными с метками, рекомендуется использовать как минимум пять заполненных форм одного типа.

При обучении с помеченными данными модель использует контролируемое обучение для извлечения важных значений из предоставленных форм с метками. Данные с метками повышают эффективность моделей и позволяют получить модели для достаточно сложных форм и (или) форм со значениями без ключей.

Аналитика документов использует API макета для изучения ожидаемых размеров и позиций шрифтов и рукописных текстовых элементов и извлечения таблиц. Затем он применяет заданные пользователем метки для изучения связей "ключ — значение" и таблиц в предоставленных документах. Мы рекомендуем использовать не менее пяти форм одного типа (одной структуры) с проставленными вручную метками, чтобы начать обучение новой модели. По мере необходимости добавляйте данные с метками для повышения точности модели. Аналитика документов позволяет обучать модель для извлечения пар ключевых значений и таблиц с помощью защищенных возможностей обучения.

Начало работы с функцией обучения с использованием меток

[!ВИДЕО https://learn.microsoft.com/Shows/Docs-Azure/Azure-Form-Recognizer/player]

Создание составной модели

Примечание.

Создание модели доступно только для пользовательских моделей, обученных с помощью меток. Попытки создать модели без меток приведут к ошибке.

С помощью операции "Создание модели" можно назначить до 200 обученных пользовательских моделей одному идентификатору модели. При вызове анализа с помощью идентификатора составной модели аналитика документов классифицирует форму, отправленную сначала, выбирает оптимальную назначенную модель, а затем возвращает результаты для этой модели. Это очень удобная операция, если входящие документы могут относиться к одному из нескольких шаблонов.

Используя средство создания меток для аналитики документов, REST API или пакеты SDK для клиентской библиотеки, выполните действия, чтобы настроить созданную модель:

  1. Сбор идентификаторов настраиваемых моделей
  2. Создание настраиваемых моделей

Сбор идентификаторов настраиваемых моделей

После успешного завершения процесса обучения пользовательская модель назначается идентификатору модели. Идентификатор модели можно получить следующим образом:

При обучении моделей с помощью средства маркировки образца документов идентификатор модели находится в окне "Результат обучения":

Снимок экрана: окно результатов обучения.

Создание настраиваемых моделей

Собрав настраиваемые модели, соответствующие одному типу формы, их можно объединить в одну модель.

Пример средства маркировки данных позволяет быстро приступить к обучению моделей и их назначению одному идентификатору модели.

После завершения обучения создайте модели следующим образом.

  1. В меню слева щелкните значок Создание модели (объединяющаяся стрелка).

  2. В основном окне выберите модели, которые вы хотите назначить одному идентификатору модели. Модели со значком со стрелками уже являются составными моделями.

  3. Нажмите кнопку Compose (Создать) в левом верхнем углу.

  4. Во всплывающем окне укажите имя новой составной модели и щелкните Compose (Создать).

После завершения операции в списке появится только что созданная модель.

Снимок экрана: окно создания модели.

Анализ документов с помощью составной модели

Для операции "Анализ пользовательской формы" требуется предоставить modelID вызов аналитики документов. Для параметра modelID можно указать один идентификатор настраиваемой или составной модели.

  1. В меню в левой области средства нажмите значок анализа в виде лампочки.

  2. Выберите локальный файл или URL-адрес изображения для анализа.

  3. Нажмите кнопку Run Analysis (Анализировать).

  4. Средство применяет теги в ограничивающих полях и сообщает процент достоверности для каждого тега.

Снимок экрана: окно анализа пользовательской формы средства аналитики документов.

Протестируйте новые обученные модели, проанализировав формы, не входящие в набор данных для обучения. В зависимости от оценки точности может потребоваться дополнительное обучение для улучшения модели. Вы можете продолжить обучение, чтобы улучшить результаты.

Управление настраиваемыми моделями

Вы можете управлять настраиваемыми моделями на протяжении их жизненного цикла, просматривая список всех настраиваемых моделей в подписке, получая сведения о конкретной настраиваемой модели и удаляя настраиваемые модели из своей учетной записи.

Отлично! Вы узнали шаги по созданию пользовательских и составных моделей и их использованию в проектах и приложениях аналитики документов.

Следующие шаги

Дополнительные сведения о клиентской библиотеке аналитики документов см. в справочной документации по API.