Поделиться через


Модели ипотечных документов аналитики документов document

Это содержимое относится к:флажокv4.0 (предварительная версия)флажок

Модели ипотеки document Intelligence используют мощные возможности оптического распознавания символов (OCR) и модели глубокого обучения для анализа и извлечения ключевых полей из ипотечных документов. Ипотечные документы могут иметь различные форматы и качество. API анализирует ипотечные документы и возвращает структурированное представление данных JSON. В настоящее время модели поддерживают только документы на английском языке.

Поддерживаемые типы документов:

  • Универсальное заявление о жилищном кредите (форма 1003)
  • Унифицированное подзаписи и сводка по передаче (форма 1008)
  • Закрытие формы раскрытия

Варианты разработки

Аналитика документов версии 4.0 (2024-02-29-preview) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модель ипотеки Аналитика
документов• REST API
• ПАКЕТ SDK
для C#
• Пакет SDK для Python• Пакет SDK для Java • Пакет SDK
java для JavaScript
• предварительно созданная ипотека.us.1003
• предварительно созданная ипотека.us.1008
• предварительно созданная ипотека.us.закрытиеDisclosure

Требования к входным данным

  • Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.

  • Поддерживаемые форматы файлов:

    Модель PDF Изображение:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) и HTML
    Читать
    Макет ✔ (2024-02-29-preview, 2023-10-31-preview)
    Документ общего назначения
    Готовое
    Настраиваемая функция извлечения
    Настраиваемая классификация ✔ (2024-02-29-preview)
  • В файлах формата PDF и TIFF обрабатывается до 2000 страниц (с подпиской уровня "Бесплатный" обрабатываются только первые две страницы).

  • Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ бесплатного уровня (F0).

  • Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.

  • Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.

  • Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту о 8точке в 150 точек на дюйм (DPI).

  • Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.

    • Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1G-МБ для нейронной модели.

    • Для обучения пользовательской модели классификации общий размер обучающих данных составляет 1GB не более 10 000 страниц.

Попробуйте извлечение данных ипотечных документов

Чтобы узнать, как работает извлечение данных для службы ипотечных документов, вам потребуется следующее:

  • Подписка Azure — ее можно создать бесплатно.

  • Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

Снимок экрана: расположение ключей и конечной точки на портале Azure.

Document Intelligence Studio

  1. На домашней странице Document Intelligence Studio выберите ипотеку.

  2. Вы можете проанализировать примеры ипотечных документов или отправить собственные файлы.

  3. Нажмите кнопку "Выполнить анализ", а при необходимости настройте параметры анализа:

    Снимок экрана: кнопки

Поддерживаемые языки и языковые стандарты

См . страницу предварительно созданных моделей для полного списка поддерживаемых языков.

Извлечение полей 1003 Универсальное приложение жилищного кредита (URLA)

Ниже приведены поля, извлеченные из формы URLA 1003 в выходном ответе JSON.

Имя. Тип Описание Пример результата
КредиторLoanNumber Строка Номер кредита кредитора или универсальный идентификатор кредита 10Bx939c5543TqA1144M999143X38
AgencyCaseNumber Строка Номер дела агентства 115894
Заемщика Object Объект, содержащий маркеры идентификации заемщика, такие как имя, SSN, дата рождения.
Со-заемщик Object Объект, содержащий имена со-заемщика и дату подписания.
Текущая безработица Object Объект, содержащий сведения о текущем трудоустройстве, включая имя работодателя, номер работодателя Телефон номер, адрес работодателя.
Кредит Object Объект, содержащий сведения о кредите, включая сумму, тип назначения, тип рефинансирования.
Свойство объект Объект, содержащий сведения о свойстве, включая адрес, количество единиц, значение.

Пары "ключ-значение" и "1003 URLA" и "элементы строки", извлеченные, находятся в documentResults разделе выходных данных JSON.

Извлечение полей 1008 Универсальный подзапись и сводка по передаче

Ниже приведены поля, извлеченные из формы 1008 в выходном ответе JSON.

Имя. Тип Описание Пример результата
Заемщика Object Объект, содержащий сведения о заемщике, включая имя и число заемщиков.
Свойство Object Объект, содержащий сведения о свойстве, включая адрес, состояние заполнения, цену на продажу.
Ипотеки Object Объект, содержащий сведения об ипотеке, включая тип кредита, тип амортизации, тип назначения кредита.
Андеррайтинг Object Объект, содержащий сведения о подзаписи, включая имя подзаписи, имя оценщика, доход заемщика.
Продавец Object Объект, содержащий сведения о продавце, включая имя, адрес, номер.

Пары "ключ-значение" формы 1008 и элементы строки, извлеченные, находятся в documentResults разделе выходных данных JSON.

Раскрытие информации о закрытии ипотеки для извлечения полей

Ниже приведены поля, извлеченные из формы раскрытия ипотеки в выходном ответе JSON.

Имя. Тип Описание Пример результата
Закрытие Object Объект, содержащий сведения о закрытии, включая дату выдачи, дату закрытия, дату выплаты.
Транзакция Object Объект, содержащий сведения о транзакциях, включая имя заемщиков, адрес заемщиков, имя продавца.
Кредит Object Объект, содержащий сведения о кредите, включая термин, назначение, продукт.

Пары ключей и элементов строки, извлеченные в ипотеке, находятся в documentResults разделе выходных данных JSON.

Следующие шаги

  • Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio.

  • Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.