Поделиться через


Модели налоговых документов в США для аналитики документов

Внимание

  • Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке.
  • Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
  • Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию использует rest API версии 2024-02-29-preview.
  • Общедоступная предварительная версия 2024-02-29-preview в настоящее время доступна только в следующих регионах Azure:
  • Восточная часть США
  • Западная часть США2
  • Западная Европа

Это содержимое относится к:v4.0 (предварительная версия) | Предыдущие версии:синий проверка markфлажокv3.1 (GA)

Это содержимое относится к:v3.1 (GA) | Latest versionфиолетовый проверка mark:флажокv4.0 (предварительная версия)

Модель контракта аналитики документов использует мощные возможности оптического распознавания символов (OCR) для анализа и извлечения ключевых полей и элементов строки из выбранной группы налоговых документов. Налоговые документы могут быть различными форматами и качеством, включая захваченные телефоном изображения, сканированные документы и цифровые PDF-файлы. API анализирует текст документа; извлекает ключевые сведения, такие как имя клиента, адрес выставления счетов, дата выполнения и сумма; и возвращает структурированное представление данных JSON. В настоящее время модель поддерживает определенные форматы документов на английском языке.

Поддерживаемые типы документов:

  • W-2
  • 1098
  • 1098-E
  • 1098-T
  • 1099 и вариации (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, S)
  • 1040 и варианты (расписание 1, расписание 2, расписание 3, расписание 8812, расписание A, Расписание B, Расписание D, Расписание E, Расписание F EIC, Расписание F, Расписание H, Расписание J, Расписание R, Расписание R, План SE и Расписание старший)

Автоматическая обработка налоговых документов

Автоматическая обработка налоговых документов — это процесс извлечения ключевых полей из налоговых документов. Исторически налоговые документы обрабатывались вручную. Эта модель позволяет легко автоматизировать налоговые сценарии.

Варианты разработки

Аналитика документов версии 4.0 (2023-10-31-preview) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модели налоговой формы США Аналитика
документов• REST API
• ПАКЕТ SDK
для C#
• Пакет SDK для Python• Пакет SDK для Java • Пакет SDK
java для JavaScript
• prebuilt-tax.us.W-2• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T
• предварительно созданные tax.us.1099A
• prebuilt-tax.us.1099B
• prebuilt-tax.us.1099C
• prebuilt-tax.us.1099CAP
• предварительно созданная tax.us.1099DIV
• prebuilt-tax.us.1099G
• prebuilt-tax.us.1099H
• prebuilt-tax.us.1099INT
• предварительно созданные tax.us.1099K
• prebuilt-tax.us.1099LS
• prebuilt-tax.us.1099LTC
• prebuilt-tax.us.1099MISC

prebuilt-tax.us.1099NEC• prebuilt-tax.us.1099OID
• prebuilt-tax.us.1099PATR• prebuilt-tax.us.1099Q
• prebuilt-tax.us.1099QA
• prebuilt-tax.us.1099R

• prebuilt-tax.us.1099S• prebuilt-tax.us.1099S
• prebuilt-tax.us.us.. 1099SA
• предварительно создано-tax.us.1099SB
• prebuilt-tax.us.1040
• prebuilt-tax.us.1040Schedule1
• prebuilt-tax.us.1040Schedule2
• prebuilt-tax.us.1040Schedule3
• prebuilt-tax.us.1040Schedule812

prebuilt-tax.us.1040ScheduleA
• prebuilt-tax.us.1040ScheduleB
• prebuilt-tax.us.1040ScheduleC
• prebuilt-tax.us.1040ScheduleD
• prebuilt-tax.us.1040ScheduleE
• prebuilt-tax.us.1040ScheduleE• prebuilt-tax.us.1040ScheduleEIC
• prebuilt-tax.us.1040ScheduleF
• prebuilt-tax.us.1040ScheduleH
• prebuilt-tax.us.1040ScheduleJ
• prebuilt-tax.us.1040ScheduleR
• prebuilt-tax.us.1040ScheduleSE
• prebuilt-tax.us.1040Senior

Аналитика документов версии 3.1 поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модели налоговой формы США Аналитика
документов• REST API
• ПАКЕТ SDK
для C#
• Пакет SDK для Python• Пакет SDK для Java • Пакет SDK
java для JavaScript
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Аналитика документов версии 3.0 поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модели налоговой формы США Аналитика
документов• REST API
• ПАКЕТ SDK
для C#
• Пакет SDK для Python• Пакет SDK для Java • Пакет SDK
java для JavaScript
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Требования к входным данным

  • Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.

  • Поддерживаемые форматы файлов:

    Модель PDF Изображение:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) и HTML
    Читать
    Макет ✔ (2024-02-29-preview, 2023-10-31-preview)
    Документ общего назначения
    Готовое
    Настраиваемая функция извлечения
    Настраиваемая классификация ✔ (2024-02-29-preview)
  • В файлах формата PDF и TIFF обрабатывается до 2000 страниц (с подпиской уровня "Бесплатный" обрабатываются только первые две страницы).

  • Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ бесплатного уровня (F0).

  • Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.

  • Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.

  • Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту о 8точке в 150 точек на дюйм (DPI).

  • Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.

    • Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1G-МБ для нейронной модели.

    • Для обучения пользовательской модели классификации общий размер обучающих данных составляет 1GB не более 10 000 страниц.

Попробуйте извлечь данные налогового документа

Узнайте, как данные, включая сведения о клиентах, сведения о поставщике и элементы строки, извлекаются из счетов. Вам потребуются следующие ресурсы:

  • Подписка Azure — ее можно создать бесплатно.

  • Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

Снимок экрана: расположение ключей и конечной точки на портале Azure.

Document Intelligence Studio

  1. На домашней странице Document Intelligence Studio выберите поддерживаемую модель налогового документа.

  2. Вы можете проанализировать пример налогового документа или отправить собственные файлы.

  3. Нажмите кнопку "Выполнить анализ ", а при необходимости настройте параметры анализа:

    Снимок экрана: кнопки

Поддерживаемые языки и языковые стандарты

См . страницу предварительно созданных моделей для полного списка поддерживаемых языков.

Извлечение полей W-2

Ниже приведены поля, извлеченные из налоговой формы W-2 в ответе выходных данных JSON.

Имя. Тип Описание Пример результата Иждивенцев
W-2FormVariant Строка Вариант формы IR W-2. Это поле может иметь одно из следующих значений: W-2, , W-2AS, W-2CMW-2GUилиW-2VI W-2
TaxYear Число Форма налогового года 2021
W2Copy Строка Версия налоговой копии W-2 вместе с напечатанной инструкцией, связанной с этой копией Копирование : для Администратор социального страхования
Employee объект Объект, содержащий номер социального страхования, имя и адрес
ControlNumber строка Контрольный номер W-2. Поле W-2 IRS 0AB12 D345 7890
Employer Object Объект, содержащий идентификационный номер работодателя, имя и адрес
WagesTipsAndOtherCompensation Число Заработная плата, советы и другая сумма компенсации в долларах США. Поле W-2 IRS 1 1234567.89
FederalIncomeTaxWithheld Число Федеральный налог на подоходный налог с удержанной суммой в долларах США. Поле W-2 IRS W-2 1234567.89
SocialSecurityWages Число Сумма заработной платы социального страхования в долларах США. Поле W-2 IRS 3 1234567.89
SocialSecurityTaxWithheld Число Налог на социальное обеспечение удержанная сумма в долларах США. Поле W-2 IRS 4 1234567.89
MedicareWagesAndTips Число Заработная плата Medicare и советы суммы в долларах США. Поле W-2 IRS 5 1234567.89
MedicareTaxWithheld Число Налог Medicare удержанной суммы в долларах США. Поле W-2 IRS 6 1234567.89
SocialSecurityTips Число Сумма советов социального страхования в долларах США. Поле W-2 IRS 7 1234567.89
AllocatedTips Число Выделенные советы в USD. Поле W-2 IRS 8 1234567.89
VerificationCode Число Код проверки W-2. Поле W-2 IRS 9 1234567.89
DependentCareBenefits Число Сумма пособий по зависимому уходу в ДОЛЛАРАх США. Поле W-2 IRS 10 1234567.89
NonQualifiedPlans Число Сумма неквалифицированных планов в долларах США. Поле W-2 IRS 11 1234567.89
IsStatutoryEmployee Строка Часть поля IRS W-2 13. Может быть true или false true
IsRetirementPlan Строка Часть поля IRS W-2 13. Может быть true или false true
IsThirdPartySickPay Строка Часть поля IRS W-2 13. Может быть true или false true
Other Строка Содержимое поля W-2 IRS 14 БОЛЬНЫЕ LV ЗАРАБОТНАЯ ПЛАТА SBJT ДО $ 511/DAY LIMIT 1356
StateTaxInfos Массив Сведения, связанные с налогом штата. содержимое поля IRS W-2 от 15 до 17
LocaleTaxInfos Массив Сведения, связанные с местным налогом. Содержимое поля IRS W-2 от 18 до 20

Извлечение полей 1098

Ниже приведены поля, извлеченные из налоговой формы 1098 в ответе выходных данных JSON. Также поддерживаются формы 1098-T и 1098-E.

Имя. Тип Описание Пример результата
TaxYear Число Форма налогового года 2021
Заемщика Object Объект, содержащий TIN, name, address и AccountNumber заемщика
Кредитор Object Объект, содержащий TIN кредитора, имя, адрес и телефон
Ипотечный интерес Число Сумма ипотечных процентов, полученная от плательщиков или заемщиков (1) 1,234,567.89
OutstandingMortgagePrincipal Число Невыполненные ипотечные кредиты (поле 2) 1,234,567.89
ИпотекаOriginationDate Дата Дата происхождения ипотеки (поле 3) 2022-01-01
OverpaidInterestRefund Число Сумма возврата суммы переплаченных процентов (поле 4) 1,234,567.89
ИпотекаInsurancePremium Число Сумма страховых взносов по ипотеке (поле 5) 1,234,567.89
PointsPaid Число Точки, оплачиваемые при покупке основного проживания (Box 6) 1,234,567.89
IsPropertyAddressSameAsBorrower Строка Адрес собственности, защищаемой ипотекой, совпадает с адресом электронной почты плательщика или заемщика (поле 7). true
PropertyAddress Строка Адрес или описание имущества, защищаемого ипотекой (поле 8) 123 Main St., Redmond WA 98052
MortgagedPropertiesCount Число Количество ипотечных свойств (поле 9) 1
Другие Строка Дополнительные сведения для отчета плательщику (поле 10)
RealEstateTax Число Налог на недвижимость (поле 1) 1,234,567.89
Дополнительные сведения об осессменте Строка Добавлены оценки, сделанные в свойстве (поле 10) 1,234,567.89
ИпотекаAcquisitionDate Дата Дата приобретения ипотеки (поле 11) 2022-01-01

Извлечение полей 1099-NEC

Ниже приведены поля, извлеченные из налоговой формы 1099-nec в ответе выходных данных JSON. Поддерживаются и другие варианты 1099.

Имя. Тип Описание Пример результата
TaxYear Строка Налоговый год, извлеченный из формы 1099-NEC. 2021
Payer Object Объект, содержащий TIN, name, address и Телефон Number плательщика
Recipient Object Объект, содержащий TIN получателя, имя, адрес и accountNumber
Box1 number Поле 1, извлеченное из формы 1099-NEC. 123456
Box2 boolean Поле 2, извлеченное из формы 1099-NEC. true
Box4 number Поле 4, извлеченное из формы 1099-NEC. 123456
StateTaxesWithheld array Государственные налоги, извлеченные из формы 1099-NEC (коробки 5, 6 и 7)

Форма извлечения полей 1040

Ниже приведены поля, извлеченные из налоговой формы 1040 в ответе выходных данных JSON. Поддерживаются и другие варианты 1040.

Имя. Тип Описание Пример результата
TaxPayer Object Объект, содержащий сведения о налогоплательщике, такие как SSN, фамилия и адрес
Spouse Object Объект, содержащий сведения о супруге, такие как SSN, фамилия и имя и инициалы Name
Dependents array Массив, содержащий список зависимых, включая такие сведения, как Имя, SSN и Тип кредита
ThirdPartyDesignee объект Объект, содержащий сведения о стороннем конструкторе
SignatureDetails объект Объект, содержащий сведения о подписывшем, например номерах телефонов и сообщениях электронной почты
PaidPreparer объект Объект, содержащий сведения о подготовке.
FillingStatus Строка Значение может быть одним из noSelection, single, marriedFilingJointly, marriedFillingSeparately, headOfHousehold, квалификацииSurviingSpouse или multiSelection. отдельный
FilingStatusDetails объект Объект, содержащий сведения о состоянии подачи.
NameOfSpouseOrQualifyingPerson Строка Имя супруга или квалифицированного лица, извлеченного из формы 1040. Dmitry Gornozhenko
PresidentialElectionCampaign Строка Значение может быть одним из noSelection, налогоплательщик, супруг или multiSelection. Налогоплательщик
PresidentialElectionCampaignDetails объект Объект, содержащий сведения о президентской избирательной кампании.
DigitalAssets Строка Значение может быть одним из noSelection, да, нет или multiSelection. yes
DigitalAssetsDetails объект Объект, содержащий сведения о цифровых ресурсах.
ClaimStatus Строка Значение может быть одним из noSelection, налогоплательщикAsDependent, супругAsDependent, супругItemizesSeparatelyOrDualStatusAlien или multiSelection. налогоплательщикAsDependent
ClaimStatusDetails объект Объект, содержащий сведения о состоянии утверждения.
TaxpayerAgeBlindness Строка Значение может быть одним из noSelection, above64blind или multiSelection. выше64
TaxPayerAgeBlindnessDetails объект Объект, содержащий сведения о налогоплательщике возраст слепоты.
SpouseAgeBlindness Строка Значение может быть одним из noSelection, above64blind или multiSelection. выше64
TaxPayerAgeBlindnessDetails объект Объект, содержащий сведения о слепоте супругов.
MoreThanFourDependents boolean Более четырех зависимых, извлеченных из формы 1040. true
Box1a number Поле 1a , извлеченное из 1040. 123456
На основе предоставленной структуры JSON и ее преобразования в тот же формат таблицы, что и запрошенный, результат выглядит следующим образом:
Box1b number Поле 1b , извлеченное из 1040. 123456
Box1c number Поле 1c , извлеченное из 1040. 123456
Box1d number Поле 1d , извлеченное из 1040. 123456
Box1e number Поле 1e , извлеченное из 1040. 123456
Box1f number Поле 1f , извлеченное из 1040. 123456
Box1g number Поле 1g , извлеченное из 1040. 123456
Box1h number Поле 1h , извлеченное из 1040. 123456
Box1i number Поле 1i , извлеченное из 1040. 123456
Box1z number Поле 1z , извлеченное из 1040. 123456
Box2a number Поле 2a , извлеченное из 1040. 123456
Box2b number Поле 2b , извлеченное из 1040. 123456
Box3a number Поле 3a , извлеченное из 1040. 123456
Box3b number Поле 3b , извлеченное из 1040. 123456
Box4a number Поле 4a , извлеченное из 1040. 123456
Box4b number Поле 4b , извлеченное из 1040. 123456
Box5a number Поле 5a , извлеченное из 1040. 123456
Box5b number Поле 5b , извлеченное из 1040. 123456
Box6a number Поле 6a , извлеченное из 1040. 123456
Box6b number Поле 6b , извлеченное из 1040. 123456
Box6cCheckbox boolean Флажок 6c , извлеченный из 1040. true
Box7Checkbox boolean Флажок 7, извлеченный из 1040. true
Box7 number Поле 7, извлеченное из 1040. 123456
Box8 number Поле 8 извлечено из 1040. 123456
Box9 number Поле 9, извлеченное из 1040. 123456
Box10 number Поле 10 извлечено из 1040. 123456
Box11 number Поле 11, извлеченное из 1040. 123456
Box12 number Поле 12, извлеченное из 1040. 123456
Box13 number Поле 13 извлечено из 1040. 123456
Box14 number Поле 14 извлечено из 1040. 123456
Box15 number Поле 15 извлечено из 1040. 123456
Box16FromForm строка Значение может быть одним из noSelection, 8814, 4972, другим или multiSelection. 8814
Box16FromFormDetails объект Объект, содержащий сведения о Box 16
Box16OtherFormNumber строка Поле 16 Другие номера формы, извлеченные из 1040. 8888
Box16 number Поле 16 извлечено из 1040. 123456
Box17 number Поле 17 извлечено из 1040. 123456
Box18 number Поле 18 извлечено из 1040. 123456
Box19 number Поле 19 извлечено из 1040. 123456
Box20 number Поле 20 извлечено из 1040. 123456
Box21 number Поле 21, извлеченное из 1040. 123456
Box22 number Поле 22, извлеченное из 1040. 123456
Box23 number Поле 23, извлеченное из 1040. 123456
Box24 number Поле 24 извлечено из 1040. 123456
Box25a number Поле 25a , извлеченное из 1040. 123456
Box25b number Поле 25b , извлеченное из 1040. 123456
Box25c number Поле 25c , извлеченное из 1040. 123456
Box25d number Поле 25d , извлеченное из 1040. 123456
Box26 number Поле 26 извлечено из 1040. 123456
Box27 number Поле 27 извлечено из 1040. 123456
Box28 number Поле 28 извлечено из 1040. 123456
Box29 number Box 29, извлеченный из 1040. 123456
Box31 number Поле 31, извлеченное из 1040. 123456
Box32 number Поле 32, извлеченное из 1040. 123456
Box33 number Поле 33, извлеченное из 1040. 123456
Box34 number Поле 34, извлеченное из 1040. 123456
Box35Checkbox boolean Флажок 35 извлечен из 1040. true
Box35a number Поле 35a , извлеченное из 1040. 123456
Box35b number Поле 35b , извлеченное из 1040. 123456
Box35c строка Значение может быть одним из noSelection, проверка ing, экономии или multiSelection. проверка
Box35cDetails объект Объект, содержащий сведения о Box 35c
Box35d number Поле 35d , извлеченное из 1040. 123456
Box36 number Поле 36 извлечено из 1040. 123456
Box37 number Поле 37 извлечено из 1040. 123456
Box38 number Поле 38 извлечено из 1040. 123456
HasAssignedThirdPartyDesignee строка Значение может быть одним из noSelection, да, нет или multiSelection. yes
HasAssignedThirdPartyDesigneeDetails объект Объект, содержащий сведения о том, что было выбрано для назначенного стороннего конструктора

Пары "ключ-значение" и извлеченные элементы строки налоговых документов находятся в documentResults разделе выходных данных JSON.

Следующие шаги

  • Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio.

  • Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.