Модели налоговых документов в США для аналитики документов
Внимание
- Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке.
- Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
- Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию использует rest API версии 2024-02-29-preview.
- Общедоступная предварительная версия 2024-02-29-preview в настоящее время доступна только в следующих регионах Azure:
- Восточная часть США
- Западная часть США2
- Западная Европа
Это содержимое относится к:v4.0 (предварительная версия) | Предыдущие версии:v3.1 (GA)
Это содержимое относится к:v3.1 (GA) | Latest version:v4.0 (предварительная версия)
Модель контракта аналитики документов использует мощные возможности оптического распознавания символов (OCR) для анализа и извлечения ключевых полей и элементов строки из выбранной группы налоговых документов. Налоговые документы могут быть различными форматами и качеством, включая захваченные телефоном изображения, сканированные документы и цифровые PDF-файлы. API анализирует текст документа; извлекает ключевые сведения, такие как имя клиента, адрес выставления счетов, дата выполнения и сумма; и возвращает структурированное представление данных JSON. В настоящее время модель поддерживает определенные форматы документов на английском языке.
Поддерживаемые типы документов:
- W-2
- 1098
- 1098-E
- 1098-T
- 1099 и вариации (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, S)
- 1040 и варианты (расписание 1, расписание 2, расписание 3, расписание 8812, расписание A, Расписание B, Расписание D, Расписание E, Расписание F
EIC
, Расписание F, Расписание H, Расписание J, Расписание R, Расписание R, План SE и Расписание старший)
Автоматическая обработка налоговых документов
Автоматическая обработка налоговых документов — это процесс извлечения ключевых полей из налоговых документов. Исторически налоговые документы обрабатывались вручную. Эта модель позволяет легко автоматизировать налоговые сценарии.
Варианты разработки
Аналитика документов версии 4.0 (2023-10-31-preview) поддерживает следующие средства, приложения и библиотеки:
Функция | Ресурсы | Model ID |
---|---|---|
Модели налоговой формы США | • Аналитика документов• REST API • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для JavaScript |
• prebuilt-tax.us.W-2• prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T • предварительно созданные tax.us.1099A • prebuilt-tax.us.1099B • prebuilt-tax.us.1099C • prebuilt-tax.us.1099CAP • предварительно созданная tax.us.1099DIV • prebuilt-tax.us.1099G • prebuilt-tax.us.1099H • prebuilt-tax.us.1099INT • предварительно созданные tax.us.1099K • prebuilt-tax.us.1099LS • prebuilt-tax.us.1099LTC • prebuilt-tax.us.1099MISC • prebuilt-tax.us.1099NEC• prebuilt-tax.us.1099OID • prebuilt-tax.us.1099PATR• prebuilt-tax.us.1099Q • prebuilt-tax.us.1099QA • prebuilt-tax.us.1099R • prebuilt-tax.us.1099S• prebuilt-tax.us.1099S • prebuilt-tax.us.us.. 1099SA • предварительно создано-tax.us.1099SB • prebuilt-tax.us.1040 • prebuilt-tax.us.1040Schedule1 • prebuilt-tax.us.1040Schedule2 • prebuilt-tax.us.1040Schedule3 • prebuilt-tax.us.1040Schedule812 • prebuilt-tax.us.1040ScheduleA • prebuilt-tax.us.1040ScheduleB • prebuilt-tax.us.1040ScheduleC • prebuilt-tax.us.1040ScheduleD • prebuilt-tax.us.1040ScheduleE • prebuilt-tax.us.1040ScheduleE• prebuilt-tax.us.1040ScheduleEIC • prebuilt-tax.us.1040ScheduleF • prebuilt-tax.us.1040ScheduleH • prebuilt-tax.us.1040ScheduleJ • prebuilt-tax.us.1040ScheduleR • prebuilt-tax.us.1040ScheduleSE • prebuilt-tax.us.1040Senior |
Аналитика документов версии 3.1 поддерживает следующие средства, приложения и библиотеки:
Функция | Ресурсы | Model ID |
---|---|---|
Модели налоговой формы США | • Аналитика документов• REST API • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для JavaScript |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
Аналитика документов версии 3.0 поддерживает следующие средства, приложения и библиотеки:
Функция | Ресурсы | Model ID |
---|---|---|
Модели налоговой формы США | • Аналитика документов• REST API • ПАКЕТ SDK для C# • Пакет SDK для Python• Пакет SDK для Java • Пакет SDK java для JavaScript |
• prebuilt-tax.us.W-2 • prebuilt-tax.us.1098 • prebuilt-tax.us.1098E • prebuilt-tax.us.1098T |
Требования к входным данным
Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.
Поддерживаемые форматы файлов:
Модель PDF Изображение:
JPEG/JPG, PNG, BMP, TIFF, HEIFMicrosoft Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX) и HTMLЧитать ✔ ✔ ✔ Макет ✔ ✔ ✔ (2024-02-29-preview, 2023-10-31-preview) Документ общего назначения ✔ ✔ Готовое ✔ ✔ Настраиваемая функция извлечения ✔ ✔ Настраиваемая классификация ✔ ✔ ✔ (2024-02-29-preview) В файлах формата PDF и TIFF обрабатывается до 2000 страниц (с подпиской уровня "Бесплатный" обрабатываются только первые две страницы).
Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ бесплатного уровня (F0).
Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.
Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.
Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту о
8
точке в 150 точек на дюйм (DPI).Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.
Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1G-МБ для нейронной модели.
Для обучения пользовательской модели классификации общий размер обучающих данных составляет
1GB
не более 10 000 страниц.
Попробуйте извлечь данные налогового документа
Узнайте, как данные, включая сведения о клиентах, сведения о поставщике и элементы строки, извлекаются из счетов. Вам потребуются следующие ресурсы:
Подписка Azure — ее можно создать бесплатно.
Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (
F0
), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.
Document Intelligence Studio
На домашней странице Document Intelligence Studio выберите поддерживаемую модель налогового документа.
Вы можете проанализировать пример налогового документа или отправить собственные файлы.
Нажмите кнопку "Выполнить анализ ", а при необходимости настройте параметры анализа:
Поддерживаемые языки и языковые стандарты
См . страницу предварительно созданных моделей для полного списка поддерживаемых языков.
Извлечение полей W-2
Ниже приведены поля, извлеченные из налоговой формы W-2 в ответе выходных данных JSON.
Имя. | Тип | Описание | Пример результата | Иждивенцев |
---|---|---|---|---|
W-2FormVariant |
Строка | Вариант формы IR W-2. Это поле может иметь одно из следующих значений: W-2 , , W-2AS , W-2CM W-2GU илиW-2VI |
W-2 | |
TaxYear |
Число | Форма налогового года | 2021 | |
W2Copy |
Строка | Версия налоговой копии W-2 вместе с напечатанной инструкцией, связанной с этой копией | Копирование : для Администратор социального страхования | |
Employee |
объект | Объект, содержащий номер социального страхования, имя и адрес | ||
ControlNumber |
строка | Контрольный номер W-2. Поле W-2 IRS | 0AB12 D345 7890 | |
Employer |
Object | Объект, содержащий идентификационный номер работодателя, имя и адрес | ||
WagesTipsAndOtherCompensation |
Число | Заработная плата, советы и другая сумма компенсации в долларах США. Поле W-2 IRS 1 | 1234567.89 | |
FederalIncomeTaxWithheld |
Число | Федеральный налог на подоходный налог с удержанной суммой в долларах США. Поле W-2 IRS W-2 | 1234567.89 | |
SocialSecurityWages |
Число | Сумма заработной платы социального страхования в долларах США. Поле W-2 IRS 3 | 1234567.89 | |
SocialSecurityTaxWithheld |
Число | Налог на социальное обеспечение удержанная сумма в долларах США. Поле W-2 IRS 4 | 1234567.89 | |
MedicareWagesAndTips |
Число | Заработная плата Medicare и советы суммы в долларах США. Поле W-2 IRS 5 | 1234567.89 | |
MedicareTaxWithheld |
Число | Налог Medicare удержанной суммы в долларах США. Поле W-2 IRS 6 | 1234567.89 | |
SocialSecurityTips |
Число | Сумма советов социального страхования в долларах США. Поле W-2 IRS 7 | 1234567.89 | |
AllocatedTips |
Число | Выделенные советы в USD. Поле W-2 IRS 8 | 1234567.89 | |
VerificationCode |
Число | Код проверки W-2. Поле W-2 IRS 9 | 1234567.89 | |
DependentCareBenefits |
Число | Сумма пособий по зависимому уходу в ДОЛЛАРАх США. Поле W-2 IRS 10 | 1234567.89 | |
NonQualifiedPlans |
Число | Сумма неквалифицированных планов в долларах США. Поле W-2 IRS 11 | 1234567.89 | |
IsStatutoryEmployee |
Строка | Часть поля IRS W-2 13. Может быть true или false | true | |
IsRetirementPlan |
Строка | Часть поля IRS W-2 13. Может быть true или false | true | |
IsThirdPartySickPay |
Строка | Часть поля IRS W-2 13. Может быть true или false | true | |
Other |
Строка | Содержимое поля W-2 IRS 14 | БОЛЬНЫЕ LV ЗАРАБОТНАЯ ПЛАТА SBJT ДО $ 511/DAY LIMIT 1356 | |
StateTaxInfos |
Массив | Сведения, связанные с налогом штата. содержимое поля IRS W-2 от 15 до 17 | ||
LocaleTaxInfos |
Массив | Сведения, связанные с местным налогом. Содержимое поля IRS W-2 от 18 до 20 |
Извлечение полей 1098
Ниже приведены поля, извлеченные из налоговой формы 1098 в ответе выходных данных JSON. Также поддерживаются формы 1098-T и 1098-E.
Имя. | Тип | Описание | Пример результата |
---|---|---|---|
TaxYear | Число | Форма налогового года | 2021 |
Заемщика | Object | Объект, содержащий TIN, name, address и AccountNumber заемщика | |
Кредитор | Object | Объект, содержащий TIN кредитора, имя, адрес и телефон | |
Ипотечный интерес | Число | Сумма ипотечных процентов, полученная от плательщиков или заемщиков (1) | 1,234,567.89 |
OutstandingMortgagePrincipal | Число | Невыполненные ипотечные кредиты (поле 2) | 1,234,567.89 |
ИпотекаOriginationDate | Дата | Дата происхождения ипотеки (поле 3) | 2022-01-01 |
OverpaidInterestRefund | Число | Сумма возврата суммы переплаченных процентов (поле 4) | 1,234,567.89 |
ИпотекаInsurancePremium | Число | Сумма страховых взносов по ипотеке (поле 5) | 1,234,567.89 |
PointsPaid | Число | Точки, оплачиваемые при покупке основного проживания (Box 6) | 1,234,567.89 |
IsPropertyAddressSameAsBorrower | Строка | Адрес собственности, защищаемой ипотекой, совпадает с адресом электронной почты плательщика или заемщика (поле 7). | true |
PropertyAddress | Строка | Адрес или описание имущества, защищаемого ипотекой (поле 8) | 123 Main St., Redmond WA 98052 |
MortgagedPropertiesCount | Число | Количество ипотечных свойств (поле 9) | 1 |
Другие | Строка | Дополнительные сведения для отчета плательщику (поле 10) | |
RealEstateTax | Число | Налог на недвижимость (поле 1) | 1,234,567.89 |
Дополнительные сведения об осессменте | Строка | Добавлены оценки, сделанные в свойстве (поле 10) | 1,234,567.89 |
ИпотекаAcquisitionDate | Дата | Дата приобретения ипотеки (поле 11) | 2022-01-01 |
Извлечение полей 1099-NEC
Ниже приведены поля, извлеченные из налоговой формы 1099-nec в ответе выходных данных JSON. Поддерживаются и другие варианты 1099.
Имя. | Тип | Описание | Пример результата |
---|---|---|---|
TaxYear |
Строка | Налоговый год, извлеченный из формы 1099-NEC. | 2021 |
Payer |
Object | Объект, содержащий TIN, name, address и Телефон Number плательщика | |
Recipient |
Object | Объект, содержащий TIN получателя, имя, адрес и accountNumber | |
Box1 |
number | Поле 1, извлеченное из формы 1099-NEC. | 123456 |
Box2 |
boolean | Поле 2, извлеченное из формы 1099-NEC. | true |
Box4 |
number | Поле 4, извлеченное из формы 1099-NEC. | 123456 |
StateTaxesWithheld |
array | Государственные налоги, извлеченные из формы 1099-NEC (коробки 5, 6 и 7) |
Форма извлечения полей 1040
Ниже приведены поля, извлеченные из налоговой формы 1040 в ответе выходных данных JSON. Поддерживаются и другие варианты 1040.
Имя. | Тип | Описание | Пример результата |
---|---|---|---|
TaxPayer |
Object | Объект, содержащий сведения о налогоплательщике, такие как SSN, фамилия и адрес | |
Spouse |
Object | Объект, содержащий сведения о супруге, такие как SSN, фамилия и имя и инициалы Name | |
Dependents |
array | Массив, содержащий список зависимых, включая такие сведения, как Имя, SSN и Тип кредита | |
ThirdPartyDesignee |
объект | Объект, содержащий сведения о стороннем конструкторе | |
SignatureDetails |
объект | Объект, содержащий сведения о подписывшем, например номерах телефонов и сообщениях электронной почты | |
PaidPreparer |
объект | Объект, содержащий сведения о подготовке. | |
FillingStatus |
Строка | Значение может быть одним из noSelection, single, marriedFilingJointly, marriedFillingSeparately, headOfHousehold, квалификацииSurviingSpouse или multiSelection. | отдельный |
FilingStatusDetails |
объект | Объект, содержащий сведения о состоянии подачи. | |
NameOfSpouseOrQualifyingPerson |
Строка | Имя супруга или квалифицированного лица, извлеченного из формы 1040. | Dmitry Gornozhenko |
PresidentialElectionCampaign |
Строка | Значение может быть одним из noSelection, налогоплательщик, супруг или multiSelection. | Налогоплательщик |
PresidentialElectionCampaignDetails |
объект | Объект, содержащий сведения о президентской избирательной кампании. | |
DigitalAssets |
Строка | Значение может быть одним из noSelection, да, нет или multiSelection. | yes |
DigitalAssetsDetails |
объект | Объект, содержащий сведения о цифровых ресурсах. | |
ClaimStatus |
Строка | Значение может быть одним из noSelection, налогоплательщикAsDependent, супругAsDependent, супругItemizesSeparatelyOrDualStatusAlien или multiSelection. | налогоплательщикAsDependent |
ClaimStatusDetails |
объект | Объект, содержащий сведения о состоянии утверждения. | |
TaxpayerAgeBlindness |
Строка | Значение может быть одним из noSelection, above64 blind или multiSelection. |
выше64 |
TaxPayerAgeBlindnessDetails |
объект | Объект, содержащий сведения о налогоплательщике возраст слепоты. | |
SpouseAgeBlindness |
Строка | Значение может быть одним из noSelection, above64 blind или multiSelection. |
выше64 |
TaxPayerAgeBlindnessDetails |
объект | Объект, содержащий сведения о слепоте супругов. | |
MoreThanFourDependents |
boolean | Более четырех зависимых, извлеченных из формы 1040. | true |
Box1a |
number | Поле 1a , извлеченное из 1040. |
123456 |
На основе предоставленной структуры JSON и ее преобразования в тот же формат таблицы, что и запрошенный, результат выглядит следующим образом: | |||
Box1b |
number | Поле 1b , извлеченное из 1040. |
123456 |
Box1c |
number | Поле 1c , извлеченное из 1040. |
123456 |
Box1d |
number | Поле 1d , извлеченное из 1040. |
123456 |
Box1e |
number | Поле 1e , извлеченное из 1040. |
123456 |
Box1f |
number | Поле 1f , извлеченное из 1040. |
123456 |
Box1g |
number | Поле 1g , извлеченное из 1040. |
123456 |
Box1h |
number | Поле 1h , извлеченное из 1040. |
123456 |
Box1i |
number | Поле 1i , извлеченное из 1040. |
123456 |
Box1z |
number | Поле 1z , извлеченное из 1040. |
123456 |
Box2a |
number | Поле 2a , извлеченное из 1040. |
123456 |
Box2b |
number | Поле 2b , извлеченное из 1040. |
123456 |
Box3a |
number | Поле 3a , извлеченное из 1040. |
123456 |
Box3b |
number | Поле 3b , извлеченное из 1040. |
123456 |
Box4a |
number | Поле 4a , извлеченное из 1040. |
123456 |
Box4b |
number | Поле 4b , извлеченное из 1040. |
123456 |
Box5a |
number | Поле 5a , извлеченное из 1040. |
123456 |
Box5b |
number | Поле 5b , извлеченное из 1040. |
123456 |
Box6a |
number | Поле 6a , извлеченное из 1040. |
123456 |
Box6b |
number | Поле 6b , извлеченное из 1040. |
123456 |
Box6cCheckbox |
boolean | Флажок 6c , извлеченный из 1040. |
true |
Box7Checkbox |
boolean | Флажок 7, извлеченный из 1040. | true |
Box7 |
number | Поле 7, извлеченное из 1040. | 123456 |
Box8 |
number | Поле 8 извлечено из 1040. | 123456 |
Box9 |
number | Поле 9, извлеченное из 1040. | 123456 |
Box10 |
number | Поле 10 извлечено из 1040. | 123456 |
Box11 |
number | Поле 11, извлеченное из 1040. | 123456 |
Box12 |
number | Поле 12, извлеченное из 1040. | 123456 |
Box13 |
number | Поле 13 извлечено из 1040. | 123456 |
Box14 |
number | Поле 14 извлечено из 1040. | 123456 |
Box15 |
number | Поле 15 извлечено из 1040. | 123456 |
Box16FromForm |
строка | Значение может быть одним из noSelection, 8814, 4972, другим или multiSelection. | 8814 |
Box16FromFormDetails |
объект | Объект, содержащий сведения о Box 16 | |
Box16OtherFormNumber |
строка | Поле 16 Другие номера формы, извлеченные из 1040. | 8888 |
Box16 |
number | Поле 16 извлечено из 1040. | 123456 |
Box17 |
number | Поле 17 извлечено из 1040. | 123456 |
Box18 |
number | Поле 18 извлечено из 1040. | 123456 |
Box19 |
number | Поле 19 извлечено из 1040. | 123456 |
Box20 |
number | Поле 20 извлечено из 1040. | 123456 |
Box21 |
number | Поле 21, извлеченное из 1040. | 123456 |
Box22 |
number | Поле 22, извлеченное из 1040. | 123456 |
Box23 |
number | Поле 23, извлеченное из 1040. | 123456 |
Box24 |
number | Поле 24 извлечено из 1040. | 123456 |
Box25a |
number | Поле 25a , извлеченное из 1040. |
123456 |
Box25b |
number | Поле 25b , извлеченное из 1040. |
123456 |
Box25c |
number | Поле 25c , извлеченное из 1040. |
123456 |
Box25d |
number | Поле 25d , извлеченное из 1040. |
123456 |
Box26 |
number | Поле 26 извлечено из 1040. | 123456 |
Box27 |
number | Поле 27 извлечено из 1040. | 123456 |
Box28 |
number | Поле 28 извлечено из 1040. | 123456 |
Box29 |
number | Box 29, извлеченный из 1040. | 123456 |
Box31 |
number | Поле 31, извлеченное из 1040. | 123456 |
Box32 |
number | Поле 32, извлеченное из 1040. | 123456 |
Box33 |
number | Поле 33, извлеченное из 1040. | 123456 |
Box34 |
number | Поле 34, извлеченное из 1040. | 123456 |
Box35Checkbox |
boolean | Флажок 35 извлечен из 1040. | true |
Box35a |
number | Поле 35a , извлеченное из 1040. |
123456 |
Box35b |
number | Поле 35b , извлеченное из 1040. |
123456 |
Box35c |
строка | Значение может быть одним из noSelection, проверка ing, экономии или multiSelection. | проверка |
Box35cDetails |
объект | Объект, содержащий сведения о Box 35c |
|
Box35d |
number | Поле 35d , извлеченное из 1040. |
123456 |
Box36 |
number | Поле 36 извлечено из 1040. | 123456 |
Box37 |
number | Поле 37 извлечено из 1040. | 123456 |
Box38 |
number | Поле 38 извлечено из 1040. | 123456 |
HasAssignedThirdPartyDesignee |
строка | Значение может быть одним из noSelection, да, нет или multiSelection. | yes |
HasAssignedThirdPartyDesigneeDetails |
объект | Объект, содержащий сведения о том, что было выбрано для назначенного стороннего конструктора |
Пары "ключ-значение" и извлеченные элементы строки налоговых документов находятся в documentResults
разделе выходных данных JSON.
Следующие шаги
Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio.
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.