Modele dokumentów podatkowych analizy dokumentów amerykańskich

Ważne

  • Publiczne wersje zapoznawcze analizy dokumentów zapewniają wczesny dostęp do funkcji, które są aktywnie opracowywane.
  • Funkcje, podejścia i procesy mogą ulec zmianie przed ogólną dostępnością na podstawie opinii użytkowników.
  • Publiczna wersja zapoznawcza bibliotek klienckich usługi Document Intelligence jest domyślna dla interfejsu API REST w wersji 2024-02-29-preview.
  • Publiczna wersja zapoznawcza 2024-02-29-preview jest obecnie dostępna tylko w następujących regionach świadczenia usługi Azure:
  • Wschodnie stany USA
  • Zachodnie stany USA 2
  • Europa Zachodnia

Ta zawartość dotyczy:Znacznikv4.0 (wersja zapoznawcza) | Poprzednie wersje:niebieski znacznik wyboruv3.1 (ogólna dostępność)

Ta zawartość dotyczy wersji:v3.1 (GA) | Najnowsza wersja:Znacznikpurpurowy znacznik wyboruv4.0 (wersja zapoznawcza)

Model kontraktu analizy dokumentów wykorzystuje zaawansowane funkcje optycznego rozpoznawania znaków (OCR) do analizowania i wyodrębniania kluczowych pól i elementów liniowych z wybranej grupy dokumentów podatkowych. Dokumenty podatkowe mogą mieć różne formaty i jakość, w tym obrazy przechwycone przez telefon, zeskanowane dokumenty i cyfrowe pliki PDF. Interfejs API analizuje tekst dokumentu; Wyodrębnia kluczowe informacje, takie jak nazwa klienta, adres rozliczeniowy, data ukończenia i kwota należna; funkcja zwraca ustrukturyzowaną reprezentację danych JSON. Model obsługuje obecnie niektóre angielskie formaty dokumentów podatkowych.

Obsługiwane typy dokumentów:

  • W-2
  • 1098
  • 1098-E
  • 1098-T
  • 1099 i odmiany (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)
  • 1040 i odmiany (Harmonogram 1, Harmonogram 2, Harmonogram 3, Harmonogram 8812, Harmonogram A, Harmonogram B, Harmonogram C, Harmonogram D, Harmonogram E EIC, Harmonogram F, Harmonogram H, Harmonogram J, Harmonogram R, Harmonogram SE i Harmonogram starszy)

Automatyczne przetwarzanie dokumentów podatkowych

Zautomatyzowane przetwarzanie dokumentów podatkowych to proces wyodrębniania pól kluczy z dokumentów podatkowych. W przeszłości dokumenty podatkowe były przetwarzane ręcznie. Ten model umożliwia łatwą automatyzację scenariuszy podatkowych.

Opcje programowania

Analiza dokumentów w wersji 4.0 (2023-10-31-preview) obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja Zasoby Model ID
Modele formularzy podatkowych w USA • Document Intelligence Studio
REST API
C# SDK
Python SDK• Java SDK
JavaScript SDK
• wstępnie utworzony podatek.us.W-2
• wstępnie utworzony podatek.us.1098
• wstępnie utworzony podatek.us.1098E
• wstępnie utworzony podatek.us.1098T
• wstępnie utworzone tax.us.1099A
• wstępnie utworzony podatek.us.1099B
• wstępnie utworzony podatek.us.1099C
• wstępnie utworzony podatek.us.1099CAP
• wstępnie utworzony tax.us.1099DIV
• wstępnie utworzony podatek.us.1099G
• wstępnie utworzony podatek.us.1099H
• wstępnie utworzony podatek.us.1099INT
• wstępnie utworzone tax.us.1099K
• wstępnie utworzony podatek.us.1099LS
• wstępnie utworzony podatek.us.1099LTC
• wstępnie utworzony podatek.us.1099MISC
• prebuilt-tax.us.1099NEC• prebuilt-tax.us.1099OID
• prebuilt-tax.us.1099PATR
• prebuilt-tax.us.1099Q
• wstępnie utworzony podatek.us.1099QA
• wstępnie utworzony podatek.us.1099R
• wstępnie utworzony podatek.us.1099S
• wstępnie utworzony podatek.us.1099SA
• wstępnie utworzony podatek.us.1099SB
• wstępnie utworzony podatek.us.1040
• wstępnie utworzony podatek.us.1040Schedule1
• wstępnie utworzony podatek.us.1040Schedule2
• wstępnie utworzony podatek.us.1040Schedule3
• wstępnie utworzony podatek.us.1040Schedule8812

prebuilt-tax.us.1040ScheduleA
• prebuilt-tax.us.1040ScheduleB
• prebuilt-tax.us.1040ScheduleC
• prebuilt-tax.us.1040ScheduleD
• prebuilt-tax.us.1040ScheduleE
• prebuilt-tax.us.1040ScheduleEIC
• prebuilt-tax.us.1040ScheduleF
• prebuilt-tax.us.1040ScheduleH
• prebuilt-tax.us.1040ScheduleJ
• prebuilt-tax.us.1040ScheduleR
• prebuilt-tax.us.1040ScheduleSE
• prebuilt-tax.us.1040Senior

Narzędzie Document Intelligence w wersji 3.1 obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja Zasoby Model ID
Modele formularzy podatkowych w USA • Document Intelligence Studio
REST API
C# SDK
Python SDK• Java SDK
JavaScript SDK
• wstępnie utworzony podatek.us.W-2
• wstępnie utworzony podatek.us.1098
• wstępnie utworzony podatek.us.1098E
• wstępnie utworzony podatek.us.1098T

Narzędzie Document Intelligence w wersji 3.0 obsługuje następujące narzędzia, aplikacje i biblioteki:

Funkcja Zasoby Model ID
Modele formularzy podatkowych w USA • Document Intelligence Studio
REST API
C# SDK
Python SDK• Java SDK
JavaScript SDK
• wstępnie utworzony podatek.us.W-2
• wstępnie utworzony podatek.us.1098
• wstępnie utworzony podatek.us.1098E
• wstępnie utworzony podatek.us.1098T

Wymagania dotyczące danych wejściowych

  • Aby uzyskać najlepsze wyniki, podaj jedno jasne zdjęcie lub wysokiej jakości skanowanie na dokument.

  • Obsługiwane formaty plików:

    Model PDF Obraz:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) i HTML
    Przeczytaj
    Układ ✔ (2024-02-29-preview, 2023-10-31-preview)
    Dokument ogólny
    Wstępnie utworzona
    Niestandardowe wyodrębnianie
    Klasyfikacja niestandardowa ✔ (2024-02-29-preview)
  • W przypadku plików PDF i TIFF można przetworzyć maksymalnie 2000 stron (w przypadku subskrypcji w warstwie Bezpłatna przetwarzane są tylko pierwsze dwie strony).

  • Rozmiar pliku do analizowania dokumentów wynosi 500 MB dla warstwy płatnej (S0) i 4 MB za bezpłatną (F0).

  • Wymiary obrazu muszą mieć od 50 x 50 pikseli do 10 000 pikseli x 10 000 pikseli.

  • Jeśli pliki PDF są zablokowane hasłem, przed ich przesłaniem usuń blokadę.

  • Minimalna wysokość tekstu do wyodrębnienia to 12 pikseli dla obrazu o rozmiarze 1024 x 768 pikseli. Ten wymiar odpowiada około 8-point text na 150 kropek na cal (DPI).

  • W przypadku trenowania modelu niestandardowego maksymalna liczba stron dla danych szkoleniowych wynosi 500 dla niestandardowego modelu szablonu i 50 000 dla niestandardowego modelu neuronowego.

    • W przypadku trenowania niestandardowego modelu wyodrębniania łączny rozmiar danych treningowych wynosi 50 MB dla modelu szablonu i 1G-MB dla modelu neuronowego.

    • W przypadku trenowania niestandardowego modelu klasyfikacji całkowity rozmiar danych treningowych wynosi 1GB maksymalnie 10 000 stron.

Wypróbowanie wyodrębniania danych dokumentu podatkowego

Zobacz, jak dane, w tym informacje o kliencie, szczegóły dostawcy i elementy wiersza, są wyodrębniane z faktur. Potrzebne są następujące zasoby:

  • Subskrypcja platformy Azure — możesz utworzyć jedną bezpłatnie.

  • Wystąpienie analizy dokumentów w witrynie Azure Portal. Aby wypróbować usługę, możesz użyć bezpłatnej warstwy cenowej (F0). Po wdrożeniu zasobu wybierz pozycję Przejdź do zasobu , aby uzyskać klucz i punkt końcowy.

Zrzut ekranu przedstawiający klucze i lokalizację punktu końcowego w witrynie Azure Portal.

Document Intelligence Studio

  1. Na stronie głównej Usługi Document Intelligence Studio wybierz obsługiwany model dokumentów podatkowych.

  2. Możesz przeanalizować przykładowy dokument podatkowy lub przekazać własne pliki.

  3. Wybierz przycisk Run analysis (Uruchom analizę), a w razie potrzeby skonfiguruj opcje Analizuj:

    Zrzut ekranu przedstawiający przyciski Run analysis and Analyze (Uruchamianie analizy i analizowanie) w narzędziu Document Intelligence Studio.

Obsługiwane języki i ustawienia regionalne

Zobacz naszą stronę Obsługa języków — wstępnie utworzone modele , aby uzyskać pełną listę obsługiwanych języków.

Wyodrębnianie pól W-2

Poniżej przedstawiono pola wyodrębnione z formularza podatkowego W-2 w odpowiedzi wyjściowej JSON.

Nazwisko Pisz Opis Przykładowe dane wyjściowe Zależności
W-2FormVariant String Wariant formularza środowiska IR W-2. To pole może mieć jedną z następujących wartości: W-2, , W-2ASW-2CM, W-2GUlubW-2VI W-2
TaxYear Liczba Rok podatkowy formularza 2021
W2Copy String Wersja kopii podatkowej W-2 wraz z wydrukowaną instrukcją związaną z tą kopią Kopiowanie A — w przypadku Administracja istration zabezpieczenia społecznego
Employee obiekt Obiekt zawierający numer ubezpieczenia społecznego, nazwę i adres
ControlNumber string Numer kontrolny W-2. Pole IRS W-2 d 0AB12 D345 7890
Employer Objekt Obiekt zawierający numer identyfikacyjny pracodawcy, imię i nazwisko oraz adres
WagesTipsAndOtherCompensation Liczba Płace, porady i inne kwoty odszkodowania w USD. IRS W-2 pole 1 1234567.89
FederalIncomeTaxWithheld Liczba Federalny podatek dochodowy potrącony w USD. IRS W-2 pole 2 1234567.89
SocialSecurityWages Liczba Płace zabezpieczeń społecznych w USD. IRS W-2 pole 3 1234567.89
SocialSecurityTaxWithheld Liczba Podatek od zabezpieczenia społecznego wstrzymany w USD. IRS W-2 pole 4 1234567.89
MedicareWagesAndTips Liczba Płace medicare i porady kwoty w USD. IRS W-2 pole 5 1234567.89
MedicareTaxWithheld Liczba Podatek Medicare wstrzymany w USD. IRS W-2 pole 6 1234567.89
SocialSecurityTips Liczba Kwota porad dotyczących zabezpieczeń społecznych w USD. IRS W-2 pole 7 1234567.89
AllocatedTips Liczba Przydzielone porady w USD. IRS W-2 pole 8 1234567.89
VerificationCode Liczba Kod weryfikacyjny W-2. IRS W-2 pole 9 1234567.89
DependentCareBenefits Liczba Kwota świadczeń opieki zależnej w USD. IRS W-2 pole 10 1234567.89
NonQualifiedPlans Liczba Kwota niekwalifikowanych planów w USD. IRS W-2 pole 11 1234567.89
IsStatutoryEmployee String Część pola IRS W-2 13. Może mieć wartość true lub false prawda
IsRetirementPlan String Część pola IRS W-2 13. Może mieć wartość true lub false prawda
IsThirdPartySickPay String Część pola IRS W-2 13. Może mieć wartość true lub false prawda
Other String Zawartość pola IRS W-2 14 CHORY LV PŁACE SBJT DO 511 DOLARÓW / LIMIT DNIA 1356
StateTaxInfos Tablica Informacje dotyczące podatku od państwa. zawartość pola IRS W-2 od 15 do 17
LocaleTaxInfos Tablica Informacje dotyczące podatków lokalnych. Zawartość pola IRS W-2 od 18 do 20

Wyodrębnianie pól 1098

Poniżej przedstawiono pola wyodrębnione z formularza podatkowego 1098 w odpowiedzi wyjściowej JSON. Obsługiwane są również formularze 1098-T i 1098-E.

Nazwisko Pisz Opis Przykładowe dane wyjściowe
TaxYear Liczba Rok podatkowy formularza 2021
Kredytobiorcy Objekt Obiekt, który zawiera identyfikator TIN kredytobiorcy, nazwę, adres i numer konta
Pożyczkodawcy Objekt Obiekt, który zawiera tin kredytodawcy, imię, adres i telefon
Kredyt hipotecznyInterest Liczba Kwota odsetek hipotecznych otrzymanych od płatników/kredytobiorców (pole 1) 1,234,567.89
OutstandingMortgagePrincipal Liczba Zaległa jednostka kredytu hipotecznego (pole 2) 1,234,567.89
MortgageOriginationDate Data Data pochodzenia kredytu hipotecznego (pole 3) 2022-01-01
OverpaidInterestRefund Liczba Kwota zwrotu zaległych odsetek (pole 4) 1,234,567.89
Kredyt hipotecznyPremium Liczba Kwota składki na ubezpieczenie hipoteczne (pole 5) 1,234,567.89
PointPaid Liczba Punkty płatne przy zakupie głównej rezydencji (Box 6) 1,234,567.89
IsPropertyAddressSameAsBorrower String Czy adres nieruchomości zabezpieczającej kredyt hipoteczny jest taki sam jak adres wysyłkowy płatnika/kredytobiorcy (pole 7) prawda
WłaściwośćAddress String Adres lub opis nieruchomości zabezpieczania kredytu hipotecznego (pole 8) 123 Main St., Redmond WA 98052
MortgagedPropertiesCount Liczba Liczba nieruchomości hipotecznych (pole 9) 1
Inne String Dodatkowe informacje dotyczące zgłaszania płatnika (pole 10)
RealEstateTax Liczba Podatek od nieruchomości (pole 1) 1,234,567.89
Dodatkowassessment String Dodano oceny wykonane we właściwości (pole 10) 1,234,567.89
Kredyt hipotecznyAcquisitionDate data Data nabycia kredytu hipotecznego (pole 11) 2022-01-01

Wyodrębnianie pól 1099-NEC

Poniżej przedstawiono pola wyodrębnione z formularza podatkowego 1099-nec w odpowiedzi wyjściowej JSON. Obsługiwane są również inne odmiany wersji 1099.

Nazwisko Pisz Opis Przykładowe dane wyjściowe
TaxYear String Rok podatkowy wyodrębniony z formularza 1099-NEC. 2021
Payer Objekt Obiekt, który zawiera identyfikator TIN, nazwę, adres i Telefon number płatnika
Recipient Objekt Obiekt, który zawiera identyfikator TIN adresata, nazwę, adres i numer konta
Box1 Liczba Pole 1 wyodrębnione z formularza 1099-NEC. 123456
Box2 boolean Pole 2 wyodrębnione z formularza 1099-NEC. prawda
Box4 Liczba Pole 4 wyodrębnione z formularza 1099-NEC. 123456
StateTaxesWithheld tablica Podatki państwowe wstrzymane z formularza 1099-NEC (pola 5, 6 i 7)

Formularz podatkowy wyodrębniania pola 1040

Poniżej przedstawiono pola wyodrębnione z formularza podatkowego 1040 w odpowiedzi wyjściowej JSON. Obsługiwane są również inne odmiany 1040.

Nazwisko Pisz Opis Przykładowe dane wyjściowe
TaxPayer Objekt Obiekt zawierający informacje podatnika, takie jak SSN, Nazwisko i Adres
Spouse Objekt Obiekt, który zawiera informacje współmałżonka, takie jak SSN, nazwisko, imię i imię i inicjały Imię i Nazwisko
Dependents tablica Tablica zawierająca listę zależnych, w tym informacje, takie jak Nazwa, SSN i Typ środków
ThirdPartyDesignee obiekt Obiekt zawierający informacje o projekcie innej firmy
SignatureDetails obiekt Obiekt zawierający informacje o podpisie, takie jak numery telefonów i wiadomości e-mail
PaidPreparer obiekt Obiekt zawierający informacje o przygotowaniu.
FillingStatus String Wartość może być jedną z noSelection, single, marriedFilingJointly, marriedFillingSeparately, headOfHousehold, kwalifikacjeSurvivingSpouse lub multiSelection. single
FilingStatusDetails obiekt Obiekt zawierający informacje o stanie zgłoszenia.
NameOfSpouseOrQualifyingPerson String Nazwisko małżonka lub osoby kwalifikującej się wyodrębnione z formularza 1040. John Smith
PresidentialElectionCampaign String Wartość może być jedną z wartości noSelection, podatnika, małżonka lub multiSelection. Podatnik
PresidentialElectionCampaignDetails obiekt Obiekt zawierający szczegółowe informacje na temat kampanii wyborczej na prezydenta.
DigitalAssets String Wartość może być jedną z wartości noSelection, yes, no lub multiSelection. tak
DigitalAssetsDetails obiekt Obiekt zawierający szczegółowe informacje o zasobach cyfrowych.
ClaimStatus String Wartość może być jedną z wartości noSelection, podatnikAsDependent, małżonkaDependent, małżonkaItemizesSeparatelyOrDualStatusAlien lub multiSelection. podatnikAsDependent
ClaimStatusDetails obiekt Obiekt zawierający szczegółowe informacje o stanie oświadczenia.
TaxpayerAgeBlindness String Wartość może być jedną z wartości noSelection, , above64blind lub multiSelection. powyżej 64
TaxPayerAgeBlindnessDetails obiekt Obiekt zawierający szczegółowe informacje na temat ślepoty wieku podatnika.
SpouseAgeBlindness String Wartość może być jedną z wartości noSelection, , above64blind lub multiSelection. powyżej 64
TaxPayerAgeBlindnessDetails obiekt Obiekt zawierający szczegółowe informacje na temat ślepoty wieku małżonka.
MoreThanFourDependents boolean Więcej niż cztery zależności wyodrębnione z formularza 1040. prawda
Box1a Liczba Pole 1a wyodrębnione z 1040. 123456
Na podstawie podanej struktury JSON i przekonwertowania jej na taki sam format tabeli, jak żądano, wynik wygląda następująco:
Box1b Liczba Pole 1b wyodrębnione z 1040. 123456
Box1c Liczba Pole 1c wyodrębnione z 1040. 123456
Box1d Liczba Pole 1d wyodrębnione z 1040. 123456
Box1e Liczba Pole 1e wyodrębnione z 1040. 123456
Box1f Liczba Pole 1f wyodrębnione z 1040. 123456
Box1g Liczba Pole 1g wyodrębnione z 1040. 123456
Box1h Liczba Pole 1h wyodrębnione z 1040. 123456
Box1i Liczba Pole 1i wyodrębnione z 1040. 123456
Box1z Liczba Pole 1z wyodrębnione z 1040. 123456
Box2a Liczba Pole 2a wyodrębnione z 1040. 123456
Box2b Liczba Pole 2b wyodrębnione z 1040. 123456
Box3a Liczba Pole 3a wyodrębnione z 1040. 123456
Box3b Liczba Pole 3b wyodrębnione z 1040. 123456
Box4a Liczba Pole 4a wyodrębnione z 1040. 123456
Box4b Liczba Pole 4b wyodrębnione z 1040. 123456
Box5a Liczba Pole 5a wyodrębnione z 1040. 123456
Box5b Liczba Pole 5b wyodrębnione z 1040. 123456
Box6a Liczba Pole 6a wyodrębnione z 1040. 123456
Box6b Liczba Pole 6b wyodrębnione z 1040. 123456
Box6cCheckbox boolean Pole 6c wyboru wyodrębnione z wersji 1040. prawda
Box7Checkbox boolean Pole wyboru 7 wyodrębnione z 1040. prawda
Box7 Liczba Pole 7 wyodrębnione z 1040 r. 123456
Box8 Liczba Pole 8 wyodrębnione z 1040. 123456
Box9 Liczba Pole 9 wyodrębnione z 1040 r. 123456
Box10 Liczba Pole 10 wyodrębnione z 1040 r. 123456
Box11 Liczba Pole 11 wyodrębnione z 1040 r. 123456
Box12 Liczba Pole 12 wyodrębnione z 1040 r. 123456
Box13 Liczba Pole 13 wyodrębnione z 1040 r. 123456
Box14 Liczba Pole 14 wyodrębnione z 1040 r. 123456
Box15 Liczba Pole 15 wyodrębnione z 1040 r. 123456
Box16FromForm string Wartość może być jedną z wartości noSelection, 8814, 4972 lub multiSelection. 8814
Box16FromFormDetails obiekt Obiekt zawierający szczegółowe informacje o polu 16
Box16OtherFormNumber string Pole 16 Inny numer formularza wyodrębniony z 1040. 8888
Box16 Liczba Pole 16 wyodrębnione z 1040 r. 123456
Box17 Liczba Pole 17 wyodrębnione z 1040 r. 123456
Box18 Liczba Pole 18 wyodrębnione z 1040 r. 123456
Box19 Liczba Pole 19 wyodrębnione z 1040 r. 123456
Box20 Liczba Pole 20 wyodrębnione z 1040 r. 123456
Box21 Liczba Pole 21 wyodrębnione z 1040 r. 123456
Box22 Liczba Pole 22 wyodrębnione z 1040 r. 123456
Box23 Liczba Pole 23 wyodrębnione z 1040 r. 123456
Box24 Liczba Pole 24 wyodrębnione z 1040 r. 123456
Box25a Liczba Pole 25a wyodrębnione z 1040. 123456
Box25b Liczba Pole 25b wyodrębnione z 1040. 123456
Box25c Liczba Pole 25c wyodrębnione z 1040. 123456
Box25d Liczba Pole 25d wyodrębnione z 1040. 123456
Box26 Liczba Pole 26 wyodrębnione z 1040 r. 123456
Box27 Liczba Pole 27 wyodrębnione z 1040 r. 123456
Box28 Liczba Pole 28 wyodrębnione z 1040 r. 123456
Box29 Liczba Pole 29 wyodrębnione z 1040 r. 123456
Box31 Liczba Pole 31 wyodrębnione z 1040 r. 123456
Box32 Liczba Pole 32 wyodrębnione z 1040 r. 123456
Box33 Liczba Pole 33 wyodrębnione z 1040 r. 123456
Box34 Liczba Pole 34 wyodrębnione z 1040 r. 123456
Box35Checkbox boolean Pole wyboru 35 wyodrębnione z 1040. prawda
Box35a Liczba Pole 35a wyodrębnione z 1040. 123456
Box35b Liczba Pole 35b wyodrębnione z 1040. 123456
Box35c string Wartość może być jedną z wartości noSelection, sprawdzanie, oszczędności lub multiSelection. sprawdzanie
Box35cDetails obiekt Obiekt zawierający szczegółowe informacje o usłudze Box 35c
Box35d Liczba Pole 35d wyodrębnione z 1040. 123456
Box36 Liczba Pole 36 wyodrębnione z 1040 r. 123456
Box37 Liczba Pole 37 wyodrębnione z 1040 r. 123456
Box38 Liczba Pole 38 wyodrębnione z 1040 r. 123456
HasAssignedThirdPartyDesignee string Wartość może być jedną z wartości noSelection, yes, no lub multiSelection. tak
HasAssignedThirdPartyDesigneeDetails obiekt Obiekt zawierający informacje o tym, co zostało wybrane dla przypisanego obiektu projektowego innej firmy

Pary klucz-wartość dokumentów podatkowych i wyodrębnione elementy wiersza znajdują się w documentResults sekcji danych wyjściowych JSON.

Następne kroki