Modèle de documents fiscaux américains d’Intelligence documentaire

Important

  • Les mises en production de préversion publique Document Intelligence fournissent un accès anticipé aux fonctionnalités en cours de développement actif.
  • Les fonctionnalités, approches et processus peuvent changer, avant la disponibilité générale (GA), en fonction des commentaires des utilisateurs.
  • La version d'aperçu publique des bibliothèques clientes Document Intelligence est par défaut la version 2024-02-29-preview de l'API REST.
  • La version d’évaluation publique 2024-02-29-preview est actuellement disponible uniquement dans les régions Azure suivantes :
  • USA Est
  • USA Ouest 2
  • Europe Ouest

Ce contenu s’applique à :cochev4.0 (préversion) | Versions précédentes :coche-bleuev3.1 (GA)

Ce contenu s’applique à :cochev3.1 (GA) | Dernière version :coche-violettev4.0 (préversion)

Le modèle de contrats Intelligence documentaire utilise de puissantes fonctionnalités de reconnaissance optique de caractères (OCR) pour analyser et extraire des champs clés et des éléments de ligne à partir d’un groupe de documents fiscaux sélectionné. Les documents fiscaux peuvent être de formats et de qualités divers, notamment des images capturées par téléphone, des documents numérisés et des fichiers PDF. L’API analyse le texte du document, extrait les informations clés, telles que le nom du client, l’adresse de facturation, la date d’échéance et le montant dû, et renvoie une représentation structurée des données JSON. Le modèle prend actuellement en charge certains formats de documents fiscaux en anglais.

Types de documents pris en charge :

  • W-2
  • 1098
  • 1098-E
  • 1098-T
  • 1099 et variantes (A, B, C, CAP, DIV, G, H, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, QA, R, S, SA, SB)
  • 1040 et variantes (Planification 1, Planification 2, Planification 3, Planification 8812, Planification A, Planification B, Planification C, Planification D, Planification E, Planification EIC, Planification F, Planification H, Planification J, Planification R, Planification SE et Planification Senior)

Gestion automatisée des documents fiscaux

Le traitement automatisé des documents fiscaux est le processus d’extraction de champs clés à partir de documents fiscaux. Historiquement, les documents fiscaux étaient traités manuellement. Ce modèle permet d’automatiser facilement les scénarios fiscaux.

Options de développement

Intelligence documentaire v4.0 (31-10-2023-prévision) prend en charge les outils, applications et bibliothèques suivants :

Fonction Ressources ID de modèle
Modèles de formulaires fiscaux américains Document Intelligence Studio
API REST
Kit de développement logiciel (SDK) C#
Kit de développement logiciel (SDK) Python
Kit de développement logiciel (SDK) Java
Kit de développement logiciel (SDK) JavaScript
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T
• prebuilt-tax.us.1099A
• prebuilt-tax.us.1099B
• prebuilt-tax.us.1099C
• prebuilt-tax.us.1099CAP
• prebuilt-tax.us.1099DIV
• prebuilt-tax.us.1099G
• prebuilt-tax.us.1099H
• prebuilt-tax.us.1099INT
• prebuilt-tax.us.1099K
• prebuilt-tax.us.1099LS
• prebuilt-tax.us.1099LTC
• prebuilt-tax.us.1099MISC
• prebuilt-tax.us.1099NEC
• prebuilt-tax.us.1099OID
• prebuilt-tax.us.1099PATR
• prebuilt-tax.us.1099Q
• prebuilt-tax.us.1099QA
• prebuilt-tax.us.1099R
• prebuilt-tax.us.1099S
• prebuilt-tax.us.1099SA
• prebuilt-tax.us.1099SB
• prebuilt-tax.us.1040
• prebuilt-tax.us.1040Schedule1
• prebuilt-tax.us.1040Schedule2
• prebuilt-tax.us.1040Schedule3
• prebuilt-tax.us.1040Schedule8812
• prebuilt-tax.us.1040ScheduleA
• prebuilt-tax.us.1040ScheduleB
• prebuilt-tax.us.1040ScheduleC
• prebuilt-tax.us.1040ScheduleD
• prebuilt-tax.us.1040ScheduleE
• prebuilt-tax.us.1040ScheduleEIC
• prebuilt-tax.us.1040ScheduleF
• prebuilt-tax.us.1040ScheduleH
• prebuilt-tax.us.1040ScheduleJ
• prebuilt-tax.us.1040ScheduleR
• prebuilt-tax.us.1040ScheduleSE
• prebuilt-tax.us.1040Senior

Intelligence documentaire v3.1 prend en charge les outils, applications et bibliothèques suivants :

Fonction Ressources ID de modèle
Modèles de formulaires fiscaux américains Document Intelligence Studio
API REST
Kit de développement logiciel (SDK) C#
Kit de développement logiciel (SDK) Python
Kit de développement logiciel (SDK) Java
Kit de développement logiciel (SDK) JavaScript
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Intelligence documentaire v3.0 prend en charge les outils, applications et bibliothèques suivants :

Fonction Ressources ID de modèle
Modèles de formulaires fiscaux américains Document Intelligence Studio
API REST
Kit de développement logiciel (SDK) C#
Kit de développement logiciel (SDK) Python
Kit de développement logiciel (SDK) Java
Kit de développement logiciel (SDK) JavaScript
• prebuilt-tax.us.W-2
• prebuilt-tax.us.1098
• prebuilt-tax.us.1098E
• prebuilt-tax.us.1098T

Critères des entrées

  • Pour de meilleurs résultats, fournissez une photo nette ou une copie de qualité par document.

  • Formats de fichiers pris en charge :

    Modèle PDF Image :
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office :
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) et HTML
    Lire
    Layout ✔ (2024-02-29-preview, 2023-10-31-preview)
    Document général
    Prédéfinie
    Extraction personnalisée
    Classification personnalisée ✔ (2024-02-29-preview)
  • Pour PDF et TIFF, il est possible de traiter jusqu’à 2 000 pages (avec un abonnement gratuit, seules les deux premières pages sont traitées).

  • La taille de fichier pour l’analyse des documents est de 500 Mo pour le niveau payant (S0) et de 4 Mo pour le niveau gratuit (F0).

  • Les dimensions des images doivent être comprises entre 50 x 50 et 10 000 x 10 000 pixels.

  • Si vos fichiers PDF sont verrouillés par mot de passe, vous devez supprimer le verrou avant leur envoi.

  • La hauteur minimale du texte à extraire est de 12 pixels pour une image de 1024 x 768 pixels. Cette dimension correspond à environ 8 points de texte à 150 points par pouce (PPP).

  • Pour la formation de modèles personnalisés, le nombre maximal de pages pour les données de formation est de 500 pour le modèle personnalisé et 50 000 pour le modèle neural personnalisé.

    • Pour l’entraînement du modèle d’extraction personnalisé, la taille totale des données d’entraînement est de 50 Mo pour le modèle et 1G-Mo pour le modèle neural.

    • Pour l’entraînement du modèle de classification personnalisée, la taille totale des données de formation est 1GB, avec un maximum à 10 000 pages.

Essayer l’extraction de données de documents fiscaux

Découvrez comment les données, y compris les informations sur les clients, les détails du fournisseur et les articles, sont extraites des factures. Vous avez besoin des ressources suivantes :

  • Un abonnement Azure. Vous pouvez en créer un gratuitement.

  • Instance Intelligence documentaire dans le Portail Azure. Vous pouvez utiliser le niveau tarifaire gratuit (F0) pour tester le service. Une fois votre ressource déployée, sélectionnez Accéder à la ressource pour accéder à la clé et au point de terminaison.

Capture d’écran de l’emplacement des clés et des points de terminaison dans le Portail Azure.

Document Intelligence Studio

  1. Dans la page d’accueil d’Intelligence documentaire Studio, sélectionnez le modèle de document fiscal pris en charge.

  2. Vous pouvez analyser un exemple de document fiscal ou charger vos propres fichiers.

  3. Sélectionnez le bouton Exécuter l’analyse et, si nécessaire, configurez les Options d’analyse :

    Capture d’écran des boutons Exécuter l’analyse et Options d’analyse dans Document Intelligence Studio.

Langues et régions prises en charge

Pour obtenir la liste complète des langues prises en charge, consultez notre page Prise en charge des langues : Modèles prédéfinis.

Extraction de champ W-2

Voici les champs extraits d’un formulaire fiscal W-2 dans la réponse de sortie JSON.

Nom Type Description Exemple de sortie dépendants
W-2FormVariant Chaîne Variante de formulaire IR W-2. Ce champ peut avoir l’une des valeurs suivantes : W-2, W-2AS, W-2CM, W-2GU ou W-2VI W-2
TaxYear Numéro Année fiscale du formulaire 2021
W2Copy Chaîne Version de copie fiscale W-2 et instructions imprimées relatives à cette copie Copie A pour l’administration de la sécurité sociale
Employee object Objet qui contient le numéro de sécurité sociale, le nom et l’adresse
ControlNumber string Numéro de contrôle W-2. Champ IRS W-2 d 0AB12 D345 7890
Employer Object Objet qui contient le numéro d’identification, le nom et l’adresse de l’employeur
WagesTipsAndOtherCompensation Number Montant des salaires, pourboires et autres compensation en USD. Champ IRS W-2 1 1234567,89
FederalIncomeTaxWithheld Numéro Montant de l’impôt sur le revenu fédéral retenu en USD. Champ IRS W-2 2 1234567,89
SocialSecurityWages Numéro Montant des prestations sociales en USD. Champ IRS W-2 3 1234567,89
SocialSecurityTaxWithheld Numéro Montant de l’impôt sur les prestations sociales retenu en USD. Champ IRS W-2 4 1234567,89
MedicareWagesAndTips Numéro Montant des revenus Medicare et pourboires en USD. Champ IRS W-2 5 1234567,89
MedicareTaxWithheld Numéro Montant de l’impôt sur les revenus Medicare retenu en USD. Champ IRS W-2 6 1234567,89
SocialSecurityTips Numéro Montant des pourboires de sécurité sociale en USD. Champ IRS W-2 7 1234567,89
AllocatedTips Numéro Pourboires alloués en USD. Champ IRS W-2 8 1234567,89
VerificationCode Numéro Code de vérification W-2. Champ IRS W-2 9 1234567,89
DependentCareBenefits Numéro Montant des prestations pour personnes à charge en USD. Champ IRS W-2 10 1234567,89
NonQualifiedPlans Numéro Montant des plans non qualifiés en USD. Champ IRS W-2 11 1234567,89
IsStatutoryEmployee Chaîne Partie du champ IRS W-2 13. Peut être true ou false true
IsRetirementPlan Chaîne Partie du champ IRS W-2 13. Peut être true ou false true
IsThirdPartySickPay Chaîne Partie du champ IRS W-2 13. Peut être true ou false true
Other Chaîne Contenu du champ IRS W-2 14 SICK LV WAGES SBJT TO $511/DAY LIMIT 1356
StateTaxInfos Tableau Informations fiscales d’État. contenu du champ IRS W-2 15 à 17
LocaleTaxInfos Tableau Informations fiscales locales. Contenu du champ IRS W-2 18 à 20

Extraction de champ 1098

Voici les champs extraits d’un formulaire fiscal 1098 dans la réponse de sortie JSON. Les formulaires 1098-T et 1098-E sont aussi pris en charge.

Nom Type Description Exemple de sortie
TaxYear Numéro Année fiscale du formulaire 2021
Emprunteur Objet Objet qui contient le TIN, le nom, l’adresse et le numéro de compte de l’emprunteur
Prêteur Objet Objet qui contient le TIN, le nom, l’adresse et le téléphone du prêteur
MortgageInterest Number Montant des intérêts hypothécaires reçus du ou des débiteurs/emprunteurs (case 1) 1 234 567,89
OutstandingMortgagePrincipal Numéro Principal hypothécaire impayé (case 2) 1 234 567,89
MortgageOriginationDate Date Date d’origine de l’hypothèque (case 3) 2022-01-01
OverpaidInterestRefund Numéro Montant du remboursement des intérêts surpayés (case 4) 1 234 567,89
MortgageInsurancePremium Numéro Montant de la prime d’assurance hypothécaire (case 5) 1 234 567,89
PointsPaid Numéro Points payés à l’achat de la résidence principale (case 6) 1 234 567,89
IsPropertyAddressSameAsBorrower Chaîne L’adresse de la propriété garantissant l’hypothèque est-elle identique à l’adresse postale du débiteur/de l’emprunteur (case 7) true
PropertyAddress Chaîne Adresse ou description de la propriété garantissant l’hypothèque (case 8) 123 Main St Redmond WA 98052
MortgagedPropertiesCount Numéro Nombre de propriétés hypothéquées (case 9) 1
Autres Chaîne Informations supplémentaires à signaler au débiteur (case 10)
RealEstateTax Numéro Taxe immobilière (case 1) 1 234 567,89
AdditionalAssessment Chaîne Évaluations supplémentaires effectuées sur la propriété (case 10) 1 234 567,89
MortgageAcquisitionDate date Date d’acquisition de l’hypothèque (case 11) 2022-01-01

Extraction du champ 1099-NEC

Voici les champs extraits d’un formulaire fiscal 1099-nec dans la réponse de sortie JSON. Les autres variantes de 1099 sont aussi prises en charge.

Nom Type Description Exemple de sortie
TaxYear Chaîne Année fiscale extraite du formulaire 1099-NEC. 2021
Payer Objet Objet qui contient le TIN, le nom, l’adresse et le numéro de téléphone du payeur
Recipient Objet Objet qui contient le TIN, le nom, l’adresse et le numéro de compte du destinataire
Box1 number Box1 extrait du formulaire 1099-NEC. 123456
Box2 boolean Box2 extrait du formulaire 1099-NEC. true
Box4 number Box4 extrait du formulaire 1099-NEC. 123456
StateTaxesWithheld tableau Impôts nationaux retenus extraits du formulaire 1099-NEC (cases 5, 6 et 7)

Extraction de champ du formulaire fiscal 1040

Voici les champs extraits d’un formulaire fiscal 1040 dans la réponse de sortie JSON. Les autres variantes de 1040 sont également prises en charge.

Nom Type Description Exemple de sortie
TaxPayer Object Objet qui contient les informations du contribuable telles que le numéro de sécurité sociale (USA), le nom de famille et l’adresse
Spouse Object Objet qui contient les informations du conjoint telles que le numéro de sécurité sociale (USA), nom et prénom et les initiales
Dependents tableau Tableau qui comprend une liste de dépendances, notamment des informations telles que le nom, le numéro de sécurité sociale (USA) et le type de crédit
ThirdPartyDesignee object Objet qui contient des informations sur le destinataire tiers
SignatureDetails object Objet qui contient des informations sur le signataire, tels que le numéro de téléphone et l’adresse e-mail
PaidPreparer object Objet qui contient des informations sur le préparateur.
FillingStatus Chaîne La valeur peut être noSelection, single, marriedFilingJointly, marriedFillingSeparately, headOfHousehold, qualifyingSurvivingSpouse ou multiSelection. single
FilingStatusDetails object Objet qui contient des informations sur l’état de la déclaration.
NameOfSpouseOrQualifyingPerson Chaîne Nom du conjoint ou de la personne éligible extraite du formulaire 1040. John Smith
PresidentialElectionCampaign Chaîne La valeur peut être noSelection, taxpayer, spouse, ou multiSelection. Taxpayer
PresidentialElectionCampaignDetails object Objet qui contient des détails sur la campagne électorale présidentielle.
DigitalAssets Chaîne La valeur peut être noSelection, yes, no ou multiSelection. Oui
DigitalAssetsDetails object Objet qui contient des détails sur les ressources numériques.
ClaimStatus Chaîne La valeur peut être noSelection, taxpayerAsDependent, spouseAsDependent, spouseItemizesSeparatelyOrDualStatusAlien ou multiSelection. taxpayerAsDependent
ClaimStatusDetails object Objet qui contient des détails sur l’état de la revendication.
TaxpayerAgeBlindness Chaîne La valeur peut être noSelection, above64, blind ou multiSelection. above64
TaxPayerAgeBlindnessDetails object Objet qui contient des détails sur la cécité liée à l'âge du contribuable.
SpouseAgeBlindness Chaîne La valeur peut être noSelection, above64, blind ou multiSelection. above64
TaxPayerAgeBlindnessDetails object Objet qui contient des détails sur la cécité liée à l’âge du conjoint.
MoreThanFourDependents booléen Plus de quatre dépendants extraits du formulaire 1040. true
Box1a number Case 1a extraite de 1040. 123456
En fonction de la structure JSON fournie et de sa conversion dans le même format de tableau que demandé, le résultat est le suivant :
Box1b number Case 1b extraite de 1040. 123456
Box1c number Case 1c extraite de 1040. 123456
Box1d number Case 1d extraite de 1040. 123456
Box1e number Case 1e extraite de 1040. 123456
Box1f number Case 1f extraite de 1040. 123456
Box1g number Case 1g extraite de 1040. 123456
Box1h number Case 1h extraite de 1040. 123456
Box1i number Case 1i extraite de 1040. 123456
Box1z number Case 1z extraite de 1040. 123456
Box2a number Case 2a extraite de 1040. 123456
Box2b number Case 2b extraite de 1040. 123456
Box3a number Case 3a extraite de 1040. 123456
Box3b number Case 3b extraite de 1040. 123456
Box4a number Case 4a extraite de 1040. 123456
Box4b number Case 4b extraite de 1040. 123456
Box5a number Case 5a extraite de 1040. 123456
Box5b number Case 5b extraite de 1040. 123456
Box6a number Case 6a extraite de 1040. 123456
Box6b number Case 6b extraite de 1040. 123456
Box6cCheckbox booléen Case 6c à cocher extraite de 1040. true
Box7Checkbox booléen Case 7 à cocher extraite de 1040. true
Box7 number Case 7 extraite de 1040. 123456
Box8 number Case 8 extraite de 1040. 123456
Box9 number Case 9 extraite de 1040. 123456
Box10 number Case 10 extraite de 1040. 123456
Box11 number Case 11 extraite de 1040. 123456
Box12 number Case 12 extraite de 1040. 123456
Box13 number Case 13 extraite de 1040. 123456
Box14 number Case 14 extraite de 1040. 123456
Box15 number Case 15 extraite de 1040. 123456
Box16FromForm string La valeur peut être noSelection, 8814, 4972, other ou multiSelection. 8814
Box16FromFormDetails object Objet qui contient des détails sur la case 16
Box16OtherFormNumber string Case 16 Autres numéros de formulaire extraits de 1040. 8888
Box16 number Case 16 extraite de 1040. 123456
Box17 number Case 17 extraite de 1040. 123456
Box18 number Case 18 extraite de 1040. 123456
Box19 number Case 19 extraite de 1040. 123456
Box20 number Case 20 extraite de 1040. 123456
Box21 number Case 21 extraite de 1040. 123456
Box22 number Case 22 extraite de 1040. 123456
Box23 number Case 23 extraite de 1040. 123456
Box24 number Case 24 extraite de 1040. 123456
Box25a number Case 25a extraite de 1040. 123456
Box25b number Case 25b extraite de 1040. 123456
Box25c number Case 25c extraite de 1040. 123456
Box25d number Case 25d extraite de 1040. 123456
Box26 number Case 26 extraite de 1040. 123456
Box27 number Case 27 extraite de 1040. 123456
Box28 number Case 28 extraite de 1040. 123456
Box29 number Case 29 extraite de 1040. 123456
Box31 number Case 31 extraite de 1040. 123456
Box32 number Case 32 extraite de 1040. 123456
Box33 number Case 33 extraite de 1040. 123456
Box34 number Case 34 extraite de 1040. 123456
Box35Checkbox booléen Case 35 à cocher extraite de 1040. true
Box35a number Case 35a extraite de 1040. 123456
Box35b number Case 35b extraite de 1040. 123456
Box35c string La valeur peut être noSelection, checking, savings, ou multiSelection. vérifier
Box35cDetails object Objet qui contient des détails sur la case 35c
Box35d number Case 35d extraite de 1040. 123456
Box36 number Case 36 extraite de 1040. 123456
Box37 number Case 37 extraite de 1040. 123456
Box38 number Case 38 extraite de 1040. 123456
HasAssignedThirdPartyDesignee string La valeur peut être noSelection, yes, no ou multiSelection. Oui
HasAssignedThirdPartyDesigneeDetails object Objet qui contient des informations sur ce qui a été sélectionné pour le destinataire tiers affecté

Les paires clé-valeur et les éléments de ligne extraits des documents fiscaux se trouvent dans la section documentResults de la sortie JSON.

Étapes suivantes