Funktioner för dokumentinformationstillägg
Viktigt!
- Versioner av den offentliga förhandsversionen av Document Intelligence ger tidig åtkomst till funktioner som är i aktiv utveckling.
- Funktioner, metoder och processer kan ändras, före allmän tillgänglighet (GA), baserat på användarfeedback.
- Den offentliga förhandsversionen av Dokumentinformationsklientbiblioteken är som standard REST API version 2024-02-29-preview.
- Förhandsversion 2024-02-29-preview är för närvarande endast tillgänglig i följande Azure-regioner:
- USA, östra
- USA, västra 2
- Europa, västra
Det här innehållet gäller för:v4.0 (förhandsversion) | Tidigare versioner:v3.1 (GA)
Det här innehållet gäller för:v3.1 (GA) | Senaste version:v4.0 (förhandsversion)
Kommentar
Tilläggsfunktioner är tillgängliga i alla modeller förutom visitkortsmodellen.
Dokumentinformation stöder mer avancerade och modulära analysfunktioner. Använd tilläggsfunktionerna för att utöka resultatet till att omfatta fler funktioner som extraherats från dina dokument. Vissa tilläggsfunktioner medför en extra kostnad. Dessa valfria funktioner kan aktiveras och inaktiveras beroende på scenariot med extrahering av dokument. Om du vill aktivera en funktion lägger du till det associerade funktionsnamnet i frågesträngsegenskapen features
. Du kan aktivera fler än en tilläggsfunktion på en begäran genom att tillhandahålla en kommaavgränsad lista över funktioner. Följande tilläggsfunktioner är tillgängliga för 2023-07-31 (GA)
och senare versioner.
Kommentar
Alla tilläggsfunktioner stöds inte av alla modeller. Mer information finns iextrahering av modelldata.
Följande tilläggsfunktioner är tillgängliga för2024-02-29-preview
, 2024-02-29-preview
och senare versioner:
Kommentar
Implementeringen av frågefälten i API:et 2023-10-30-preview skiljer sig från den senaste förhandsversionen. Den nya implementeringen är billigare och fungerar bra med strukturerade dokument.
Tilläggsfunktion | Tillägg/kostnadsfritt | 2024-02-29-preview | 2023-07-31 (GA) |
2022-08-31 (GA) |
v2.1 (GA) |
---|---|---|---|---|---|
Extrahering av teckensnittsegenskap | Tillägg | ✔️ | ✔️ | saknas | saknas |
Formelextrahering | Tillägg | ✔️ | ✔️ | saknas | saknas |
Högupplösningsextrahering | Tillägg | ✔️ | ✔️ | saknas | saknas |
Extrahering av streckkod | Kostnadsfri | ✔️ | ✔️ | saknas | saknas |
Språkidentifiering | Kostnadsfri | ✔️ | ✔️ | saknas | saknas |
Nyckelvärdepar | Kostnadsfri | ✔️ | saknas | n/a | saknas |
Frågefält | Tillägg* | ✔️ | saknas | n/a | saknas |
Tillägg* – Frågefält prissätts på ett annat sätt än de andra tilläggsfunktionerna. Mer information finns i priser .
Högupplösningsextrahering
Uppgiften att känna igen liten text från stora dokument, till exempel tekniska ritningar, är en utmaning. Ofta blandas texten med andra grafiska element och har olika teckensnitt, storlekar och orienteringar. Dessutom kan texten delas upp i separata delar eller kopplas till andra symboler. Dokumentinformation har nu stöd för att extrahera innehåll från dessa typer av dokument med funktionen ocr.highResolution
. Du får bättre kvalitet på extrahering av innehåll från A1/A2/A3-dokument genom att aktivera den här tilläggsfunktionen.
REST-API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution
Formelextrahering
Funktionen ocr.formula
extraherar alla identifierade formler, till exempel matematiska ekvationer, i formulas
samlingen som ett objekt på toppnivå under content
. Inuti content
representeras identifierade formler som :formula:
. Varje post i den här samlingen representerar en formel som innehåller formeltypen som inline
eller display
, och dess LaTeX-representation tillsammans value
med dess polygon
koordinater. Inledningsvis visas formler i slutet av varje sida.
Kommentar
Poängen confidence
är hårdkodad.
"content": ":formula:",
"pages": [
{
"pageNumber": 1,
"formulas": [
{
"kind": "inline",
"value": "\\frac { \\partial a } { \\partial b }",
"polygon": [...],
"span": {...},
"confidence": 0.99
},
{
"kind": "display",
"value": "y = a \\times b + a \\times c",
"polygon": [...],
"span": {...},
"confidence": 0.99
}
]
}
]
REST-API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas
Extrahering av teckensnittsegenskap
Funktionen ocr.font
extraherar alla teckensnittsegenskaper för text som extraheras i styles
samlingen som ett objekt på översta nivån under content
. Varje formatobjekt anger en enskild teckensnittsegenskap, det textintervall som det gäller för och dess motsvarande konfidenspoäng. Den befintliga formategenskapen utökas med fler teckensnittsegenskaper, till exempel similarFontFamily
för textens teckensnitt, fontStyle
för format som kursiv och normal, för fetstil eller normal, fontWeight
color
för textfärg och backgroundColor
för textavgränsningsrutans färg.
"content": "Foo bar",
"styles": [
{
"similarFontFamily": "Arial, sans-serif",
"spans": [ { "offset": 0, "length": 3 } ],
"confidence": 0.98
},
{
"similarFontFamily": "Times New Roman, serif",
"spans": [ { "offset": 4, "length": 3 } ],
"confidence": 0.98
},
{
"fontStyle": "italic",
"spans": [ { "offset": 1, "length": 2 } ],
"confidence": 0.98
},
{
"fontWeight": "bold",
"spans": [ { "offset": 2, "length": 3 } ],
"confidence": 0.98
},
{
"color": "#FF0000",
"spans": [ { "offset": 4, "length": 2 } ],
"confidence": 0.98
},
{
"backgroundColor": "#00FF00",
"spans": [ { "offset": 5, "length": 2 } ],
"confidence": 0.98
}
]
REST-API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont
Extrahering av streckkodsegenskap
Funktionen ocr.barcode
extraherar alla identifierade streckkoder i barcodes
samlingen som ett objekt på översta nivån under content
. I , content
representeras identifierade streckkoder som :barcode:
. Varje post i den här samlingen representerar en streckkod och innehåller streckkodstypen som kind
och det inbäddade streckkodsinnehållet samt value
dess polygon
koordinater. Inledningsvis visas streckkoder i slutet av varje sida. confidence
är hårdkodad för som 1.
Streckkodstyper som stöds
Streckkodstyp | Exempel |
---|---|
QR Code |
|
Code 39 |
|
Code 93 |
|
Code 128 |
|
UPC (UPC-A & UPC-E) |
|
PDF417 |
|
EAN-8 |
|
EAN-13 |
|
Codabar |
|
Databar |
|
Databar Utökad |
|
ITF |
|
Data Matrix |
REST-API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes
Språkidentifiering
languages
Om du lägger till funktionen i analyzeResult
begäran förutsäger du det identifierade primära språket för varje textrad tillsammans med confidence
i languages
samlingen under analyzeResult
.
"languages": [
{
"spans": [
{
"offset": 0,
"length": 131
}
],
"locale": "en",
"confidence": 0.7
},
]
REST-API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages
Nyckel/värde-par
I tidigare API-versioner extraherade den fördefinierade dokumentmodellen nyckel/värde-par från formulär och dokument. Med tillägg av keyValuePairs
funktionen i den fördefinierade layouten ger layoutmodellen nu samma resultat.
Nyckel/värde-par är specifika intervall i dokumentet som identifierar en etikett eller nyckel och dess associerade svar eller värde. I ett strukturerat formulär kan dessa par vara etiketten och värdet som användaren angav för fältet. I ett ostrukturerat dokument kan det vara det datum då ett kontrakt utfördes baserat på texten i ett stycke. AI-modellen tränas för att extrahera identifierbara nycklar och värden baserat på en mängd olika dokumenttyper, format och strukturer.
Nycklar kan också finnas isolerat när modellen upptäcker att en nyckel finns, utan associerat värde eller när valfria fält bearbetas. Ett mellannamnsfält kan till exempel lämnas tomt i ett formulär i vissa fall. Nyckel/värde-par är textintervall som finns i dokumentet. För dokument där samma värde beskrivs på olika sätt, till exempel kund/användare, är den associerade nyckeln antingen kund eller användare (baserat på kontext).
REST-API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs
Frågefält
Frågefält är en tilläggsfunktion för att utöka schemat som extraherats från en fördefinierad modell eller definiera ett specifikt nyckelnamn när nyckelnamnet är variabel. Om du vill använda frågefält anger du funktionerna till queryFields
och anger en kommaavgränsad lista med fältnamn i queryFields
egenskapen.
Dokumentinformation stöder nu extrahering av frågefält. Med extrahering av frågefält kan du lägga till fält i extraheringsprocessen med hjälp av en frågebegäran utan att behöva lägga till utbildning.
Använd frågefält när du behöver utöka schemat för en fördefinierad eller anpassad modell eller behöver extrahera några fält med utdata från layouten.
Frågefält är en premium-tilläggsfunktion. För bästa resultat definierar du de fält som du vill extrahera med hjälp av kamelfall eller Pascal-skiftlägesfältnamn för fältnamn med flera ord.
Frågefält stöder högst 20 fält per begäran. Om dokumentet innehåller ett värde för fältet returneras fältet och värdet.
Den här versionen har en ny implementering av frågefältsfunktionen som är lägre än den tidigare implementeringen och bör valideras.
Kommentar
Extrahering av frågefält i Document Intelligence Studio är för närvarande tillgängligt med API:US tax
et layout och fördefinierade modeller 2024-02-29-preview
2023-10-31-preview
och senare versioner förutom modellerna (W2, 1098s och 1099s-modeller).
Extrahering av frågefält
För extrahering av frågefält anger du de fält som du vill extrahera och Dokumentinformation analyserar dokumentet därefter. Här är ett exempel:
Om du bearbetar ett kontrakt i Document Intelligence Studio använder du versionerna
2024-02-29-preview
eller2023-10-31-preview
:Du kan skicka en lista med fältetiketter som
Party1
,Party2
,TermsOfUse
,PaymentTerms
,PaymentDate
ochTermEndDate
som en del avanalyze document
begäran.Dokumentinformation kan analysera och extrahera fältdata och returnera värdena i en strukturerad JSON-utdata.
Förutom frågefälten innehåller svaret text, tabeller, markeringsmarkeringar och andra relevanta data.
REST-API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS
Nästa steg
Läs mer: Läs modelllayoutmodell
SDK-exempel: python