Bewerken

Share via


Veelgestelde vragen over Azure AI-documentinformatie

Deze inhoud is van toepassing op:Vinkjev4.0 (preview)Vinkjev3.1 (GA)Vinkjev3.0 (GA)Vinkjev2.1 (GA)

Algemene concepten

Wat is Azure AI Document Intelligence en wat is er gebeurd met Azure AI Form Recognizer?

Azure AI Document Intelligence is een cloudservice die machine learning-modellen gebruikt om sleutel-waardeparen, tekst en tabellen uit uw documenten te extraheren. Het geretourneerde resultaat is een gestructureerde JSON-uitvoer. Document Intelligence-gebruiksscenario's omvatten geautomatiseerde gegevensverwerking, verbeterde gegevensgestuurde strategieën en verrijkte zoekmogelijkheden voor documenten.

Document Intelligence maakt deel uit van Azure AI-services. Azure AI-services omvatten alles wat voorheen bekend was als Azure Cognitive Services en Azure-app lied AI Services.

De vorige naam voor Document Intelligence was Azure AI Form Recognizer. Form Recognizer werd officieel Document Intelligence in juli 2023.

Er zijn geen wijzigingen in prijzen. De namen Cognitive Services en Applied AI Services blijven worden gebruikt in Azure-facturering, kostenanalyse, prijslijsten en prijs-API's.

Er zijn geen belangrijke wijzigingen in API's of clientbibliotheken (SDK's). REST API's en SDK-versies 2024-02-29-preview, 2023-10-31-preview en nieuwere versies worden hernoemd document intelligence.

Sommige platforms wachten nog steeds op de hernoemingsupdate. In microsoft-documentatie verwijzen alle vermeldingen van Form Recognizer en Document Intelligence naar dezelfde Azure-service.

Hoe is Document Intelligence gerelateerd aan documentgeneratieve AI?

U kunt een documentgeneratieve AI-oplossing gebruiken om te chatten met uw documenten, interessante inhoud van deze documenten te genereren en toegang te krijgen tot Azure OpenAI Service-modellen op uw gegevens. Met Azure AI Document Intelligence en Azure OpenAI gecombineerd, kunt u een bedrijfstoepassing bouwen om naadloos met uw documenten te communiceren met behulp van natuurlijke talen, eenvoudig antwoorden te vinden en waardevolle inzichten te verkrijgen en nieuwe en aantrekkelijke inhoud te genereren op basis van uw bestaande documenten. Meer informatie vindt u in de blog van de technische community.

Hoe is Document Intelligence gerelateerd aan het ophalen van augmented generation?

Semantisch segmenteren is een belangrijke stap in het ophalen van augmented generation (RAG) om ervoor te zorgen dat de opslag en het ophalen efficiënt zijn. Het Document Intelligence-indelingsmodel biedt een uitgebreide oplossing voor de mogelijkheden van geavanceerde inhoudextractie en analyse van documentstructuur.

Met het indelingsmodel kunt u eenvoudig tekst en structurele elementen extraheren om grote tekstteksten te verdelen in kleinere, zinvolle segmenten op basis van semantische inhoud in plaats van willekeurige splitsingen. Vervolgens kunt u de geëxtraheerde informatie naar de Markdown-indeling uitvoeren, zodat u uw semantische segmenteringsstrategie kunt definiëren op basis van opgegeven bouwstenen. Meer informatie vindt u in het overzicht van RAG in Document Intelligence.

Voor welke use cases voor documentinformatie is een speciale overweging vereist?

Zorg ervoor dat u zorgvuldig nadenkeert over documentverwerkingsprojecten die financiële gegevens, beschermde gezondheidsgegevens, persoonsgegevens of zeer gevoelige gegevens omvatten.

Zorg ervoor dat u voldoet aan alle nationale/regionale en branchespecifieke vereisten.

Welke talen ondersteunt Document Intelligence?

De universele modellen op basis van deep learning in Document Intelligence ondersteunen veel talen waarmee meertalige tekst uit uw afbeeldingen en documenten kan worden geëxtraheerd, inclusief tekstregels met gemengde talen.

Taalondersteuning verschilt per functionaliteit van de Document Intelligence-service. Zie Taalondersteuning voor een volledige lijst met handgeschreven en afgedrukte tekst die door Document Intelligence wordt ondersteund.

Is Document Intelligence beschikbaar in mijn Azure-regio?

Document intelligence is algemeen beschikbaar in veel van de meer dan 60 wereldwijde Infrastructuurregio's van Azure.

Kies de regio die het meest geschikt is voor u en uw klanten.

Kan Document Intelligence worden geïntegreerd met andere Microsoft-services?

"Ja, Document Intelligence kan worden geïntegreerd met de volgende services:"

Hoe is Document Intelligence gerelateerd aan optische tekenherkenning?

Document Intelligence is een cloudservice die optische tekenherkenning (OCR), tekstanalyse en aangepaste tekstclassificatie van Azure AI-services bevat.

Document Intelligence maakt gebruik van OCR om informatie te detecteren en te extraheren uit lettertypen en handgeschreven tekstdocumenten die door AI worden ondersteund, om meer structuur en informatie te bieden aan de tekstextractie.

Hoe lang is mijn aangepaste model beschikbaar voor gebruik?

Een model heeft dezelfde levenscyclus als de API-versie die u gebruikt om het te trainen. Aangepaste modellen die zijn getraind met een algemene beschikbaarheidsversie van de API, hebben dezelfde levenscyclus als de API-versie. Wanneer de API-versie is afgeschaft, is het model niet meer beschikbaar voor deductie. Modellen die zijn getraind met een preview-versie van de API, hebben ook dezelfde levenscyclus als de preview-API.

Verwacht de afschaffing van de preview-API binnen drie maanden na een bijgewerkte preview-API-versie of een nieuwere GA-API-versie.

Wat is de nauwkeurigheidsscore en hoe wordt deze berekend?

De uitvoer van een build aangepaste modelbewerking (v3.0 en hoger) of train (v2.1) bevat de geschatte nauwkeurigheidsscore. Deze score vertegenwoordigt de mogelijkheid van het model om de gelabelde waarde nauwkeurig te voorspellen in een visueel vergelijkbaar document.

Nauwkeurigheid wordt gemeten binnen een percentagewaardebereik van 0% (laag) tot 100% (hoog).

Zie Nauwkeurigheid en betrouwbaarheidsscores voor meer informatie.

Hoe kan ik nauwkeurigheidsscores verbeteren?

Afwijkingen in de visuele structuur van uw documenten kunnen van invloed zijn op de nauwkeurigheid van een model. Hier volgen enkele tips:

  • Neem alle variaties van een document op in de trainingsgegevensset. Variaties bevatten verschillende indelingen; Bijvoorbeeld digitale versus gescande PDF-bestanden.

  • Afzonderlijke visueel afzonderlijke documenttypen en verschillende modellen trainen.

  • Zorg ervoor dat u geen overbodige labels hebt.

  • Neem de omliggende tekst niet op voor het labelen van handtekeningen en regio's.

Zie Nauwkeurigheid en betrouwbaarheidsscores voor meer informatie.

Wat is de betrouwbaarheidsscore en hoe wordt deze berekend?

Een betrouwbaarheidsscore geeft waarschijnlijkheid aan door de mate van statistische zekerheid te meten dat het geëxtraheerde resultaat correct wordt gedetecteerd.

Het betrouwbaarheidswaardebereik is een percentage van 0% (laag) tot 100% (hoog). Het is raadzaam om een score van 80% of hoger te bereiken. Voor gevoeligere gevallen, zoals financiële of medische dossiers, raden we een score van bijna 100% aan. U kunt ook menselijke beoordeling vereisen.

Zie Nauwkeurigheid en betrouwbaarheidsscores voor meer informatie.

Hoe kan ik betrouwbaarheidsscores verbeteren?

Controleer de JSON-uitvoer na een analysebewerking. Controleer de confidence-waarden voor elk sleutel-/waarderesultaat onder het knooppunt pageResults. U moet ook kijken naar de betrouwbaarheidsscore in het readResults knooppunt, wat overeenkomt met de tekstleesbewerking. Het vertrouwen van de leesresultaten heeft geen invloed op het vertrouwen van de resultaten van sleutel-/waardeextractie, dus controleer beide. Hier volgen enkele tips:

  • Als de betrouwbaarheidsscore voor het readResults object laag is, verbetert u de kwaliteit van uw invoerdocumenten.

  • Als de betrouwbaarheidsscore voor het pageResults object laag is, moet u ervoor zorgen dat de documenten die u analyseert, van hetzelfde type zijn.

  • Overweeg om menselijke beoordeling in uw werkstromen op te nemen.

  • Gebruik formulieren met verschillende waarden in elk veld.

  • Voor aangepaste modellen gebruikt u een grotere set trainingsdocumenten. Als u meer documenten tagt, leert u uw model velden te herkennen met een grotere nauwkeurigheid.

Zie Nauwkeurigheid en betrouwbaarheidsscores voor meer informatie.

Wat is een begrenzingsvak?

Een begrenzingsvak (polygon in v3.0 en latere versies) is een abstracte rechthoek die tekstelementen in een document of formulier omsluit. Het wordt gebruikt als referentiepunt voor objectdetectie.

Het begrenzingsvak geeft de positie aan met behulp van een x- en y-coördinaatvlak dat wordt weergegeven in een matrix van vier numerieke paren. Elk paar vertegenwoordigt een hoek van het vak in de volgende volgorde: linksboven, rechtsboven, rechtsonder, linksonder.

Voor een afbeelding bevinden coördinaten zich in pixels. Voor een PDF bevinden coördinaten zich in centimeters.

Kan documentinformatie me helpen documenten te classificeren?

Document Intelligence biedt aangepaste classificatiemodellen waarmee documenten met één bestand of meerdere bestanden kunnen worden geanalyseerd om te bepalen of een invoerbestand een van de getrainde documenttypen bevat. De service ondersteunt de volgende scenario's:

  • Eén bestand met één documenttype, zoals een formulier voor een leningsaanvraag.

  • Eén bestand dat meerdere documenten bevat. Een voorbeeld is een aanvraagpakket voor een lening dat een formulier voor een leningsaanvraag, een loonbrief en een bankoverzicht bevat.

  • Eén bestand dat meerdere exemplaren van hetzelfde document bevat. Een voorbeeld is een verzameling gescande facturen.

Zie het overzicht van aangepaste classificatiemodellen voor meer informatie.

Document Intelligence Studio

Welke machtigingen heb ik nodig voor toegang tot Document Intelligence Studio?

U hebt een actief Azure-account en -abonnement nodig met ten minste een lezerrol voor toegang tot Document Intelligence Studio.

Voor documentanalyse en vooraf samengestelde modellen zijn dit de rolvereisten voor gebruikersscenario's:

  • Basis

  • Geavanceerd

    • Inzender: u hebt deze rol nodig om een resourcegroep of een Document Intelligence-resource te maken. Met de rol Inzender kunt u geen sleutels weergeven voor Cognitive Services en hebt u geen toegang tot het gebruik van de gemaakte resources of opslag. Hiermee kan alleen een gebruiker de resource zelf lezen/schrijven. Als u Document Intelligence Studio wilt gebruiken, hebt u nog steeds de rol Cognitive Services-gebruiker nodig.

Voor aangepaste modelprojecten zijn dit de rolvereisten voor gebruikersscenario's:

  • Basis

    • Cognitive Services-gebruiker: u hebt deze rol nodig voor een Document Intelligence - of Cognitive Services-resource met meerdere services om gegevens te lezen/schrijven en is vereist om de API aan te roepen. Deze rol is ook het minimum dat nodig is om een aangepast model te trainen of te analyseren met getrainde modellen.

    • Inzender voor opslagblobgegevens: u hebt deze rol nodig voor een opslagaccount om project- en labelgegevens te maken.

  • Geavanceerd

    • Inzender voor opslagaccount: u hebt deze rol nodig voor het opslagaccount om CORS-instellingen (Cross-Origin Resource Sharing) in te stellen. Dit is eenmalig als u hetzelfde opslagaccount opnieuw gebruikt.

      Met de rol Inzender hebt u geen toegang tot gegevens in uw blob. Als u Document Intelligence Studio wilt gebruiken, hebt u nog steeds de rol Bijdrager voor opslagblobgegevens nodig.

    • Inzender: u hebt deze rol nodig om een resourcegroep en resources te maken. Met de rol Inzender hebt u geen toegang tot het gebruik van de gemaakte resources of opslag. Hiermee kan een gebruiker de resource zelf alleen lezen/schrijven. Als u Document Intelligence Studio wilt gebruiken, hebt u nog steeds basisrollen nodig.

Zie ingebouwde Rollen van Microsoft Entra en de secties over Azure-roltoewijzingen in de quickstart voor Document Intelligence Studio voor meer informatie.

Ik heb meerdere pagina's in een document. Waarom worden slechts twee pagina's geanalyseerd in Document Intelligence Studio?

Voor F0-resources (free-tier) worden alleen de eerste twee pagina's geanalyseerd of u Document Intelligence Studio, de REST API of SDK's gebruikt.

Selecteer in Document Intelligence Studio de knop Instellingen (tandwiel), selecteer het tabblad Resources en controleer de prijscategorie die u gebruikt om de documenten te analyseren. Als u alle pagina's in een document wilt analyseren, kunt u overschakelen naar een betaalde resource (S0).

Hoe kan ik mappen of abonnementen wijzigen in Document Intelligence Studio?

Als u een map in Document Intelligence Studio wilt wijzigen, selecteert u de knop Instellingen (tandwiel). Selecteer onder Map de map in de lijst en selecteer vervolgens Schakelen tussen mappen. U wordt gevraagd u opnieuw aan te melden nadat u de map hebt overgeschakeld.

Als u een abonnement of resource wilt wijzigen, gaat u naar het tabblad Resource onder Instellingen.

Waarom krijg ik een opslagfout bij het delen van een project, automatisch labelen of OCR-upgrade wanneer mijn opslagaccountresource is geconfigureerd met een firewall of virtueel netwerk?

Waarom krijg ik de foutmelding 'Toegang geweigerd vanwege regels voor virtueel netwerk/firewall' bij een automatische labeling- of OCR-upgradebewerking wanneer mijn Document Intelligence-resource is geconfigureerd met een firewall of virtueel netwerk?

U moet het toegewezen IP-adres 20.3.165.95 toevoegen aan de acceptatielijst voor de firewall voor uw Document Intelligence-resource.

Kan ik de labelervaring van Document Intelligence Studio opnieuw gebruiken of aanpassen en deze inbouwen in mijn eigen toepassing?

Ja. De labelervaring van Document Intelligence Studio is open source in de toolkit-opslagplaats.

Waarom krijg ik de foutmelding 'Form Recognizer Not Found' bij het openen van mijn aangepaste project?

De Document Intelligence-resource die aan dit aangepaste project is gebonden, is verwijderd of verplaatst naar een andere resourcegroep. Er zijn twee manieren om dit probleem op te lossen:

  • Maak de Document Intelligence-resource opnieuw onder hetzelfde abonnement en dezelfde resourcegroep met dezelfde naam.

  • Maak een aangepast project opnieuw met de gemigreerde Document Intelligence-resource en geef hetzelfde opslagaccount op.

Zijn er afzonderlijke URL-eindpunten voor onafhankelijke cloudregio's van Document Intelligence?

Ja. Document Intelligence Studio heeft afzonderlijke URL-eindpunten voor onafhankelijke cloudregio's:"

App-ontwikkeling

Wat zijn de ontwikkelopties voor Document Intelligence?

Document Intelligence biedt de nieuwste ontwikkelopties binnen de volgende platforms:

Waar vind ik de ondersteunde API-versie voor de nieuwste SDK's voor programmeertalen?

Deze tabel bevat koppelingen naar de nieuwste SDK-versies en toont de relatie tussen ondersteunde Document Intelligence SDK- en API-versies:

Naslaginformatie over ondersteunde taal voor Azure SDK Ondersteunde API-versies
• C#/.NET: 4.0.0

• Java: 4.0.0

• JavaScript: 4.0.0

• Python 3.2.0
2023-10-31-preview
v3.0 v2.1
v2.0

Zie Ondersteunde clients voor v4.0 en Ondersteunde clients voor v3.1 voor meer informatie.

Wat is het verschil tussen Document Intelligence v3.0 en v2.1 en hoe migreer ik naar de nieuwste versie?

Document Intelligence v3.0 introduceert een volledig opnieuw ontworpen clientbibliotheek voor verbeterde bruikbaarheid. Als u de nieuwste document intelligence-API-functies wilt gebruiken, hebt u de meest recente SDK nodig en moet uw toepassingscode worden bijgewerkt om de nieuwe clients te kunnen gebruiken.

Deze tabel bevat koppelingen naar gedetailleerde instructies voor het migreren naar de nieuwste versie van Document Intelligence:

Taal/API Migratiehandleiding
REST-API v3
C#/.NET 4.0.0
Java 4.0.0
JavaScript 4.0.0
Python 3.2.0

Welke bestandsindelingen worden ondersteund door Document Intelligence? Zijn er beperkingen voor de grootte van invoerdocumenten?

Zie de invoervereisten om de beste resultaten te krijgen.

Hoe kan ik een reeks pagina's opgeven die in een document moeten worden geanalyseerd?

Gebruik de pages parameter (ondersteund in v2.1, v3.0 en latere versies van de REST API) om pagina's op te geven voor PDF- en TIFF-documenten met meerdere pagina's. Geaccepteerde invoer bevat de volgende bereiken:

  • Eén pagina. Als u bijvoorbeeld opgeeft 1, 2, worden pagina's 1 en 2 verwerkt.
  • Eindige bereiken. Als u bijvoorbeeld opgeeft 2-5, worden pagina's 2 tot en met 5 verwerkt.
  • Open-eindbereiken. Als u bijvoorbeeld opgeeft 5-, worden alle pagina's van pagina 5 verwerkt. Als u opgeeft -10, worden pagina's 1 tot en met 10 verwerkt.

U kunt deze parameters combineren en bereiken kunnen elkaar overlappen. Als u bijvoorbeeld opgeeft -5, 1, 3, 5-10, worden pagina's 1 tot en met 10 verwerkt.

De service accepteert de aanvraag als deze ten minste één pagina van het document kan verwerken. Het gebruik van een document met 5-100 vijf pagina's is bijvoorbeeld een geldige invoer die betekent dat pagina 5 wordt verwerkt.

Als u geen paginabereik opgeeft, wordt het hele document verwerkt.

Zowel Document Intelligence Studio als het hulpprogramma FOTT-voorbeeldlabels zijn beschikbaar. Welke moet ik gebruiken?

Meestal raden we Document Intelligence Studio aan, omdat het uw tijd voor het configureren van Document Intelligence-resources en opslagservices kan verminderen.

U kunt het formulier ocr-testprogramma (FOTT) gebruiken voor de volgende scenario's:

Servicelimieten en -prijzen

Is Document Intelligence REST API versie 2024-02-29-preview beschikbaar in mijn regio?

De REST API-versie 2024-02-29-preview is beschikbaar in de volgende regio's:

  • VS - oost
  • VS - west 2
  • Europa -west

Hoe berekent Azure de prijs voor het gebruik van Document Intelligence?

Document Intelligence-facturering wordt maandelijks berekend op basis van het modeltype en het aantal geanalyseerde pagina's. Hier volgen enkele details:

  • Wanneer u een document verzendt voor analyse, analyseert de service alle pagina's, tenzij u een paginabereik opgeeft met behulp van de pages parameter in uw aanvraag. Wanneer de service Microsoft Excel- en PowerPoint-documenten analyseert via het lees-, OCR- of indelingsmodel, wordt elke Excel-werkblad en PowerPoint-dia als één pagina geteld.

  • Wanneer de service PDF- en TIFF-bestanden analyseert, wordt elke pagina in het PDF-bestand of elke afbeelding in het TIFF-bestand geteld als één pagina zonder maximale tekenlimieten.

  • Wanneer de service Microsoft Word- en HTML-bestanden analyseert die door de lees- en indelingsmodellen worden ondersteund, worden pagina's in blokken van elk 3000 tekens geteld. Als uw document bijvoorbeeld 7000 tekens bevat, worden de twee pagina's met elk 3000 tekens en één pagina met 1000 tekens opgetellen tot een totaal van drie pagina's.

  • Wanneer u het lees- of indelingsmodel gebruikt om Microsoft Word-, Excel-, PowerPoint- en HTML-bestanden te analyseren, worden ingesloten of gekoppelde afbeeldingen niet ondersteund. De service telt ze dus niet als toegevoegde installatiekopieën.

  • Het trainen van een aangepast model is altijd gratis met Document Intelligence. Er worden alleen kosten in rekening gebracht wanneer de service een model gebruikt om een document te analyseren.

  • Containerprijzen zijn hetzelfde als de prijzen van cloudservices.

  • Document Intelligence biedt een gratis laag (F0) waar u alle functies van Document Intelligence kunt testen.

  • Document Intelligence heeft een prijsmodel op basis van toezeggingen voor grote workloads.

Meer informatie over prijsopties voor Azure AI Document Intelligence.

Hoe kan ik mijn Document Intelligence-gebruik controleren en de prijs schatten?

U vindt metrische gegevens over gebruik op het dashboard met metrische gegevens in Azure Portal. In het dashboard wordt het aantal pagina's weergegeven dat door Azure AI Document Intelligence wordt verwerkt. U kunt de geschatte kosten voor de resource controleren met behulp van de Azure-prijscalculator. Zie Gebruik controleren en kosten schatten voor gedetailleerde instructies.

Wat zijn de best practices om beperking te beperken?

Document Intelligence maakt gebruik van automatisch schalen om de vereiste rekenbronnen op aanvraag te leveren, terwijl de kosten van klanten laag blijven. Als u de beperking tijdens automatisch schalen wilt beperken, raden we u aan de volgende methode te gebruiken:

  • Implementeert logica voor opnieuw proberen in uw toepassing.

  • Als u merkt dat u wordt beperkt tot het aantal POST aanvragen, kunt u overwegen om een vertraging tussen de aanvragen toe te voegen.

  • Verhoog de workload geleidelijk. Vermijd scherpe wijzigingen.

  • Maak een ondersteuningsaanvraag om de limiet voor transacties per seconde (TPS) te verhogen.

Meer informatie over quota en limieten voor document intelligence-services.

Hoe lang duurt het om een document te analyseren?

De tijd die nodig is om een document te analyseren, is afhankelijk van de grootte (bijvoorbeeld het aantal pagina's) en de bijbehorende inhoud op elke pagina.

Document Intelligence is een multitenant-service waarbij latentie voor vergelijkbare documenten vergelijkbaar is, maar niet altijd identiek. Latentie is de hoeveelheid tijd die een API-server nodig heeft om een binnenkomende aanvraag te verwerken en te verwerken en het uitgaande antwoord aan de client te leveren. Incidentele variabiliteit in latentie en prestaties is inherent aan elke op microservice gebaseerde, staatloze, asynchrone service die afbeeldingen en grote documenten op schaal verwerkt.

Hoewel we voortdurend de hardware- en capaciteits- en schaalmogelijkheden omhoog schalen, zijn er mogelijk nog steeds latentieproblemen tijdens runtime.

Aangepaste modellen

Hoe kan ik de beste trainingsgegevens samenstellen?

Wanneer u het aangepaste Document Intelligence-model gebruikt, geeft u uw eigen trainingsgegevens op. Hier volgen enkele tips om uw modellen effectief te trainen:

  • Gebruik indien mogelijk pdf-bestanden op basis van tekst in plaats van pdf-bestanden op basis van afbeeldingen. Een manier om een PDF op basis van afbeeldingen te identificeren, is door specifieke tekst in het document te selecteren. Als u alleen de volledige afbeelding van de tekst kunt selecteren, is het document gebaseerd op afbeeldingen, niet op basis van tekst.

  • Organiseer uw trainingsdocumenten met behulp van een submap voor elke indeling (JPEG/JPG, PNG, BMP, PDF of TIFF).

  • Formulieren gebruiken waarvoor alle beschikbare velden zijn ingevuld.

  • Formulieren gebruiken met verschillende waarden in elk veld.

  • Als uw afbeeldingen van lage kwaliteit zijn, gebruikt u een grotere gegevensset (meer dan vijf trainingsdocumenten).

Meer informatie over het bouwen van een trainingsgegevensset.

Wat zijn de best practices voor het trainen van een uiterst nauwkeurig aangepast model?

Het nauwkeurigheidsniveau voor uw model is afhankelijk van de kwaliteit van uw trainingsmateriaal. Hier volgen enkele tips:

  • Bepaal of u één model of meerdere modellen wilt gebruiken die zijn samengesteld in één model.

  • De nauwkeurigheid van het model kan afnemen wanneer u verschillende indelingen hebt geanalyseerd met één model. Plan het segmenteren van uw gegevensset in mappen, waarbij elke map een unieke sjabloon is. Train één model per map en stel de resulterende modellen samen in één eindpunt.

  • Aangepaste formulieren zijn afhankelijk van een consistente visuele sjabloon. Als uw formulier variaties heeft met indelingen en pagina-einden, kunt u overwegen om uw gegevensset te segmenteren om meerdere modellen te trainen.

  • Zorg ervoor dat u een evenwichtige gegevensset hebt door rekening te houden met indelingen, documenttypen en structuur.

Meer informatie over samengestelde modellen.

Kan ik een aangepast model opnieuw trainen?

Document Intelligence heeft geen expliciete hertrainbewerking. Elke treinbewerking genereert een nieuw model.

Als u merkt dat uw model opnieuw moet worden getraind, voegt u meer voorbeelden toe aan uw trainingsgegevensset en traint u een nieuw model.

Hoeveel aangepaste modellen kan ik samenstellen in één aangepast model?

Met de bewerking Model opstellen kunt u maximaal 200 modellen toewijzen aan één model-id. Wanneer u de Analyze Document aanvraag met een samengestelde model-id maakt, classificeert Document Intelligence het ingediende formulier, kiest u het beste model en worden de resultaten geretourneerd. Model opstellen is momenteel alleen beschikbaar voor aangepaste modellen die zijn getraind met labels.

Het analyseren van een document met behulp van samengestelde modellen is identiek aan het analyseren van een document met behulp van één model. Het Analyze Document resultaat retourneert een docType eigenschap die aangeeft welke van de onderdeelmodellen die u hebt geselecteerd voor het analyseren van het document. Er zijn geen wijzigingen in prijzen voor het analyseren van een document met behulp van een afzonderlijk aangepast model of een samengesteld aangepast model.

Meer informatie over samengestelde modellen.

Wat zijn de alternatieven als het aantal modellen dat ik wil opstellen de bovengrens van een samengesteld model overschrijdt?

U kunt een van deze alternatieven gebruiken:

  • Classificeer de documenten voordat u het aangepaste model aanroept. U kunt het leesmodel gebruiken en een classificatie maken op basis van de geëxtraheerde tekst uit de documenten en bepaalde woordgroepen met behulp van bronnen zoals code, reguliere expressies of zoeken.

  • Als u dezelfde velden wilt extraheren uit verschillende gestructureerde, semi-gestructureerde en ongestructureerde documenten, kunt u overwegen het aangepaste neurale model voor deep learning te gebruiken. Meer informatie over de verschillen tussen het aangepaste sjabloonmodel en het aangepaste neurale model.

Hoe kan ik een model verder verfijnen dan de eerste training?

Elke trainingsbewerking genereert een nieuw model.

  1. Maak een gegevensset voor uw nieuwe sjabloon.

  2. Een nieuw model labelen en trainen.

  3. Controleer of het nieuwe model goed presteert voor uw specifieke documenttypen.

  4. Stel uw nieuwe model samen met het bestaande model in één eindpunt. Document Intelligence kan vervolgens het beste model bepalen voor elk document dat moet worden geanalyseerd.

Meer informatie over samengestelde modellen.

Ik bouw een aangepast model. Wat retourneert het label voor handtekeningdetectie?

Handtekeningdetectie zoekt naar de aanwezigheid van een handtekening, niet de identiteit van de persoon die het document ondertekent.

Als het model niet-ondertekend retourneert voor handtekeningdetectie, heeft het model geen handtekening gevonden in het gedefinieerde veld.

Wat moet ik overwegen en wat zijn de aanbevolen procedures voor het extraheren van tabellen uit documenten?

U kunt beginnen met het Document Intelligence-indelingsmodel om tekst, tabellen, selectiemarkeringen en structuurinformatie uit documenten en afbeeldingen te extraheren. U kunt ook rekening houden met de volgende factoren:

  • Zijn de gegevens die u wilt ophalen als een tabel en is de tabelstructuur zinvol?

  • Als de gegevens zich niet in een tabelindeling bevinden, kunnen de gegevens in een tweedimensionaal raster passen?

  • Beslaan uw tabellen meerdere pagina's? Zo ja, om te voorkomen dat u alle pagina's moet labelen, splitst u het PDF-bestand in pagina's voordat u het naar Document Intelligence verzendt. Na de analyse worden de pagina's na de analyse verwerkt in één tabel.

  • Als u aangepaste modellen maakt, raadpleegt u Labelen als tabellen. Dynamische tabellen hebben een variabel aantal rijen voor elke kolom. Vaste tabellen hebben een constant aantal rijen voor elke kolom.

Hoe kan ik mijn getrainde modellen verplaatsen van de ene omgeving (zoals bèta) naar een andere (zoals productie)?

U kunt de Copy-API gebruiken om aangepaste modellen van het ene Document Intelligence-account te kopiëren naar andere modellen die in elke ondersteunde geografische regio bestaan. Zie Herstel na noodgevallen voor gedetailleerde instructies.

De kopieerbewerking is beperkt tot het kopiëren van modellen in de specifieke cloudomgeving waar u het model hebt getraind. Het kopiëren van modellen van de openbare cloud naar de Azure Government-cloud wordt bijvoorbeeld niet ondersteund.

Waarom heb ik kosten in rekening gebracht voor de indeling bij het uitvoeren van aangepaste training?

Indeling is vereist voor het genereren van labels voor uw gegevensset. Als de gegevensset die u gebruikt voor aangepaste training geen labelbestanden beschikbaar heeft, genereert de service deze voor u.

Opslagaccount

Ik heb een paar dagen geleden toegang gehad tot mijn opslagaccount. Waarom ondervind ik nu problemen bij het opnieuw verbinden?

Wanneer u een handtekening voor gedeelde toegang maakt, is de standaardduur 48 uur. Na 48 uur moet u een nieuw token maken.

Overweeg om een langere periode in te stellen voor de tijd dat u uw opslagaccount gebruikt met Document Intelligence.

Als mijn opslagaccount zich achter een virtueel netwerk of een firewall bevindt, hoe kan ik documentinformatie toegang geven tot de gegevens?

Als u een Azure-opslagaccount hebt dat is beveiligd door een virtueel netwerk of een firewall, heeft Document Intelligence geen rechtstreeks toegang tot uw opslagaccount. Toegang tot en verificatie van privé-Azure-opslagaccounts ondersteunen echter beheerde identiteiten voor Azure-resources. Wanneer u een beheerde identiteit gebruikt, heeft de Document Intelligence-service toegang tot uw opslagaccount met behulp van een toegewezen referentie.

Als u uw persoonlijke opslagaccountgegevens wilt analyseren met behulp van FOTT, moet u het hulpprogramma achter het virtuele netwerk of de firewall implementeren.

Meer informatie over het maken en gebruiken van een beheerde identiteit voor uw Document Intelligence-resource.

Containers

Heb ik een internetverbinding nodig om Document Intelligence-containers te kunnen gebruiken?

Ja. Document Intelligence-containers vereisen internetverbinding om factureringsgegevens naar Azure te verzenden. Meer informatie over azure-containerbeveiliging.

Wat is het verschil tussen losgekoppelde en verbonden containers?

Verbinding maken ed containers verzenden factureringsgegevens naar Azure met behulp van een Document Intelligence-resource in uw Azure-account. Bij verbonden containers is internetverbinding vereist om factureringsgegevens naar Azure te verzenden.

Met niet-verbonden containers kunt u API's gebruiken die zijn losgekoppeld van internet. Factureringsgegevens worden niet via internet verzonden. In plaats daarvan worden er kosten in rekening gebracht op basis van een aangeschafte toezeggingslaag. Momenteel is het gebruik van niet-verbonden containers beschikbaar voor aangepaste Document Intelligence- en factuurmodellen.

De modelmogelijkheden in verbonden en niet-verbonden containers zijn hetzelfde en worden ondersteund door Document Intelligence v2.1.

Welke gegevens verzenden verbonden containers naar de cloud?

Met Document Intelligence verbonden containers verzenden factureringsgegevens naar Azure met behulp van een Document Intelligence-resource in uw Azure-account. Verbinding maken ed containers geen klantgegevens verzenden, zoals de afbeelding of tekst die wordt geanalyseerd, naar Microsoft.

Zie de veelgestelde vragen over azure AI-containers voor een voorbeeld van de informatie die verbonden containers naar Microsoft verzenden voor facturering.

Waarom krijg ik de fout 'Container heeft geen geldige status. De abonnementsvalidatie is mislukt met de status OutOfQuota-API-sleutel heeft geen quotum meer?

Met Document Intelligence verbonden containers verzenden factureringsgegevens naar Azure met behulp van een Document Intelligence-resource in uw Azure-account. U kunt dit bericht ontvangen als de containers niet kunnen communiceren met het factureringseindpunt.

Kan ik lokale opslag gebruiken voor de FOTT-container (Document Intelligence Sample Labeling Tool) ?

FOTT heeft een versie die gebruikmaakt van lokale opslag. De versie moet worden geïnstalleerd op een Windows-computer. U kunt het installeren vanaf deze locatie.

Geef op de projectpagina de labelmap-URI op als /shared of /shared/sub-dir als uw labelbestanden zich in een submap bevinden. Alle andere gedrag van het hulpprogramma voor het labelen van documentinformatie is hetzelfde als de gehoste service.

Wat is de best practice voor omhoog schalen?

Voor asynchrone aanroepen kunt u meerdere containers uitvoeren met gedeelde opslag. De container die de analyseoproep POST verwerkt, slaat de uitvoer op in de opslag. Vervolgens kan elke andere container de resultaten ophalen uit de opslag en de GET aanroepen verwerken. De aanvraag-id is niet gekoppeld aan een container.

Voor synchrone aanroepen kunt u meerdere containers uitvoeren, maar slechts één container dient een aanvraag. Omdat het een blokkerende aanroep is, kan elke container uit de pool de aanvraag verwerken en het antwoord verzenden. Hier is slechts één container gekoppeld aan een aanvraag tegelijk en is er geen polling vereist.

Hoe kan ik containers instellen met gedeelde opslag?

De containers gebruiken de eigenschap tijdens het Mounts:Shared opstarten voor het opgeven van de gedeelde opslag om de verwerkingsbestanden op te slaan. Raadpleeg de documentatie voor containers om het gebruik van deze eigenschap te bekijken.

Beveiliging en privacy

Wat zijn de methoden en vereisten voor het verifiëren van aanvragen voor Azure AI-services?

Elke aanvraag voor een Azure-service moet een verificatieheader bevatten. U kunt een aanvraag verifiëren met behulp van verschillende methoden:

Worden mijn gegevens opgeslagen in Document Intelligence?

Voor alle functies slaat Document Intelligence gegevens tijdelijk op en resulteert dit in Azure Storage in dezelfde regio als de aanvraag. Uw gegevens worden vervolgens binnen 24 uur verwijderd vanaf het moment dat u een analyseaanvraag indient.

Meer informatie over gegevens, privacy en beveiliging voor Document Intelligence.

Hoe worden mijn getrainde aangepaste modellen opgeslagen en gebruikt in Document Intelligence?

De tussentijdse uitvoer na analyse en labeling worden opgeslagen op dezelfde Azure Storage-locatie waar u uw trainingsgegevens opslaat. De getrainde aangepaste modellen worden opgeslagen in Azure Storage in dezelfde regio en ze zijn logisch geïsoleerd met uw Azure-abonnement en API-referenties.

Meer hulp en ondersteuning

Waar vind ik meer oplossingen voor mijn vragen over Azure AI Document Intelligence?

Microsoft Q&A is de thuisbasis voor technische vragen en antwoorden bij Microsoft. U kunt query's filteren die specifiek zijn voor Document Intelligence.

Wat moet ik doen als de service specifieke tekst niet herkent of deze onjuist herkent wanneer ik documenten label?

Het OCR-model documentinformatie wordt voortdurend bijgewerkt en verbeterd. U kunt het Document Intelligence-team e-mailen. Deel indien mogelijk een voorbeelddocument met het probleem gemarkeerd.