De Lees-API van Azure AI Vision 3.2 aanroepen

In deze handleiding ziet u hoe u de lees-API voor v3.2 aanroept om tekst uit afbeeldingen te extraheren. U leert de verschillende manieren waarop u het gedrag van deze API kunt configureren om aan uw behoeften te voldoen. In deze handleiding wordt ervan uitgegaan dat u al een Vision-resource hebt gemaakt en een sleutel- en eindpunt-URL hebt verkregen. Als u dat nog niet hebt gedaan, volgt u een quickstart om aan de slag te gaan.

OCR-edities (Lezen)

Belangrijk

Selecteer de Read-editie die het beste past bij uw vereisten.

Invoer Voorbeelden Leeseditie Voordeel
Afbeeldingen: Algemeen, in-the-wild afbeeldingen labels, straatborden en posters OCR voor installatiekopieën (versie 4.0) Geoptimaliseerd voor algemene, niet-documentafbeeldingen met een synchrone API met verbeterde prestaties, waardoor ocr eenvoudiger kan worden ingesloten in uw gebruikerservaringsscenario's.
Documenten: Digitaal en gescand, inclusief afbeeldingen boeken, artikelen en rapporten Document Intelligence-leesmodel Geoptimaliseerd voor tekstzware gescande en digitale documenten met een asynchrone API om intelligente documentverwerking op schaal te automatiseren.

Algemene beschikbaarheid van Azure AI Vision v3.2

Bent u op zoek naar de meest recente algemene beschikbaarheid van Azure AI Vision v3.2? Alle toekomstige verbeteringen voor lees-OCR maken deel uit van de twee services die eerder zijn vermeld. Er zijn geen verdere updates voor Azure AI Vision v3.2. Zie Voor meer informatie de Lees-API en quickstart van Azure AI Vision 3.2 aanroepen: Lees-API voor Azure AI Vision v3.2.

Vereisten voor invoer

De Read-API-aanroep neemt afbeeldingen en documenten als invoer. Ze hebben de volgende vereisten:

  • Ondersteunde bestandsindelingen: JPEG, PNG, BMP, PDF en TIFF
  • Voor PDF- en TIFF-bestanden worden maximaal 2000 pagina's (alleen de eerste twee pagina's voor de gratis laag) verwerkt.
  • De bestandsgrootte van afbeeldingen moet kleiner zijn dan 500 MB (4 MB voor de gratis laag) en de afmetingen ten minste 50 x 50 pixels en maximaal 10.000 x 10.000 pixels. PDF-bestanden hebben geen groottelimiet.
  • De minimale hoogte van de tekst die moet worden geëxtraheerd, is 12 pixels voor een afbeelding van 1024 x 768. Dit komt overeen met ongeveer 8 tekenpuntteksten bij 150 DPI.

Notitie

U hoeft geen afbeelding bij te snijden voor tekstregels. Verzend de hele afbeelding naar de Read-API en alle teksten worden herkend.

Bepalen hoe de gegevens moeten worden verwerkt (optioneel)

Het OCR-model opgeven

De service maakt standaard gebruik van het meest recente algemeen beschikbare model (GA) om tekst te extraheren. Vanaf Read 3.2 kunt u met een model-version parameter kiezen tussen de GA- en preview-modellen voor een bepaalde API-versie. Het model dat u opgeeft, wordt gebruikt om tekst te extraheren met de leesbewerking.

Wanneer u de leesbewerking gebruikt, gebruikt u de volgende waarden voor de optionele model-version parameter.

Weergegeven als Model gebruikt
Niet opgegeven Meest recente GA-model
nieuwste Meest recente GA-model
2022-04-30 Nieuwste GA-model. 164 talen voor afdruktekst en 9 talen voor handgeschreven tekst, samen met verschillende verbeteringen op het vlak van kwaliteit en prestaties
2022-01-30-preview Voorbeeldmodel voegt ondersteuning voor afdruktekst toe voor Hindi-, Arabische en gerelateerde talen. Voor handgeschreven tekst voegt u ondersteuning toe voor Japans en Koreaans.
2021-09-30-preview Voorbeeldmodel voegt ondersteuning voor afdruktekst toe voor Russische en andere Cyrillische talen. Voor handgeschreven tekst voegt u ondersteuning toe voor vereenvoudigd Chinees, Frans, Duits, Italiaans, Portugees en Spaans.
2021-04-12 GA-model 2021

Invoertaal

De service extraheert standaard alle tekst uit uw afbeeldingen of documenten, inclusief gemengde talen. De leesbewerking heeft een optionele aanvraagparameter voor de taal. Geef alleen een taalcode op als u wilt afdwingen dat het document wordt verwerkt als die specifieke taal. Anders kan de service onvolledige en onjuiste tekst retourneren.

Uitvoer van natuurlijke leesvolgorde (alleen Latijnse talen)

De service voert standaard de tekstregels in de volgorde van links naar rechts uit. U kunt eventueel met de readingOrder aanvraagparameter een gebruiksvriendelijkere uitvoer van een leesvolgorde gebruiken natural , zoals wordt weergegeven in het volgende voorbeeld. Deze functie wordt alleen ondersteund voor Latijnse talen.

OCR Reading order example

Pagina('s) of paginabereiken selecteren voor tekstextractie

De service extraheert standaard tekst uit alle pagina's in de documenten. U kunt eventueel de pages aanvraagparameter gebruiken om paginanummers of paginabereiken op te geven om alleen tekst uit die pagina's te extraheren. In het volgende voorbeeld ziet u een document met 10 pagina's, met tekst die voor beide gevallen is geëxtraheerd: alle pagina's (1-10) en geselecteerde pagina's (3-6).

Selected pages output

Gegevens verzenden naar de service

U verzendt een lokale installatiekopieën of een externe installatiekopieën naar de Read-API. Voor lokaal plaatst u de binaire afbeeldingsgegevens in de hoofdtekst van de HTTP-aanvraag. Voor extern geeft u de URL van de afbeelding op door de hoofdtekst van de aanvraag als volgt op te maken: {"url":"http://example.com/images/test.jpg"}

De read-API-aanroep maakt een afbeelding of PDF-document als invoer en extraheert tekst asynchroon.

https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]

De aanroep wordt geretourneerd met een veld voor de antwoordheader met de naam Operation-Location. De Operation-Location waarde is een URL die de bewerkings-id bevat die in de volgende stap moet worden gebruikt.

Antwoordheader Voorbeeldwaarde
Operation-Location https://cognitiveservice/vision/v3.2/read/analyzeResults/49a36324-fc4b-4387-aa06-090cfbf0064f

Notitie

Facturering

De pagina met prijzen voor Azure AI Vision bevat de prijscategorie voor Lezen. Elke geanalyseerde afbeelding of pagina is één transactie. Als u de bewerking aanroept met een PDF- of TIFF-document met 100 pagina's, telt de leesbewerking deze als 100 transacties en wordt u gefactureerd voor 100 transacties. Als u 50 aanroepen naar de bewerking hebt gedaan en elke aanroep een document met 100 pagina's heeft ingediend, wordt u gefactureerd voor 50 X 100 = 5000 transacties.

Resultaten ophalen van de service

De tweede stap is het aanroepen van de bewerking Leesresultaten ophalen. Deze bewerking gebruikt als invoer de bewerkings-id die is gemaakt door de leesbewerking.

https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}

Het retourneert een JSON-antwoord dat een statusveld bevat met de volgende mogelijke waarden.

Weergegeven als Betekenis
notStarted De bewerking is niet gestart.
running De bewerking wordt verwerkt.
failed De bewerking is mislukt.
succeeded De bewerking is voltooid.

U roept deze bewerking iteratief aan totdat deze wordt geretourneerd met de geslaagde waarde. Gebruik een interval van 1 tot 2 seconden om te voorkomen dat de aanvragen per seconde (RPS) worden overschreden.

Notitie

De gratis laag beperkt de aanvraagsnelheid tot 20 aanroepen per minuut. De betaalde laag staat 30 aanvragen per seconde (RPS) toe die op aanvraag kunnen worden verhoogd. Noteer uw Azure-resourceidentfier en -regio en open een ondersteuning voor Azure-ticket of neem contact op met uw accountteam om een hoger aanvraagtarief per seconde (RPS) aan te vragen.

Wanneer het statusveld de succeeded waarde heeft, bevat het JSON-antwoord de geëxtraheerde tekstinhoud uit uw afbeelding of document. Het JSON-antwoord onderhoudt de oorspronkelijke regelgroepen van herkende woorden. Het bevat de geëxtraheerde tekstregels en de bijbehorende begrenzingsvakcoördinaten. Elke tekstregel bevat alle geëxtraheerde woorden met hun coördinaten en betrouwbaarheidsscores.

Notitie

De gegevens die naar de leesbewerking worden verzonden, worden tijdelijk versleuteld en in rust opgeslagen gedurende een korte periode en vervolgens verwijderd. Hierdoor kunnen uw toepassingen de geëxtraheerde tekst ophalen als onderdeel van het serviceantwoord.

Voorbeeld van JSON-uitvoer

Zie het volgende voorbeeld van een geslaagd JSON-antwoord:

{
  "status": "succeeded",
  "createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
  "lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
  "analyzeResult": {
    "version": "3.2",
    "readResults": [
      {
        "page": 1,
        "angle": 2.1243,
        "width": 502,
        "height": 252,
        "unit": "pixel",
        "lines": [
          {
            "boundingBox": [
              58,
              42,
              314,
              59,
              311,
              123,
              56,
              121
            ],
            "text": "Tabs vs",
            "appearance": {
              "style": {
                "name": "handwriting",
                "confidence": 0.96
              }
            },
            "words": [
              {
                "boundingBox": [
                  68,
                  44,
                  225,
                  59,
                  224,
                  122,
                  66,
                  123
                ],
                "text": "Tabs",
                "confidence": 0.933
              },
              {
                "boundingBox": [
                  241,
                  61,
                  314,
                  72,
                  314,
                  123,
                  239,
                  122
                ],
                "text": "vs",
                "confidence": 0.977
              }
            ]
          }
        ]
      }
    ]
  }
}

Handgeschreven classificatie voor tekstregels (alleen Latijnse talen)

Het antwoord bevat een classificatie van of elke regel tekst in handgeschreven stijl is of niet, samen met een betrouwbaarheidsscore. Deze functie is alleen beschikbaar voor Latijnse talen. In het volgende voorbeeld ziet u de handgeschreven classificatie voor de tekst in de afbeelding.

OCR handwriting classification example

Volgende stappen