Az Azure AI Vision 3.2 GA Read API meghívása

Ez az útmutató bemutatja, hogyan hívhatja meg a v3.2 GA Read API-t a képek szövegének kinyeréséhez. Megtudhatja, hogyan konfigurálhatja az API viselkedését az igényeinek megfelelően. Ez az útmutató feltételezi, hogy már létrehozott egy Vision-erőforrást , és beszerzett egy kulcsot és egy végpont URL-címet. Ha még nem tette meg, kövesse a rövid útmutatót az első lépésekhez.

OCR (Olvasás) kiadások

Fontos

Válassza ki a követelményeknek leginkább megfelelő olvasási kiadást.

Bevitel Példák Kiadás olvasása Juttatás
Képek: Általános, vadon élő képek címkék, utcatáblák és plakátok OCR képekhez (4.0-s verzió) Általános, nem dokumentumképekhez optimalizált, teljesítmény-továbbfejlesztett szinkron API-val, amely megkönnyíti az OCR beágyazását a felhasználói élmény forgatókönyveibe.
Dokumentumok: Digitális és szkennelt, képeket is beleértve könyvek, cikkek és jelentések Dokumentumintelligencia-olvasási modell Aszinkron API-val szövegigényes beolvasott és digitális dokumentumokhoz optimalizálva az intelligens dokumentumfeldolgozás nagy léptékű automatizálásához.

Tudnivalók az Azure AI Vision 3.2-s ga-olvasásáról

A legújabb Azure AI Vision v3.2 GA-olvasást keresi? A Read OCR jövőbeli fejlesztései a korábban felsorolt két szolgáltatás részét képezik. Nincsenek további frissítések az Azure AI Vision 3.2-ben. További információ: Az Azure AI Vision 3.2 GA Read API meghívása és rövid útmutató: Azure AI Vision v3.2 GA Read.

Bemeneti követelmények

A Read API-hívás képeket és dokumentumokat vesz fel bemenetként. Ezek a következő követelményekkel rendelkeznek:

  • Támogatott fájlformátumok: JPEG, PNG, BMP, PDF és TIFF
  • A PDF- és TIFF-fájlok esetében legfeljebb 2000 oldal (az ingyenes szint esetében csak az első két oldal) lesz feldolgozva.
  • A képek fájlmérete nem haladhatja meg az 500 MB-ot (4 MB az ingyenes szint esetében), a mérete pedig legalább 50 x 50 képpont és legfeljebb 10 000 x 10 000 képpont lehet. A PDF-fájloknak nincs méretkorlátozása.
  • A kinyerni kívánt szöveg minimális magassága 1024 x 768 felbontású kép esetén 12 képpont. Ez körülbelül 8 betűpont szövegének felel meg 150 DPI-n.

Feljegyzés

Szövegsorokhoz nem kell körülvágást elvégeznie. Küldje el a teljes képet a Read API-nak, és felismeri az összes szöveget.

Az adatok feldolgozásának meghatározása (nem kötelező)

Az OCR-modell megadása

Alapértelmezés szerint a szolgáltatás a legújabb általánosan elérhető (GA) modellt használja a szöveg kinyeréséhez. A Read 3.2-től kezdve egy model-version paraméter lehetővé teszi a ga és az előnézeti modellek közötti választást egy adott API-verzióhoz. A megadott modell az Olvasás művelettel történő szöveg kinyerésére szolgál.

Az Olvasás művelet használatakor használja az alábbi értékeket az opcionális model-version paraméterhez.

Érték Használt modell
Nincs megadva Legújabb GA-modell
legújabb Legújabb GA-modell
2022-04-30 A legújabb GA-modell. 164 nyelv a nyomtatott szöveghez és 9 nyelv a kézzel írt szövegekhez, valamint számos minőségi és teljesítménybeli fejlesztés
2022-01-30-preview Az előzetes verziójú modell a hindi, az arab és a kapcsolódó nyelvek nyomtatási szövegének támogatását biztosítja. Kézzel írt szövegek esetén támogatja a japán és a koreai nyelvet.
2021-09-30-preview Az előzetes verziójú modell támogatja az orosz és más cirill nyelvek nyomtatási szövegét. Kézzel írt szöveg esetén támogatja a kínai egyszerűsített, a francia, a német, az olasz, a portugál és a spanyol nyelvet.
2021-04-12 2021 GA-modell

Beviteli nyelv

A szolgáltatás alapértelmezés szerint az összes szöveget kinyeri a képekből vagy dokumentumokból, beleértve a vegyes nyelveket is. Az olvasási művelet nyelvre vonatkozó opcionális kérelemparaméterrel rendelkezik. Csak akkor adjon meg nyelvi kódot, ha a dokumentumot az adott nyelvként szeretné feldolgozni. Ellenkező esetben előfordulhat, hogy a szolgáltatás hiányos és helytelen szöveget ad vissza.

Természetes olvasási sorrend kimenete (csak latin nyelvű)

A szolgáltatás alapértelmezés szerint balról jobbra sorrendben adja ki a szövegsorokat. Igény szerint a readingOrder kérelemparaméterrel használjon natural emberibb olvasási sorrendet az alábbi példában látható módon. Ez a funkció csak latin nyelvek esetén támogatott.

OCR Reading order example

Oldal(ok) vagy oldaltartomány(ok) kijelölése szövegkinyeréshez

Alapértelmezés szerint a szolgáltatás a dokumentumok minden oldaláról kinyeri a szöveget. A kérelemparaméter használatával pages megadhat oldalszámokat vagy oldaltartományokat, hogy csak ezekből a lapokból nyerjen ki szöveget. Az alábbi példa egy 10 oldalas dokumentumot mutat be, amely mindkét esetben kinyert szöveget tartalmaz – az összes oldalt (1–10) és a kijelölt oldalakat (3–6).

Selected pages output

Adatok küldése a szolgáltatásba

Elküldhet egy helyi vagy egy távoli képet a Read API-nak. Helyi beállítás esetén a bináris képadatokat a HTTP-kérelem törzsébe kell helyeznie. Távoli esetén a rendszerkép URL-címét úgy adhatja meg, hogy a kérelem törzsét az alábbihoz hasonlóan formázzuk: {"url":"http://example.com/images/test.jpg"}.

A Read API Olvasási hívása bemenetként egy képet vagy PDF-dokumentumot vesz fel, és aszinkron módon nyeri ki a szöveget.

https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]

A hívás egy válaszfejmezővel Operation-Locationtér vissza. Az Operation-Location érték egy URL-cím, amely a következő lépésben használni kívánt műveletazonosítót tartalmazza.

Válaszfejléc Példaérték
Művelet helye https://cognitiveservice/vision/v3.2/read/analyzeResults/49a36324-fc4b-4387-aa06-090cfbf0064f

Feljegyzés

Számlázás

Az Azure AI Vision díjszabási oldala tartalmazza az Olvasás tarifacsomagot. Minden elemzett kép vagy oldal egy tranzakció. Ha egy 100 oldalt tartalmazó PDF- vagy TIFF-dokumentummal hívja meg a műveletet, az Olvasás művelet 100 tranzakciónak számít, és 100 tranzakcióért kell fizetnie. Ha 50 hívást kezdeményezett a művelethez, és minden hívás egy 100 oldalas dokumentumot küldött, a rendszer 50 X 100 = 5000 tranzakciót számláz.

Eredmények lekérése a szolgáltatásból

A második lépés az olvasási eredmények lekérése művelet meghívása. Ez a művelet adja meg az olvasási művelet által létrehozott műveletazonosítót.

https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}

Egy JSON-választ ad vissza, amely egy állapotmezőt tartalmaz az alábbi lehetséges értékekkel.

Érték Értelmezés
notStarted A művelet nem indult el.
running A művelet feldolgozása folyamatban van.
failed A művelet meghiúsult.
succeeded A művelet sikeres volt.

Ezt a műveletet iteratív módon kell meghívni, amíg vissza nem tér a sikeres értékkel. Használjon 1–2 másodperces időközt, hogy elkerülje a kérések másodpercenkénti (RPS) sebességének túllépését.

Feljegyzés

Az ingyenes szint percenként 20 hívásra korlátozza a kérések számát. A fizetős szint másodpercenként 30 kérést (RPS) tesz lehetővé, amelyek kérésre növelhetők. Jegyezze fel az Azure-erőforrás-azonosítót és -régiót, és nyisson meg egy Azure-támogatás jegyet, vagy forduljon a fiókcsapatához, hogy másodpercenként magasabb (RPS) kérést kérjen.

Ha az állapotmező rendelkezik az succeeded értékkel, a JSON-válasz tartalmazza a képből vagy dokumentumból kinyert szöveges tartalmat. A JSON-válasz megőrzi a felismert szavak eredeti sorcsoportjait. Tartalmazza a kinyert szövegsorokat és azok határolókeretének koordinátáit. Minden szövegsor tartalmazza az összes kinyert szót a koordinátákkal és a megbízhatósági pontszámokkal.

Feljegyzés

Az olvasási művelethez küldött adatok ideiglenesen titkosítva vannak, és rövid ideig inaktív állapotban vannak tárolva, majd törölve lesznek. Ez lehetővé teszi az alkalmazások számára a kinyert szöveg lekérését a szolgáltatás válasza részeként.

JSON-mintakimenet

Tekintse meg a következő példát egy sikeres JSON-válaszra:

{
  "status": "succeeded",
  "createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
  "lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
  "analyzeResult": {
    "version": "3.2",
    "readResults": [
      {
        "page": 1,
        "angle": 2.1243,
        "width": 502,
        "height": 252,
        "unit": "pixel",
        "lines": [
          {
            "boundingBox": [
              58,
              42,
              314,
              59,
              311,
              123,
              56,
              121
            ],
            "text": "Tabs vs",
            "appearance": {
              "style": {
                "name": "handwriting",
                "confidence": 0.96
              }
            },
            "words": [
              {
                "boundingBox": [
                  68,
                  44,
                  225,
                  59,
                  224,
                  122,
                  66,
                  123
                ],
                "text": "Tabs",
                "confidence": 0.933
              },
              {
                "boundingBox": [
                  241,
                  61,
                  314,
                  72,
                  314,
                  123,
                  239,
                  122
                ],
                "text": "vs",
                "confidence": 0.977
              }
            ]
          }
        ]
      }
    ]
  }
}

Kézzel írt besorolás szövegsorokhoz (csak latin nyelvek esetén)

A válasz magában foglalja annak besorolását, hogy az egyes szövegsorok kézzel írott stílusban vagy sem, valamint egy megbízhatósági pontszámot tartalmaznak. Ez a funkció csak latin nyelvek esetén érhető el. Az alábbi példa a kép szövegének kézzel írt besorolását mutatja be.

OCR handwriting classification example

Következő lépések