Az Azure AI Vision 3.2 GA Read API meghívása

Cikk
03/05/2024

Ez az útmutató bemutatja, hogyan hívhatja meg a v3.2 GA Read API-t a képek szövegének kinyeréséhez. Megtudhatja, hogyan konfigurálhatja az API viselkedését az igényeinek megfelelően. Ez az útmutató feltételezi, hogy már létrehozott egy Vision-erőforrást , és beszerzett egy kulcsot és egy végpont URL-címet. Ha még nem tette meg, kövesse a rövid útmutatót az első lépésekhez.

OCR (Olvasás) kiadások

Fontos

Válassza ki a követelményeknek leginkább megfelelő olvasási kiadást.

Bevitel	Példák	Kiadás olvasása	Juttatás
Képek: Általános, vadon élő képek	címkék, utcatáblák és plakátok	OCR képekhez (4.0-s verzió)	Általános, nem dokumentumképekhez optimalizált, teljesítmény-továbbfejlesztett szinkron API-val, amely megkönnyíti az OCR beágyazását a felhasználói élmény forgatókönyveibe.
Dokumentumok: Digitális és szkennelt, képeket is beleértve	könyvek, cikkek és jelentések	Dokumentumintelligencia-olvasási modell	Aszinkron API-val szövegigényes beolvasott és digitális dokumentumokhoz optimalizálva az intelligens dokumentumfeldolgozás nagy léptékű automatizálásához.

Tudnivalók az Azure AI Vision 3.2-s ga-olvasásáról

A legújabb Azure AI Vision v3.2 GA-olvasást keresi? A Read OCR jövőbeli fejlesztései a korábban felsorolt két szolgáltatás részét képezik. Nincsenek további frissítések az Azure AI Vision 3.2-ben. További információ: Az Azure AI Vision 3.2 GA Read API meghívása és rövid útmutató: Azure AI Vision v3.2 GA Read.

Bemeneti követelmények

A Read API-hívás képeket és dokumentumokat vesz fel bemenetként. Ezek a következő követelményekkel rendelkeznek:

Támogatott fájlformátumok: JPEG, PNG, BMP, PDF és TIFF
A PDF- és TIFF-fájlok esetében legfeljebb 2000 oldal (az ingyenes szint esetében csak az első két oldal) lesz feldolgozva.
A képek fájlmérete nem haladhatja meg az 500 MB-ot (4 MB az ingyenes szint esetében), a mérete pedig legalább 50 x 50 képpont és legfeljebb 10 000 x 10 000 képpont lehet. A PDF-fájloknak nincs méretkorlátozása.
A kinyerni kívánt szöveg minimális magassága 1024 x 768 felbontású kép esetén 12 képpont. Ez körülbelül 8 betűpont szövegének felel meg 150 DPI-n.

Feljegyzés

Szövegsorokhoz nem kell körülvágást elvégeznie. Küldje el a teljes képet a Read API-nak, és felismeri az összes szöveget.

Az adatok feldolgozásának meghatározása (nem kötelező)

Az OCR-modell megadása

Alapértelmezés szerint a szolgáltatás a legújabb általánosan elérhető (GA) modellt használja a szöveg kinyeréséhez. A Read 3.2-től kezdve egy model-version paraméter lehetővé teszi a ga és az előnézeti modellek közötti választást egy adott API-verzióhoz. A megadott modell az Olvasás művelettel történő szöveg kinyerésére szolgál.

Az Olvasás művelet használatakor használja az alábbi értékeket az opcionális model-version paraméterhez.

Érték	Használt modell
Nincs megadva	Legújabb GA-modell
legújabb	Legújabb GA-modell
2022-04-30	A legújabb GA-modell. 164 nyelv a nyomtatott szöveghez és 9 nyelv a kézzel írt szövegekhez, valamint számos minőségi és teljesítménybeli fejlesztés
2022-01-30-preview	Az előzetes verziójú modell a hindi, az arab és a kapcsolódó nyelvek nyomtatási szövegének támogatását biztosítja. Kézzel írt szövegek esetén támogatja a japán és a koreai nyelvet.
2021-09-30-preview	Az előzetes verziójú modell támogatja az orosz és más cirill nyelvek nyomtatási szövegét. Kézzel írt szöveg esetén támogatja a kínai egyszerűsített, a francia, a német, az olasz, a portugál és a spanyol nyelvet.
2021-04-12	2021 GA-modell

Beviteli nyelv

A szolgáltatás alapértelmezés szerint az összes szöveget kinyeri a képekből vagy dokumentumokból, beleértve a vegyes nyelveket is. Az olvasási művelet nyelvre vonatkozó opcionális kérelemparaméterrel rendelkezik. Csak akkor adjon meg nyelvi kódot, ha a dokumentumot az adott nyelvként szeretné feldolgozni. Ellenkező esetben előfordulhat, hogy a szolgáltatás hiányos és helytelen szöveget ad vissza.

Természetes olvasási sorrend kimenete (csak latin nyelvű)

A szolgáltatás alapértelmezés szerint balról jobbra sorrendben adja ki a szövegsorokat. Igény szerint a readingOrder kérelemparaméterrel használjon natural emberibb olvasási sorrendet az alábbi példában látható módon. Ez a funkció csak latin nyelvek esetén támogatott.

OCR Reading order example

Oldal(ok) vagy oldaltartomány(ok) kijelölése szövegkinyeréshez

Alapértelmezés szerint a szolgáltatás a dokumentumok minden oldaláról kinyeri a szöveget. A kérelemparaméter használatával pages megadhat oldalszámokat vagy oldaltartományokat, hogy csak ezekből a lapokból nyerjen ki szöveget. Az alábbi példa egy 10 oldalas dokumentumot mutat be, amely mindkét esetben kinyert szöveget tartalmaz – az összes oldalt (1–10) és a kijelölt oldalakat (3–6).

Selected pages output

Adatok küldése a szolgáltatásba

Elküldhet egy helyi vagy egy távoli képet a Read API-nak. Helyi beállítás esetén a bináris képadatokat a HTTP-kérelem törzsébe kell helyeznie. Távoli esetén a rendszerkép URL-címét úgy adhatja meg, hogy a kérelem törzsét az alábbihoz hasonlóan formázzuk: {"url":"http://example.com/images/test.jpg"}.

A Read API Olvasási hívása bemenetként egy képet vagy PDF-dokumentumot vesz fel, és aszinkron módon nyeri ki a szöveget.

https://{endpoint}/vision/v3.2/read/analyze[?language][&pages][&readingOrder]

A hívás egy válaszfejmezővel Operation-Locationtér vissza. Az Operation-Location érték egy URL-cím, amely a következő lépésben használni kívánt műveletazonosítót tartalmazza.

Válaszfejléc	Példaérték
Művelet helye	`https://cognitiveservice/vision/v3.2/read/analyzeResults/49a36324-fc4b-4387-aa06-090cfbf0064f`

Feljegyzés

Számlázás

Az Azure AI Vision díjszabási oldala tartalmazza az Olvasás tarifacsomagot. Minden elemzett kép vagy oldal egy tranzakció. Ha egy 100 oldalt tartalmazó PDF- vagy TIFF-dokumentummal hívja meg a műveletet, az Olvasás művelet 100 tranzakciónak számít, és 100 tranzakcióért kell fizetnie. Ha 50 hívást kezdeményezett a művelethez, és minden hívás egy 100 oldalas dokumentumot küldött, a rendszer 50 X 100 = 5000 tranzakciót számláz.

Eredmények lekérése a szolgáltatásból

A második lépés az olvasási eredmények lekérése művelet meghívása. Ez a művelet adja meg az olvasási művelet által létrehozott műveletazonosítót.

https://{endpoint}/vision/v3.2/read/analyzeResults/{operationId}

Egy JSON-választ ad vissza, amely egy állapotmezőt tartalmaz az alábbi lehetséges értékekkel.

Érték	Értelmezés
`notStarted`	A művelet nem indult el.
`running`	A művelet feldolgozása folyamatban van.
`failed`	A művelet meghiúsult.
`succeeded`	A művelet sikeres volt.

Ezt a műveletet iteratív módon kell meghívni, amíg vissza nem tér a sikeres értékkel. Használjon 1–2 másodperces időközt, hogy elkerülje a kérések másodpercenkénti (RPS) sebességének túllépését.

Feljegyzés

Az ingyenes szint percenként 20 hívásra korlátozza a kérések számát. A fizetős szint másodpercenként 30 kérést (RPS) tesz lehetővé, amelyek kérésre növelhetők. Jegyezze fel az Azure-erőforrás-azonosítót és -régiót, és nyisson meg egy Azure-támogatás jegyet, vagy forduljon a fiókcsapatához, hogy másodpercenként magasabb (RPS) kérést kérjen.

Ha az állapotmező rendelkezik az succeeded értékkel, a JSON-válasz tartalmazza a képből vagy dokumentumból kinyert szöveges tartalmat. A JSON-válasz megőrzi a felismert szavak eredeti sorcsoportjait. Tartalmazza a kinyert szövegsorokat és azok határolókeretének koordinátáit. Minden szövegsor tartalmazza az összes kinyert szót a koordinátákkal és a megbízhatósági pontszámokkal.

Feljegyzés

Az olvasási művelethez küldött adatok ideiglenesen titkosítva vannak, és rövid ideig inaktív állapotban vannak tárolva, majd törölve lesznek. Ez lehetővé teszi az alkalmazások számára a kinyert szöveg lekérését a szolgáltatás válasza részeként.

JSON-mintakimenet

Tekintse meg a következő példát egy sikeres JSON-válaszra:

{
  "status": "succeeded",
  "createdDateTime": "2021-02-04T06:32:08.2752706+00:00",
  "lastUpdatedDateTime": "2021-02-04T06:32:08.7706172+00:00",
  "analyzeResult": {
    "version": "3.2",
    "readResults": [
      {
        "page": 1,
        "angle": 2.1243,
        "width": 502,
        "height": 252,
        "unit": "pixel",
        "lines": [
          {
            "boundingBox": [
              58,
              42,
              314,
              59,
              311,
              123,
              56,
              121
            ],
            "text": "Tabs vs",
            "appearance": {
              "style": {
                "name": "handwriting",
                "confidence": 0.96
              }
            },
            "words": [
              {
                "boundingBox": [
                  68,
                  44,
                  225,
                  59,
                  224,
                  122,
                  66,
                  123
                ],
                "text": "Tabs",
                "confidence": 0.933
              },
              {
                "boundingBox": [
                  241,
                  61,
                  314,
                  72,
                  314,
                  123,
                  239,
                  122
                ],
                "text": "vs",
                "confidence": 0.977
              }
            ]
          }
        ]
      }
    ]
  }
}

Kézzel írt besorolás szövegsorokhoz (csak latin nyelvek esetén)

A válasz magában foglalja annak besorolását, hogy az egyes szövegsorok kézzel írott stílusban vagy sem, valamint egy megbízhatósági pontszámot tartalmaznak. Ez a funkció csak latin nyelvek esetén érhető el. Az alábbi példa a kép szövegének kézzel írt besorolását mutatja be.

OCR handwriting classification example

Az Azure AI Vision 3.2 GA Read API meghívása

OCR (Olvasás) kiadások

Bemeneti követelmények

Az adatok feldolgozásának meghatározása (nem kötelező)

Az OCR-modell megadása

Beviteli nyelv

Természetes olvasási sorrend kimenete (csak latin nyelvű)

Oldal(ok) vagy oldaltartomány(ok) kijelölése szövegkinyeréshez

Adatok küldése a szolgáltatásba

Eredmények lekérése a szolgáltatásból

JSON-mintakimenet

Kézzel írt besorolás szövegsorokhoz (csak latin nyelvek esetén)

Következő lépések

További források