OCR – Optikai karakterfelismerés

Cikk
02/14/2024

Az OCR- vagy optikai karakterfelismerést szövegfelismerésnek vagy szövegkinyerésnek is nevezik. A gépi tanuláson alapuló OCR-technikákkal nyomtatott vagy kézzel írt szöveget nyerhet ki képekből, például plakátokból, utcatáblákból és termékcímkékből, valamint dokumentumokból, például cikkekből, jelentésekből, űrlapokból és számlákból. A szöveg általában szavak, szövegsorok, bekezdések vagy szövegblokkokként lesz kinyerve, lehetővé téve a beolvasott szöveg digitális verziójához való hozzáférést. Ez kiküszöböli vagy jelentősen csökkenti a manuális adatbevitel szükségességét.

Az intelligens dokumentumfeldolgozás (IDP) az OCR-t használja alapszintű technológiájaként a struktúra, kapcsolatok, kulcsértékek, entitások és egyéb dokumentumcentrikus elemzések kinyeréséhez egy fejlett gépi tanuláson alapuló AI-szolgáltatással, például a Dokumentumintelligencia szolgáltatással. A Dokumentumintelligencia ocR-motorként tartalmazza a Read dokumentumoptimalizált verzióját, miközben más modellekre delegál a magasabb szintű elemzésekhez. Ha beolvasott és digitális dokumentumokból nyer ki szöveget, használja a Dokumentumintelligencia olvasási OCR-t.

OCR-motor

A Microsoft Read OCR motorja több fejlett gépi tanulási alapú modellből áll, amelyek támogatják a globális nyelveket. Képes nyomtatott és kézzel írt szövegek kinyerésében, beleértve a vegyes nyelveket és az írási stílusokat is. Az olvasás felhőszolgáltatásként és helyszíni tárolóként érhető el az üzembe helyezés rugalmassága érdekében. A legújabb előzetes verzióval szinkron API-ként is elérhető egyetlen, nem dokumentumos, csak képekkel rendelkező forgatókönyvekhez, amelyek teljesítménybeli fejlesztései megkönnyítik az OCR által támogatott felhasználói élmények megvalósítását.

Figyelmeztetés

A v3.2-es verzióban az Azure AI Vision örökölt OCR API és a 2.1-es v2.1-es műveletekben található RecognizeText API nem ajánlott.

OCR (Olvasás) kiadások

Fontos

Válassza ki a követelményeknek leginkább megfelelő olvasási kiadást.

Bevitel	Példák	Kiadás olvasása	Juttatás
Képek: Általános, vadon élő képek	címkék, utcatáblák és plakátok	OCR képekhez (4.0-s verzió)	Általános, nem dokumentumképekhez optimalizált, teljesítmény-továbbfejlesztett szinkron API-val, amely megkönnyíti az OCR beágyazását a felhasználói élmény forgatókönyveibe.
Dokumentumok: Digitális és szkennelt, képeket is beleértve	könyvek, cikkek és jelentések	Dokumentumintelligencia-olvasási modell	Aszinkron API-val szövegigényes beolvasott és digitális dokumentumokhoz optimalizálva az intelligens dokumentumfeldolgozás nagy léptékű automatizálásához.

Tudnivalók az Azure AI Vision 3.2-s ga-olvasásáról

A legújabb Azure AI Vision v3.2 GA-olvasást keresi? A Read OCR jövőbeli fejlesztései a korábban felsorolt két szolgáltatás részét képezik. Nincsenek további frissítések az Azure AI Vision 3.2-ben. További információ: Az Azure AI Vision 3.2 GA Read API meghívása és rövid útmutató: Azure AI Vision v3.2 GA Read.

Az OCR használata

Próbálja ki az OCR-t a Vision Studióval. Ezután kövesse az olvasási kiadásra mutató hivatkozások egyikét, amely a legjobban megfelel a követelményeknek.

A Vision Studio kipróbálása

Screenshot: Read OCR demo in Vision Studio.

OCR által támogatott nyelvek

Az Azure AI Visionben ma elérhető olvasási verziók számos nyelvet támogatnak nyomtatott és kézzel írt szövegekhez. A nyomtatott szöveghez készült OCR támogatja az angol, francia, német, olasz, portugál, spanyol, kínai, japán, koreai, orosz, arab, hindi és más, latin, cirill, arab és devanagari szkripteket használó nemzetközi nyelveket. A kézzel írt szövegek ocr-jának támogatása az angol, a kínai egyszerűsített, a francia, a német, az olasz, a japán, a koreai, a portugál és a spanyol nyelv támogatását tartalmazza.

Tekintse meg az OCR által támogatott nyelvek teljes listáját.

AZ OCR gyakori funkciói

Az olvasási OCR-modell az Azure AI Visionben és a Dokumentumintelligencia szolgáltatásban érhető el, közös alapkonfigurációs képességekkel, miközben optimalizálja a megfelelő forgatókönyveket. Az alábbi lista a gyakori funkciókat foglalja össze:

Nyomtatott és kézzel írt szöveg kinyerése támogatott nyelveken
Oldalak, szövegsorok és szavak hely- és megbízhatósági pontszámokkal
Vegyes nyelvek, vegyes mód (nyomtatás és kézzel írt) támogatása
Disztribúció nélküli Docker-tárolóként érhető el a helyszíni üzembe helyezéshez

Az OCR felhőalapú API-k használata vagy helyszíni üzembe helyezés

A felhőalapú API-k a legtöbb ügyfél számára előnyben részesített lehetőségnek számítanak az egyszerű integráció és a gyors hatékonyság miatt. Az Azure és az Azure AI Vision szolgáltatás kezeli a méretezési, teljesítmény-, adatbiztonsági és megfelelőségi igényeket, miközben az ügyfelek igényeinek kielégítésére összpontosít.

A helyszíni üzembe helyezéshez a Read Docker-tárolóval üzembe helyezheti az Azure AI Vision 3.2-s általánosan elérhető OCR-képességeit a saját helyi környezetében. A tárolók kiválóan alkalmasak adott biztonsági és adatszabályozási követelményekhez.

OCR-adatok védelme és biztonsága

Az Azure AI-szolgáltatásokhoz hasonlóan az Azure AI Vision szolgáltatást használó fejlesztőknek is tisztában kell lenniük a Microsoft ügyféladatokra vonatkozó szabályzataival. További információért tekintse meg az Azure AI-szolgáltatások oldalát a Microsoft Adatvédelmi központban.

Következő lépések

OCR általános (nem dokumentumos) rendszerképekhez: próbálja ki az Azure AI Vision 4.0 előzetes képelemzési REST API rövid útmutatóját.
OCR PDF-, Office- és HTML-dokumentumokhoz és dokumentumképekhez: kezdje a Dokumentumintelligencia olvasásával.
Az előző GA-verziót keresi? Tekintse meg az Azure AI Vision 3.2 GA SDK vagy a REST API rövid útmutatóit.