OCR – Optikai karakterfelismerés
Az OCR- vagy optikai karakterfelismerést szövegfelismerésnek vagy szövegkinyerésnek is nevezik. A gépi tanuláson alapuló OCR-technikákkal nyomtatott vagy kézzel írt szöveget nyerhet ki képekből, például plakátokból, utcatáblákból és termékcímkékből, valamint dokumentumokból, például cikkekből, jelentésekből, űrlapokból és számlákból. A szöveg általában szavak, szövegsorok, bekezdések vagy szövegblokkokként lesz kinyerve, lehetővé téve a beolvasott szöveg digitális verziójához való hozzáférést. Ez kiküszöböli vagy jelentősen csökkenti a manuális adatbevitel szükségességét.
Hogyan kapcsolódik az OCR az intelligens dokumentumfeldolgozáshoz (IDP)?
Az intelligens dokumentumfeldolgozás (IDP) az OCR-t használja alapszintű technológiájaként a struktúra, kapcsolatok, kulcsértékek, entitások és egyéb dokumentumcentrikus elemzések kinyeréséhez egy fejlett gépi tanuláson alapuló AI-szolgáltatással, például a Dokumentumintelligencia szolgáltatással. A Dokumentumintelligencia ocR-motorként tartalmazza a Read dokumentumoptimalizált verzióját, miközben más modellekre delegál a magasabb szintű elemzésekhez. Ha beolvasott és digitális dokumentumokból nyer ki szöveget, használja a Dokumentumintelligencia olvasási OCR-t.
OCR-motor
A Microsoft Read OCR motorja több fejlett gépi tanulási alapú modellből áll, amelyek támogatják a globális nyelveket. Képes nyomtatott és kézzel írt szövegek kinyerésében, beleértve a vegyes nyelveket és az írási stílusokat is. Az olvasás felhőszolgáltatásként és helyszíni tárolóként érhető el az üzembe helyezés rugalmassága érdekében. A legújabb előzetes verzióval szinkron API-ként is elérhető egyetlen, nem dokumentumos, csak képekkel rendelkező forgatókönyvekhez, amelyek teljesítménybeli fejlesztései megkönnyítik az OCR által támogatott felhasználói élmények megvalósítását.
Figyelmeztetés
A v3.2-es verzióban az Azure AI Vision örökölt OCR API és a 2.1-es v2.1-es műveletekben található RecognizeText API nem ajánlott.
OCR (Olvasás) kiadások
Fontos
Válassza ki a követelményeknek leginkább megfelelő olvasási kiadást.
Bevitel | Példák | Kiadás olvasása | Juttatás |
---|---|---|---|
Képek: Általános, vadon élő képek | címkék, utcatáblák és plakátok | OCR képekhez (4.0-s verzió) | Általános, nem dokumentumképekhez optimalizált, teljesítmény-továbbfejlesztett szinkron API-val, amely megkönnyíti az OCR beágyazását a felhasználói élmény forgatókönyveibe. |
Dokumentumok: Digitális és szkennelt, képeket is beleértve | könyvek, cikkek és jelentések | Dokumentumintelligencia-olvasási modell | Aszinkron API-val szövegigényes beolvasott és digitális dokumentumokhoz optimalizálva az intelligens dokumentumfeldolgozás nagy léptékű automatizálásához. |
Tudnivalók az Azure AI Vision 3.2-s ga-olvasásáról
A legújabb Azure AI Vision v3.2 GA-olvasást keresi? A Read OCR jövőbeli fejlesztései a korábban felsorolt két szolgáltatás részét képezik. Nincsenek további frissítések az Azure AI Vision 3.2-ben. További információ: Az Azure AI Vision 3.2 GA Read API meghívása és rövid útmutató: Azure AI Vision v3.2 GA Read.
Az OCR használata
Próbálja ki az OCR-t a Vision Studióval. Ezután kövesse az olvasási kiadásra mutató hivatkozások egyikét, amely a legjobban megfelel a követelményeknek.
OCR által támogatott nyelvek
Az Azure AI Visionben ma elérhető olvasási verziók számos nyelvet támogatnak nyomtatott és kézzel írt szövegekhez. A nyomtatott szöveghez készült OCR támogatja az angol, francia, német, olasz, portugál, spanyol, kínai, japán, koreai, orosz, arab, hindi és más, latin, cirill, arab és devanagari szkripteket használó nemzetközi nyelveket. A kézzel írt szövegek ocr-jának támogatása az angol, a kínai egyszerűsített, a francia, a német, az olasz, a japán, a koreai, a portugál és a spanyol nyelv támogatását tartalmazza.
Tekintse meg az OCR által támogatott nyelvek teljes listáját.
AZ OCR gyakori funkciói
Az olvasási OCR-modell az Azure AI Visionben és a Dokumentumintelligencia szolgáltatásban érhető el, közös alapkonfigurációs képességekkel, miközben optimalizálja a megfelelő forgatókönyveket. Az alábbi lista a gyakori funkciókat foglalja össze:
- Nyomtatott és kézzel írt szöveg kinyerése támogatott nyelveken
- Oldalak, szövegsorok és szavak hely- és megbízhatósági pontszámokkal
- Vegyes nyelvek, vegyes mód (nyomtatás és kézzel írt) támogatása
- Disztribúció nélküli Docker-tárolóként érhető el a helyszíni üzembe helyezéshez
Az OCR felhőalapú API-k használata vagy helyszíni üzembe helyezés
A felhőalapú API-k a legtöbb ügyfél számára előnyben részesített lehetőségnek számítanak az egyszerű integráció és a gyors hatékonyság miatt. Az Azure és az Azure AI Vision szolgáltatás kezeli a méretezési, teljesítmény-, adatbiztonsági és megfelelőségi igényeket, miközben az ügyfelek igényeinek kielégítésére összpontosít.
A helyszíni üzembe helyezéshez a Read Docker-tárolóval üzembe helyezheti az Azure AI Vision 3.2-s általánosan elérhető OCR-képességeit a saját helyi környezetében. A tárolók kiválóan alkalmasak adott biztonsági és adatszabályozási követelményekhez.
OCR-adatok védelme és biztonsága
Az Azure AI-szolgáltatásokhoz hasonlóan az Azure AI Vision szolgáltatást használó fejlesztőknek is tisztában kell lenniük a Microsoft ügyféladatokra vonatkozó szabályzataival. További információért tekintse meg az Azure AI-szolgáltatások oldalát a Microsoft Adatvédelmi központban.
Következő lépések
- OCR általános (nem dokumentumos) rendszerképekhez: próbálja ki az Azure AI Vision 4.0 előzetes képelemzési REST API rövid útmutatóját.
- OCR PDF-, Office- és HTML-dokumentumokhoz és dokumentumképekhez: kezdje a Dokumentumintelligencia olvasásával.
- Az előző GA-verziót keresi? Tekintse meg az Azure AI Vision 3.2 GA SDK vagy a REST API rövid útmutatóit.