Mi az az optikai karakterfelismerés?

Az optikai karakterfelismerés (OCR) lehetővé teszi nyomtatott vagy kézzel írt szövegek kinyerét képekből, például utcatáblákról és termékekről készült fényképekből, valamint dokumentumokból, számlákból, pénzügyi jelentésekből, cikkekből — stb. A Microsoft OCR-technológiái számos nyelven támogatják a nyomtatott szövegek kinyerét. Az első lépésekhez kövesse a rövid útmutatót.

OCR-bemutatók

Ez a dokumentáció a következő típusú cikkeket tartalmazza:

  • A rövid útmutatók olyan részletes utasítások, amelyek segítségével hívásokat kezdeményez a szolgáltatáshoz, és rövid idő alatt lekért eredményeket.
  • Az útmutatók a szolgáltatás pontosabb vagy testreszabottabb módon való használatával kapcsolatos utasításokat tartalmaznak.

Read API

A Computer Vision Read API az Azure legújabb OCR-technológiája(ismerjemeg az újdonságokat), amely nyomtatott szöveget (több nyelven), kézzel írt szöveget (csak angol nyelven), számjegyeket és pénznemszimbólumokat olvas ki képekből és többoldalas PDF-dokumentumokból. Szövegeket nagy szövegeket és többoldalas PDF-dokumentumokat vegyes nyelvekkel lehet kinyerni. Támogatja a nyomtatott és a kézzel írt szövegek észlelését is ugyanazon a képen vagy dokumentumon.

Hogyan konvertálja az OCR a képeket és dokumentumokat strukturált kimenetre kinyert szöveggel

Bemeneti követelmények

A Read hívás bemenete képek és dokumentumok. A követelmények a következők:

  • Támogatott fájlformátumok: JPEG, PNG, BMP, PDF és TIFF
  • PDF- és TIFF-fájlok esetén legfeljebb 2000 oldal (csak az ingyenes szint első két oldala) lesz feldolgozva.
  • A fájlméretnek 50 MB-nál kisebbnek kell lennie (6 MB az ingyenes szint esetében), és legalább 50 x 50 képpont méretűnek és legalább 10000 x 10000 képpontnak kell lennie.

Támogatott nyelvek

A Read API összesen 73 nyelvet támogat a nyomtatási stílusszövegek esetében. Tekintse meg az OCR által támogatott nyelvek teljes listáját. A kézzel írt stílusú OCR kizárólag az angol nyelvhez támogatott.

A legfontosabb jellemzők

A Read API a következő funkciókat tartalmazza.

  • Szövegkinyerés nyomtatása 73 nyelven
  • Kézzel írt szöveg kinyerése angol nyelven
  • Szövegsorok és szavak hely- és megbízhatósági pontszámokkal
  • Nincs szükség nyelvazonosításra
  • Vegyes nyelvek, vegyes mód (nyomtatás és kézzel írt) támogatása
  • Oldalak és oldaltartományok kiválasztása a nagyméretű, többoldalas dokumentumoktól
  • Szövegsorok természetes olvasási sorrendje
  • Kézírás-besorolás szövegsorok számára
  • Elérhető disztribúció nélküli Docker-tárolóként a környezetben való üzembe helyezéshez

Ismerje meg az OCR funkcióinak használatát.

A felhőalapú API használata vagy a felhőben való üzembe helyezés

A legtöbb ügyfél számára a Read 3.x felhő api-k használata az előnyben részesített lehetőség, mivel az egyszerű integráció és a gyors hatékonyság már használatra készen is elérhető. Az Azure és Computer Vision szolgáltatás kezeli a méretezési, teljesítmény-, adatbiztonsági és megfelelőségi igényeket, miközben Ön az ügyfelek igényeinek megfelelően teljesít.

A helyi üzembe helyezéshez a Read Docker-tároló (előzetes verzió) lehetővé teszi az új OCR-képességek üzembe helyezését a saját helyi környezetében. A tárolók kiválóan alkalmasak adott biztonsági és adatszabályozási követelményekhez.

Figyelmeztetés

A Computer Vision 2.0 RecognizeText műveleteinek elavultnak kell lenni a cikkben szereplő új Read API használata érdekében. A meglévő ügyfeleknek olvasási műveleteket kell használniuk.

Adatvédelem és biztonság

Mint minden más Cognitive Services, az Computer Vision szolgáltatást használó fejlesztőknek tisztában kell lenniük a Microsoft ügyféladatokkal kapcsolatos szabályzatával. További Cognitive Services a Microsoft Biztonsági és biztonsági központ Cognitive Services oldalon.

Következő lépések