Nyomtatott és kézzel írt szöveg felismeréseRecognize printed and handwritten text

Computer Vision számos olyan szolgáltatást biztosít, amely a képeken megjelenő nyomtatott vagy kézírásos szöveg észlelésére és kinyerésére szolgál.Computer Vision provides a number of services that detect and extract printed or handwritten text that appears in images. Ez számos olyan forgatókönyvben hasznos, mint például a jegyzet készítése, az orvosi nyilvántartások, a biztonság és a banki szolgáltatások.This is useful in a variety of scenarios such as note taking, medical records, security, and banking. A következő három szakaszban három különböző, különböző használati esetekre optimalizált szöveges felismerési API található.The following three sections detail three different text recognition APIs, each optimized for different use cases.

API olvasásaRead API

Az olvasási API a legújabb felismerési modellek használatával észleli a képek szöveges tartalmát, és átalakítja az azonosított szöveget egy géppel olvasható, a gép számára olvasható adatfolyamba.The Read API detects text content in an image using our latest recognition models and converts the identified text into a machine-readable character stream. Ez a szöveg-nagy méretű képekre (például a digitálisan ellenőrzött dokumentumokra) és a sok vizuális zajjal rendelkező képekre van optimalizálva.It's optimized for text-heavy images (such as documents that have been digitally scanned) and for images with a lot of visual noise. Meghatározza, hogy melyik felismerési modellt kell használni az egyes szövegekhez, valamint a nyomtatott és a kézzel írott szöveggel is alátámasztott képeket.It will determine which recognition model to use for each line of text, supporting images with both printed and handwritten text. Az olvasási API aszinkron módon hajtható végre, mert a nagyobb dokumentumok több percet is igénybe vehetnek.The Read API executes asynchronously because larger documents can take several minutes to return a result.

Az olvasási művelet megőrzi a felismert szavak eredeti sorát a kimenetében.The Read operation maintains the original line groupings of recognized words in its output. Az egyes sorokhoz tartozik egy határolókeret koordinátái, és a sorban lévő minden szó saját koordinátákkal is rendelkezik.Each line comes with bounding box coordinates, and each word within the line also has its own coordinates. Ha egy szót alacsony megbízhatósággal ismertek fel, akkor az adatokat is továbbítjuk.If a word was recognized with low confidence, that information is conveyed as well. További információért tekintse meg az API -k olvasása című dokumentációt.See the Read API reference docs to learn more.

Megjegyzés

Ez a funkció csak angol nyelvű szöveg esetén érhető el.This feature is only available for English text.

A rendszerképre vonatkozó követelményekImage requirements

Az olvasási API az alábbi követelményeknek megfelelő rendszerképekkel működik:The Read API works with images that meet the following requirements:

  • A képet JPEG, PNG, BMP, PDF vagy TIFF formátumban kell megjeleníteni.The image must be presented in JPEG, PNG, BMP, PDF, or TIFF format.
  • A rendszerkép méretének 50 x 50 és 10000 x 10000 képpont közé kell esnie.The dimensions of the image must be between 50 x 50 and 10000 x 10000 pixels. A PDF-lapoknak 17 x 17 hüvelyk vagy kisebbnek kell lenniük.PDF pages must be 17 x 17 inches or smaller.
  • A rendszerkép fájlméretének kisebbnek kell lennie 20 megabájtnál (MB).The file size of the image must be less than 20 megabytes (MB).

KorlátozásokLimitations

Ha ingyenes szintű előfizetést használ, az olvasási API csak egy PDF-vagy TIFF-dokumentum első két oldalát dolgozza fel.If you are using a free-tier subscription, the Read API will only process the first two pages of a PDF or TIFF document. Fizetős előfizetéssel akár 200 lapot is feldolgozhat.With a paid subscription, it will process up to 200 pages. Azt is vegye figyelembe, hogy az API legfeljebb 300 sort fog érzékelni oldalanként.Also note that the API will detect a maximum of 300 lines per page.

OCR (optikai karakterfelismerés) APIOCR (optical character recognition) API

Computer Vision optikai karakterfelismerési (OCR) API hasonló az olvasási API-hoz, de szinkron módon fut, és nem nagy méretű dokumentumokra van optimalizálva.Computer Vision's optical character recognition (OCR) API is similar to the Read API, but it executes synchronously and is not optimized for large documents. Egy korábbi felismerési modellt használ, de több nyelven is működik; a támogatott nyelvek teljes listáját a nyelvi támogatás részben tekintheti meg.It uses an earlier recognition model but works with more languages; see Language support for a full list of the supported languages.

Ha szükséges, az OCR kijavította a felismert szöveg forgását úgy, hogy a vízszintes képtengelyre vonatkozó fokban adja vissza a rotációs eltolást.If necessary, OCR corrects the rotation of the recognized text by returning the rotational offset in degrees about the horizontal image axis. Az OCR az egyes szavak keretének koordinátáit is megadja az alábbi ábrán látható módon.OCR also provides the frame coordinates of each word, as seen in the following illustration.

Egy elforgatott kép és annak szövege olvasható és körülhatárolt

További információt az OCR -dokumentációban talál.See the OCR reference docs to learn more.

A rendszerképre vonatkozó követelményekImage requirements

Az OCR API olyan rendszerképeken működik, amelyek megfelelnek az alábbi követelményeknek:The OCR API works on images that meet the following requirements:

  • A képet JPEG, PNG, GIF vagy BMP formátumban kell megjeleníteni.The image must be presented in JPEG, PNG, GIF, or BMP format.
  • A bemeneti rendszerkép méretének 50 x 50 és 4200 x 4200 képpont közé kell esnie.The size of the input image must be between 50 x 50 and 4200 x 4200 pixels.
  • A képen látható szöveg a 90 fokos többszörösével, valamint egy kisebb, legfeljebb 40 fokos szöggel forgatható el.The text in the image can be rotated by any multiple of 90 degrees plus a small angle of up to 40 degrees.

KorlátozásokLimitations

Azokon a fényképeken, ahol a szöveg domináns, a hamis pozitív szavak a részben felismert szavakat eredményezik.On photographs where text is dominant, false positives may come from partially recognized words. Egyes fényképeken, különösen szöveg nélkül, a pontosság a rendszerkép típusától függően változhat.On some photographs, especially photos without any text, precision can vary depending on the type of image.

szövegfelismerés APIRecognize Text API

Megjegyzés

A szövegfelismerés API az olvasási API mellett elavult.The Recognize Text API is being deprecated in favor of the Read API. Az olvasási API hasonló képességekkel rendelkezik, és frissül a PDF-, a TIFF-és a többoldalas fájlok kezeléséhez.The Read API has similar capabilities and is updated to handle PDF, TIFF, and multi-page files.

A szövegfelismerés API hasonló az OCR-hez, de aszinkron módon fut, és frissített felismerő modelleket használ.The Recognize Text API is similar to OCR, but it executes asynchronously and uses updated recognition models. További információért tekintse meg az SZÖVEGFELISMERÉS API -dokumentációt.See the Recognize Text API reference docs to learn more.

A rendszerképre vonatkozó követelményekImage requirements

A szövegfelismerés API a következő követelményeknek megfelelő rendszerképekkel működik:The Recognize Text API works with images that meet the following requirements:

  • A képet JPEG, PNG vagy BMP formátumban kell megjeleníteni.The image must be presented in JPEG, PNG, or BMP format.
  • A rendszerkép méretének 50 x 50 és 4200 x 4200 képpont közé kell esnie.The dimensions of the image must be between 50 x 50 and 4200 x 4200 pixels.
  • A rendszerkép fájlméretének 4 megabájtnál (MB) kisebbnek kell lennie.The file size of the image must be less than 4 megabytes (MB).

KorlátozásokLimitations

A szöveges felismerési műveletek pontossága a képek minőségétől függ.The accuracy of text recognition operations depends on the quality of the images. A következő tényezők pontatlan olvasást eredményezhetnek:The following factors may cause an inaccurate reading:

  • Elmosódott képek.Blurry images.
  • Kézzel írt, folyóírásos szöveg.Handwritten or cursive text.
  • Művészi betűstílusok.Artistic font styles.
  • Kis méretű szöveg.Small text size.
  • Bonyolult háttér, árnyékok, a szöveget átfedő fényhatás vagy perspektivikus torzítás.Complex backgrounds, shadows, or glare over text or perspective distortion.
  • Túlméretezett vagy hiányzó nagybetűk a szavak elején.Oversized or missing capital letters at the beginnings of words.
  • Felső vagy alsó indexben lévő, vagy áthúzott szöveg.Subscript, superscript, or strikethrough text.

További lépésekNext steps

A szöveges felismerés egyszerű C# alkalmazásban való megvalósításához kövesse a nyomtatott szöveg kibontása (OCR) rövid útmutatót.Follow the Extract printed text (OCR) quickstart to implement text recognition in a simple C# app.