Vad är optisk teckenläsning?

Med optisk teckenläsning (OCR) kan du extrahera tryckt eller handskriven text från bilder, till exempel foton av gatuskyltar och produkter, samt från dokumentfakturor, fakturor, finansiella — rapporter, artiklar med mera. Microsofts OCR-teknik stöder extrahering av tryckt text på flera språk. Följ en snabbstart för att komma igång.

OCR-demonstrationer

Den här dokumentationen innehåller följande typer av artiklar:

  • Snabbstarterna är stegvisa instruktioner som gör att du kan göra anrop till tjänsten och få resultat på kort tid.
  • Instruktionsguiderna innehåller instruktioner för att använda tjänsten på mer specifika eller anpassade sätt.

Api för läsning

API:et Visuellt innehåll Read är Azures senaste OCR-teknik(lärdig vad som är nytt) som extraherar tryckt text (på flera språk), handskriven text (endast engelska), siffror och valutasymboler från bilder och PDF-dokument med flera sidor. Den är optimerad för att extrahera text från texttunga bilder och PDF-dokument med flera sidor med blandade språk. Den stöder identifiering av både tryckt och handskriven text i samma bild eller dokument.

Hur OCR konverterar bilder och dokument till strukturerade utdata med extraherad text

Indatakrav

Anropet Läsa tar bilder och dokument som indata. De har följande krav:

  • Filformat som stöds: JPEG, PNG, BMP, PDF och TIFF
  • För PDF- och TIFF-filer bearbetas upp till 2 000 sidor (endast de första två sidorna för den kostnadsfria nivån).
  • Filstorleken måste vara mindre än 50 MB (4 MB för den kostnadsfria nivån) och dimensioner minst 50 x 50 bildpunkter och högst 1 0 0000 x 1 0 000 bildpunkter.

Språk som stöds

API:et Read stöder totalt 73 språk för text i utskriftsformat. Se den fullständiga listan över OCR-språk som stöds. OCR i handskriven stil stöds exklusivt för engelska.

Huvudfunktioner

API:et Read innehåller följande funktioner.

  • Extrahering av text på 73 språk
  • Handskriven textuttrahering på engelska
  • Textrader och ord med plats- och förtroendepoäng
  • Ingen språkidentifiering krävs
  • Stöd för blandade språk, blandat läge (skriv ut och handskriven)
  • Välja sidor och sidintervall från stora dokument med flera sidor
  • Naturlig läsordning för textrader
  • Handskriftsklassificering för textrader
  • Tillgänglig som distrolös Docker-container för lokal distribution

Lär dig hur du använder OCR-funktionerna.

Använda moln-API:et eller distribuera lokalt

Read 3.x-moln-API:er är det bästa alternativet för de flesta kunder på grund av enkel integrering och snabb produktivitet. Azure och Visuellt innehåll hanterar skalning, prestanda, datasäkerhet och efterlevnadsbehov samtidigt som du fokuserar på att uppfylla dina kunders behov.

För lokal distribution gör Read Docker-containern (förhandsversion) att du kan distribuera de nya OCR-funktionerna i din egen lokala miljö. Containrar är bra för specifika säkerhets- och datastyrningskrav.

OCR API

Det äldre OCR-API:et använder en äldre igenkänningsmodell, stöder endast bilder och körs synkront och returnerar omedelbart med den identifierade texten. En lista över språk som stöds finns i kolumnen OCR för språk som stöds.

Varning

De Visuellt innehåll 2.0 RecognizeText-åtgärderna håller på att bli inaktuella för det nya Läs-API som beskrivs i den här artikeln. Befintliga kunder bör övergå till att använda läsåtgärder.

Datasekretess och säkerhet

Som med alla Cognitive Services bör utvecklare som använder tjänsten Visuellt innehåll känna till Microsofts policyer gällande kunddata. Läs mer på Cognitive Services-sidan på Microsoft Trust Center.

Nästa steg