Co to jest optyczne rozpoznawanie znaków?

Optyczne rozpoznawanie znaków (OCR) umożliwia wyodrębnianie z obrazów tekstu drukowanego lub odręcznego, takiego jak zdjęcia znaków i produktów na ulicy, a także z dokumentów faktur, rachunki, raportów finansowych, artykułów i — innych. Technologie OCR firmy Microsoft obsługują wyodrębnianie tekstu drukowanego w kilku językach. Skorzystaj z przewodnika Szybki start, aby rozpocząć pracę.

Pokazy OCR

Ta dokumentacja zawiera następujące typy artykułów:

  • Przewodnik Szybki start to instrukcje krok po kroku, które pozwalają na wywołania usługi i uzyskiwanie wyników w krótkim czasie.
  • Przewodniki z instrukcjami zawierają instrukcje dotyczące korzystania z usługi w bardziej szczegółowe lub dostosowane sposoby.

Odczytywanie interfejsu API

Interfejs API przetwarzanie obrazów Read to najnowsza technologia OCR platformy Azure(dowiedzsię, co nowego), która wyodrębnia tekst drukowany (w kilku językach), tekst odręczny (tylko w języku angielskim), cyfry i symbole walut z obrazów oraz wielostronicowych dokumentów PDF. Jest ona zoptymalizowana pod kątem wyodrębniania tekstu z obrazów z dużym obciążeniem tekstem i wielostronicowych dokumentów PDF w różnych językach. Obsługuje wykrywanie zarówno tekstu drukowanego, jak i odręcznego na tym samym obrazie lub dokumencie.

Jak OCR konwertuje obrazy i dokumenty na ustrukturyzowane dane wyjściowe z wyodrębnianym tekstem

Wymagania dotyczące danych wejściowych

Wywołanie Read pobiera obrazy i dokumenty jako dane wejściowe. Mają one następujące wymagania:

  • Obsługiwane formaty plików: JPEG, PNG, BMP, PDF i TIFF
  • W przypadku plików PDF i TIFF przetwarzanych jest maksymalnie 2000 stron (tylko dwie pierwsze strony w warstwie Bezpłatna).
  • Rozmiar pliku musi być mniejszy niż 50 MB (4 MB dla warstwy Bezpłatna) i mieć wymiary co najmniej 50 x 50 pikseli i nie więcej niż 10000 x 10000 pikseli.

Obsługiwane języki

Interfejs API odczytu obsługuje łącznie 73 języki dla tekstu w stylu wydruku. Zapoznaj się z pełną listą języków obsługiwanych przez OCR. Rozpoznawanie znaków OCR w stylu odręcznym jest obsługiwane wyłącznie w języku angielskim.

Najważniejsze funkcje

Interfejs API odczytu zawiera następujące funkcje.

  • Wyodrębnianie tekstu wydruku w 73 językach
  • Wyodrębnianie tekstu odręcznego w języku angielskim
  • Wiersze tekstowe i wyrazy z wynikami lokalizacji i ufności
  • Nie jest wymagana identyfikacja języka
  • Obsługa języków mieszanych, tryb mieszany (drukowanie i odręczne)
  • Wybieranie stron i zakresów stron z dużych dokumentów wielostronicowych
  • Naturalna kolejność odczytywania wierszy tekstu
  • Klasyfikacja pisma ręcznego dla wierszy tekstu
  • Dostępny jako kontener platformy Docker bez dystrybucji do wdrożenia lokalnego

Dowiedz się, jak używać funkcji OCR.

Korzystanie z interfejsu API w chmurze lub wdrażanie lokalne

Interfejsy API odczytu w chmurze Read 3.x są preferowaną opcją dla większości klientów ze względu na łatwość integracji i błyskawiczną produktywność. Platforma Azure i przetwarzanie obrazów obsługują potrzeby w zakresie skalowania, wydajności, bezpieczeństwa danych i zgodności, jednocześnie koncentrowanie się na spełnianiu potrzeb klientów.

W przypadku wdrożenia lokalnego kontener do odczytu platformy Docker (wersja zapoznawcza) umożliwia wdrożenie nowych funkcji OCR we własnym środowisku lokalnym. Kontenery doskonale nadają się do określonych wymagań w zakresie zabezpieczeń i zarządzania danymi.

OCR API

Starszy interfejs API OCR używa starszego modelu rozpoznawania, obsługuje tylko obrazy i wykonuje je synchronicznie, natychmiast wracając do wykrytego tekstu. Listę obsługiwanych języków można znaleźć w kolumnie OCR obsługiwanych języków.

Ostrzeżenie

Operacje przetwarzanie obrazów 2.0 RecognizeText są w trakcie oznaczania jako przestarzałe na rzecz nowego interfejsu API odczytu uwzględnionego w tym artykule. Istniejący klienci powinni przejść na operacje odczytu.

Prywatność i zabezpieczenia danych

Jak w przypadku wszystkich usług Cognitive Services, deweloperzy korzystający z usługi przetwarzania obrazów powinni znać zasady firmy Microsoft dotyczące danych klientów. Zobacz stronę usług Cognitive Services w Centrum zaufania firmy Microsoft, aby dowiedzieć się więcej.

Następne kroki