Model Form Recognizer Read OCR

Pratinjau Form Recognizer v3.0 menyertakan model Read Optical Character Recognition (OCR) baru. Model Read OCR mengekstrak teks typeface dan tertulis termasuk bahasa campuran dalam dokumen. Model Read OCR dapat mendeteksi garis, kata, lokasi, dan bahasa dan merupakan inti dari semua model Form Recognizer lainnya. Model tata letak, dokumen umum, kustom, dan bawaan semuanya menggunakan model Read OCR sebagai dasar untuk mengekstrak teks dari dokumen.

Jenis dokumen yang didukung

Model Citra PDF Format File Gambar Bertag Word Excel PowerPoint HTML
Baca

Ekstraksi data

Model baca Teks Deteksi bahasa
baca bawaan

Opsi pengembangan

Sumber daya berikut didukung oleh Form Recognizer v3.0:

Fitur Sumber ID Model
Model baca baca bawaan

Coba Azure Form Recognizer

Coba ekstrak teks dari formulir dan dokumen menggunakan Form Recognizer Studio. Anda akan memerlukan item berikut:

  • Langganan Azure—Anda dapat membuat langganan gratis

  • Sebuah instans Form Recognizer di portal Microsoft Azure. Anda dapat menggunakan tingkat harga gratis (F0) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, klik Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.

Screenshot: keys and endpoint location in the Azure portal.

Form Recognizer Studio (pratinjau)

Catatan

Saat ini, Form Recognizer Studio tidak mendukung format file Microsoft Word, Excel, PowerPoint, dan HTML dalam pratinjau Read.

Sampel formulir yang diproses dengan Form Recognizer Studio

Screenshot: Read processing in Form Recognizer Studio.

  1. Pada beranda Form Recognizer Studio, pilih Baca

  2. Anda dapat menganalisis dokumen sampel atau memilih tombol + Tambahkan untuk mengunggah sampel Anda sendiri.

  3. Pilih tombol Analisis:

    Screenshot: analyze read menu.

Persyaratan input

  • Format file yang didukung: Termasuk JPEG/JPG, PNG, BMP, Format File Gambar Bertag, dan PDF (teks tersemat atau dipindai). Selain itu, API versi 2022-06-30-preview terbaru mendukung file Microsoft Word (DOCX), Excel (XLS), PowerPoint (PPT), dan HTML.
  • Untuk PDF dan TIFF, hingga 2000 halaman yang dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).
  • Ukuran file harus kurang dari 500 MB untuk tingkat berbayar (S0) dan 4 MB untuk tingkat gratis (F0).
  • Dimensi gambar harus antara 50 x 50 piksel dan 10,000 x 10,000 piksel.
  • Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar 1024X768. Dimensi ini sesuai dengan sekitar teks titik delapan font pada 150 DPI.

Bahasa dan lokal yang didukung

Versi pratinjau Form Recognizer mendukung beberapa bahasa untuk model baca. LihatDukungan Bahasa kami untuk daftar lengkap bahasa tulis tangan dan dicetak yang didukung.

Deteksi dan ekstraksi data

Halaman

Dengan dukungan tambahan untuk file Microsoft Word, Excel, PowerPoint, dan HTML, unit halaman dalam output model dikomputasi seperti yang ditampilkan:

Format file Unit halaman terkomputasi Total halaman
Gambar Setiap gambar = 1 unit halaman Total gambar
PDF Setiap halaman dalam PDF = 1 unit halaman Total halaman dalam PDF
Word Hingga 3.000 karakter = 1 unit halaman, Setiap gambar yang disematkan = 1 unit halaman Total halaman hingga 3.000 karakter masing-masing + Total gambar yang disematkan
Excel Setiap lembar kerja = 1 unit halaman, Setiap gambar yang disematkan = 1 unit halaman Total lembar kerja + Total gambar
PowerPoint Setiap slide = 1 unit halaman, Setiap gambar yang disematkan = 1 unit halaman Total slide + Total gambar
HTML Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung Total halaman hingga 3.000 karakter masing-masing

Baris teks dan kata-kata

Baca ekstrak teks gaya cetak dan tulisan tangan sebagai lines dan words. Model menghasilkan koordinat polygon yang terikat dan confidence untuk kata-kata yang diekstraksi. Koleksi styles mencakup gaya tulisan tangan apa pun untuk garis jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa komputer tulisan tangan yang didukung.

Untuk format file Microsoft Word, Excel, PowerPoint, dan HTML, Read akan mengekstrak semua teks yang disematkan apa adanya. Untuk setiap gambar yang disematkan, Read akan menjalankan OCR pada gambar untuk mengekstrak teks dan menambahkan teks dari setiap gambar sebagai entri tambahan ke koleksi pages. Entri yang ditambahkan ini akan mencakup baris teks dan kata yang diekstrak, poligon batas, keyakinan, dan rentang yang menunjuk ke teks terkait.

Deteksi bahasa

Read menambahkan deteksi bahasa sebagai fitur baru untuk baris teks. Read akan memprediksi semua bahasa komputer yang terdeteksi untuk baris teks bersama dengan confidence dalam koleksi languages di bawah analyzeResult.

Pilih rentang halaman untuk mengekstraksi teks

Untuk dokumen PDF yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk mengekstrak teks.

Catatan

Untuk format file Microsoft Word, Excel, PowerPoint, dan HTML, Read API mengabaikan parameter halaman dan mengekstrak semua halaman secara default.

Langkah berikutnya

Selesaikan mulai cepat Form Recognizer:

Jelajahi REST API kami: