Model Form Recognizer Read OCR
Pratinjau Form Recognizer v3.0 menyertakan model Read Optical Character Recognition (OCR) baru. Model Read OCR mengekstrak teks typeface dan tertulis termasuk bahasa campuran dalam dokumen. Model Read OCR dapat mendeteksi garis, kata, lokasi, dan bahasa dan merupakan inti dari semua model Form Recognizer lainnya. Model tata letak, dokumen umum, kustom, dan bawaan semuanya menggunakan model Read OCR sebagai dasar untuk mengekstrak teks dari dokumen.
Jenis dokumen yang didukung
| Model | Citra | Format File Gambar Bertag | Word | Excel | PowerPoint | HTML | |
|---|---|---|---|---|---|---|---|
| Baca | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
Ekstraksi data
| Model baca | Teks | Deteksi bahasa |
|---|---|---|
| baca bawaan | ✓ | ✓ |
Opsi pengembangan
Sumber daya berikut didukung oleh Form Recognizer v3.0:
| Fitur | Sumber | ID Model |
|---|---|---|
| Model baca | baca bawaan |
Coba Azure Form Recognizer
Coba ekstrak teks dari formulir dan dokumen menggunakan Form Recognizer Studio. Anda akan memerlukan item berikut:
Langganan Azure—Anda dapat membuat langganan gratis
Sebuah instans Form Recognizer di portal Microsoft Azure. Anda dapat menggunakan tingkat harga gratis (
F0) untuk mencoba layanan. Setelah sumber daya Anda disebarkan, klik Buka sumber daya untuk mendapatkan kunci dan titik akhir Anda.
Form Recognizer Studio (pratinjau)
Catatan
Saat ini, Form Recognizer Studio tidak mendukung format file Microsoft Word, Excel, PowerPoint, dan HTML dalam pratinjau Read.
Sampel formulir yang diproses dengan Form Recognizer Studio
Pada beranda Form Recognizer Studio, pilih Baca
Anda dapat menganalisis dokumen sampel atau memilih tombol + Tambahkan untuk mengunggah sampel Anda sendiri.
Pilih tombol Analisis:
Persyaratan input
- Format file yang didukung: Termasuk JPEG/JPG, PNG, BMP, Format File Gambar Bertag, dan PDF (teks tersemat atau dipindai). Selain itu, API versi
2022-06-30-previewterbaru mendukung file Microsoft Word (DOCX), Excel (XLS), PowerPoint (PPT), dan HTML. - Untuk PDF dan TIFF, hingga 2000 halaman yang dapat diproses (dengan langganan tingkat gratis, hanya dua halaman pertama yang diproses).
- Ukuran file harus kurang dari 500 MB untuk tingkat berbayar (S0) dan 4 MB untuk tingkat gratis (F0).
- Dimensi gambar harus antara 50 x 50 piksel dan 10,000 x 10,000 piksel.
- Tinggi minimum teks yang akan diekstrak adalah 12 piksel untuk gambar 1024X768. Dimensi ini sesuai dengan sekitar teks titik delapan font pada 150 DPI.
Bahasa dan lokal yang didukung
Versi pratinjau Form Recognizer mendukung beberapa bahasa untuk model baca. LihatDukungan Bahasa kami untuk daftar lengkap bahasa tulis tangan dan dicetak yang didukung.
Deteksi dan ekstraksi data
Halaman
Dengan dukungan tambahan untuk file Microsoft Word, Excel, PowerPoint, dan HTML, unit halaman dalam output model dikomputasi seperti yang ditampilkan:
| Format file | Unit halaman terkomputasi | Total halaman |
|---|---|---|
| Gambar | Setiap gambar = 1 unit halaman | Total gambar |
| Setiap halaman dalam PDF = 1 unit halaman | Total halaman dalam PDF | |
| Word | Hingga 3.000 karakter = 1 unit halaman, Setiap gambar yang disematkan = 1 unit halaman | Total halaman hingga 3.000 karakter masing-masing + Total gambar yang disematkan |
| Excel | Setiap lembar kerja = 1 unit halaman, Setiap gambar yang disematkan = 1 unit halaman | Total lembar kerja + Total gambar |
| PowerPoint | Setiap slide = 1 unit halaman, Setiap gambar yang disematkan = 1 unit halaman | Total slide + Total gambar |
| HTML | Hingga 3.000 karakter = 1 unit halaman, gambar yang disematkan atau ditautkan tidak didukung | Total halaman hingga 3.000 karakter masing-masing |
Baris teks dan kata-kata
Baca ekstrak teks gaya cetak dan tulisan tangan sebagai lines dan words. Model menghasilkan koordinat polygon yang terikat dan confidence untuk kata-kata yang diekstraksi. Koleksi styles mencakup gaya tulisan tangan apa pun untuk garis jika terdeteksi bersama dengan rentang yang menunjuk ke teks terkait. Fitur ini berlaku untuk bahasa komputer tulisan tangan yang didukung.
Untuk format file Microsoft Word, Excel, PowerPoint, dan HTML, Read akan mengekstrak semua teks yang disematkan apa adanya. Untuk setiap gambar yang disematkan, Read akan menjalankan OCR pada gambar untuk mengekstrak teks dan menambahkan teks dari setiap gambar sebagai entri tambahan ke koleksi pages. Entri yang ditambahkan ini akan mencakup baris teks dan kata yang diekstrak, poligon batas, keyakinan, dan rentang yang menunjuk ke teks terkait.
Deteksi bahasa
Read menambahkan deteksi bahasa sebagai fitur baru untuk baris teks. Read akan memprediksi semua bahasa komputer yang terdeteksi untuk baris teks bersama dengan confidence dalam koleksi languages di bawah analyzeResult.
Pilih rentang halaman untuk mengekstraksi teks
Untuk dokumen PDF yang terdiri dari beberapa halaman besar, gunakan parameter kueri pages untuk menunjukkan nomor halaman atau rentang halaman tertentu untuk mengekstrak teks.
Catatan
Untuk format file Microsoft Word, Excel, PowerPoint, dan HTML, Read API mengabaikan parameter halaman dan mengekstrak semua halaman secara default.
Langkah berikutnya
Selesaikan mulai cepat Form Recognizer:
Jelajahi REST API kami: