Model saraf kustom Form Recognizer
Model saraf kustom atau model saraf adalah model pembelajaran mendalam yang menggabungkan fitur tata letak dan bahasa pemrogram untuk mengekstrak bidang berlabel secara akurat dari dokumen. Model saraf kustom dasar dilatih pada berbagai jenis dokumen yang membuatnya cocok untuk dilatih untuk mengekstraksi bidang dari dokumen terstruktur, semi-terstruktur dan tidak terstruktur. Tabel di bawah ini mencantumkan tipe dokumen umum untuk setiap kategori:
| Dokumen | Contoh |
|---|---|
| terstruktur | survei, kuesioner |
| semi-terstruktur | faktur, pesanan pembelian |
| tidak terstruktur | kontrak, surat |
Model neural kustom memiliki format dan strategi pelabelan yang sama dengan model template kustom. Saat ini model neural kustom hanya mendukung subset dari jenis bidang yang didukung oleh model templat kustom.
Kemampuan model
Model neural kustom saat ini hanya mendukung pasangan nilai kunci dan tanda pilihan, rilis di masa mendatang akan mencakup dukungan untuk bidang terstruktur (tabel) dan tanda tangan.
| Bidang formulir | Tanda pilihan | Bidang tabular | Tanda Tangan | Wilayah |
|---|---|---|---|---|
| Didukung | Didukung | Didukung | Tidak didukung | Tidak didukung |
Bidang tabular
Dengan rilisnya API versi 2022-06-30-preview, model neural kustom akan mendukung bidang tabular (tabel):
- Model yang dilatih dengan API versi 2022-06-30-pratinjau atau yang lebih baru akan menerima label bidang tabular.
- Dokumen yang dianalisis dengan model neural kustom menggunakan API versi pratinjau 2022-06-30 atau yang lebih baru akan menghasilkan bidang tabular yang dikumpulkan di seluruh tabel.
- Hasilnya dapat ditemukan di array
documentsobjekanalyzeResultyang dikembalikan setelah operasi analisis.
Bidang tabular mendukung tabel lintas halaman secara default:
- Untuk melabeli tabel yang mencakup beberapa halaman, beri label pada setiap baris tabel di seluruh halaman yang berbeda dalam satu tabel.
- Sebagai praktik terbaik, pastikan himpunan data Anda berisi beberapa sampel variasi yang diharapkan. Misalnya, sertakan sampel di mana seluruh tabel berada pada satu halaman dan di mana tabel mencakup dua halaman atau lebih.
Bidang tabular juga berguna saat mengekstrak informasi berulang dalam dokumen yang tidak dikenali sebagai tabel. Misalnya, bagian berulang dari pengalaman kerja dalam resume dapat diberi label dan diekstrak sebagai bidang tabular.
Wilayah yang didukung
Mulai tanggal 1 Agustus 2022, pelatihan model neural kustom Form Recognizer hanya akan tersedia di wilayah Azure berikut hingga pemberitahuan lebih lanjut:
- Brasil Selatan
- Kanada Tengah
- India Tengah
- Jepang Timur
- Eropa Barat
- US Tengah Selatan
- Asia Tenggara
Tip
Anda dapat menyalin model yang dilatih di salah satu wilayah terpilih yang tercantum di atas ke wilayah lain dan menggunakannya sebagaimana mestinya.
Praktik terbaik
Model neural kustom berbeda dari model templat kustom dalam beberapa cara berbeda. Template kustom atau model bergantung pada template visual yang konsisten untuk mengekstrak data berlabel. Model neural kustom mendukung dokumen terstruktur, semi-terstruktur, dan tidak terstruktur untuk mengekstrak bidang. Saat memilih di antara dua jenis model, mulailah dengan model neural, dan uji untuk menentukan apakah model tersebut mendukung kebutuhan fungsional Anda.
Berurusan dengan variasi
Model neural kustom dapat menggeneralisasi berbagai format dari satu jenis dokumen. Sebagai praktik terbaik, buat satu model untuk semua variasi jenis dokumen. Tambahkan setidaknya lima sampel berlabel untuk masing-masing variasi yang berbeda ke himpunan data pelatihan.
Penamaan bidang
Saat Anda memberi label data, pelabelan bidang yang relevan dengan nilai akan meningkatkan akurasi pasangan nilai kunci yang diekstraksi. Misalnya, untuk nilai bidang yang berisi ID pemasok, pertimbangkan untuk menamai bidang "supplier_id". Nama bidang harus dalam bahasa dokumen.
Pelabelan nilai yang berdekatan
Nilai token/kata dari satu bidang harus
- Urutan berturut-turut dalam urutan membaca alami tanpa interleaving dengan bidang lain
- Di wilayah yang tidak mencakup bidang lain
Data perwakilan
Nilai-nilai dalam kasus pelatihan harus beragam dan representatif. Misalnya, jika bidang diberi nama "tanggal", nilai untuk bidang ini harus menjadi tanggal. nilai sintetis seperti untai (karakter) acak dapat memengaruhi kinerja model.
Keterbatasan Saat Ini
- Model tidak mengenali nilai yang dibagi melintasi batas halaman.
- Model neural kustom hanya dilatih dalam bahasa Inggris dan kinerja model akan lebih rendah untuk dokumen dalam bahasa lain.
- Jika himpunan data yang diberi label untuk model templat kustom digunakan untuk melatih model neural kustom, jenis bidang yang tidak didukung akan diabaikan.
- Model saraf kustom dibatasi hingga 10 operasi build per bulan. Buka permintaan dukungan jika Anda ingin batasnya meningkat.
Melatih model
Model neural kustom hanya tersedia di API v3.
| Jenis dokumen | REST API | SDK | Model Label dan Uji |
|---|---|---|---|
| Dokumen kustom | Form Recognizer 3.0 (pratinjau) | SDK Pratinjau Form Recognizer | Form Recognizer Studio |
Operasi build untuk melatih model mendukung properti baru buildMode, untuk melatih model saraf khusus, mengatur ke buildModeneural.
https://{endpoint}/formrecognizer/documentModels:build?api-version=2022-06-30
{
"modelId": "string",
"description": "string",
"buildMode": "neural",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
Langkah berikutnya
Melatih model kustom:
Pelajari selengkapnya tentang model neural kustom:
Menampilkan REST API: