Model saraf kustom Form Recognizer

Model saraf kustom atau model saraf adalah model pembelajaran mendalam yang menggabungkan fitur tata letak dan bahasa pemrogram untuk mengekstrak bidang berlabel secara akurat dari dokumen. Model saraf kustom dasar dilatih pada berbagai jenis dokumen yang membuatnya cocok untuk dilatih untuk mengekstraksi bidang dari dokumen terstruktur, semi-terstruktur dan tidak terstruktur. Tabel di bawah ini mencantumkan tipe dokumen umum untuk setiap kategori:

Dokumen Contoh
terstruktur survei, kuesioner
semi-terstruktur faktur, pesanan pembelian
tidak terstruktur kontrak, surat

Model neural kustom memiliki format dan strategi pelabelan yang sama dengan model template kustom. Saat ini model neural kustom hanya mendukung subset dari jenis bidang yang didukung oleh model templat kustom.

Kemampuan model

Model neural kustom saat ini hanya mendukung pasangan nilai kunci dan tanda pilihan, rilis di masa mendatang akan mencakup dukungan untuk bidang terstruktur (tabel) dan tanda tangan.

Bidang formulir Tanda pilihan Bidang tabular Tanda Tangan Wilayah
Didukung Didukung Didukung Tidak didukung Tidak didukung

Bidang tabular

Dengan rilisnya API versi 2022-06-30-preview, model neural kustom akan mendukung bidang tabular (tabel):

  • Model yang dilatih dengan API versi 2022-06-30-pratinjau atau yang lebih baru akan menerima label bidang tabular.
  • Dokumen yang dianalisis dengan model neural kustom menggunakan API versi pratinjau 2022-06-30 atau yang lebih baru akan menghasilkan bidang tabular yang dikumpulkan di seluruh tabel.
  • Hasilnya dapat ditemukan di array documents objek analyzeResult yang dikembalikan setelah operasi analisis.

Bidang tabular mendukung tabel lintas halaman secara default:

  • Untuk melabeli tabel yang mencakup beberapa halaman, beri label pada setiap baris tabel di seluruh halaman yang berbeda dalam satu tabel.
  • Sebagai praktik terbaik, pastikan himpunan data Anda berisi beberapa sampel variasi yang diharapkan. Misalnya, sertakan sampel di mana seluruh tabel berada pada satu halaman dan di mana tabel mencakup dua halaman atau lebih.

Bidang tabular juga berguna saat mengekstrak informasi berulang dalam dokumen yang tidak dikenali sebagai tabel. Misalnya, bagian berulang dari pengalaman kerja dalam resume dapat diberi label dan diekstrak sebagai bidang tabular.

Wilayah yang didukung

Mulai tanggal 1 Agustus 2022, pelatihan model neural kustom Form Recognizer hanya akan tersedia di wilayah Azure berikut hingga pemberitahuan lebih lanjut:

  • Brasil Selatan
  • Kanada Tengah
  • India Tengah
  • Jepang Timur
  • Eropa Barat
  • US Tengah Selatan
  • Asia Tenggara

Tip

Anda dapat menyalin model yang dilatih di salah satu wilayah terpilih yang tercantum di atas ke wilayah lain dan menggunakannya sebagaimana mestinya.

Praktik terbaik

Model neural kustom berbeda dari model templat kustom dalam beberapa cara berbeda. Template kustom atau model bergantung pada template visual yang konsisten untuk mengekstrak data berlabel. Model neural kustom mendukung dokumen terstruktur, semi-terstruktur, dan tidak terstruktur untuk mengekstrak bidang. Saat memilih di antara dua jenis model, mulailah dengan model neural, dan uji untuk menentukan apakah model tersebut mendukung kebutuhan fungsional Anda.

Berurusan dengan variasi

Model neural kustom dapat menggeneralisasi berbagai format dari satu jenis dokumen. Sebagai praktik terbaik, buat satu model untuk semua variasi jenis dokumen. Tambahkan setidaknya lima sampel berlabel untuk masing-masing variasi yang berbeda ke himpunan data pelatihan.

Penamaan bidang

Saat Anda memberi label data, pelabelan bidang yang relevan dengan nilai akan meningkatkan akurasi pasangan nilai kunci yang diekstraksi. Misalnya, untuk nilai bidang yang berisi ID pemasok, pertimbangkan untuk menamai bidang "supplier_id". Nama bidang harus dalam bahasa dokumen.

Pelabelan nilai yang berdekatan

Nilai token/kata dari satu bidang harus

  • Urutan berturut-turut dalam urutan membaca alami tanpa interleaving dengan bidang lain
  • Di wilayah yang tidak mencakup bidang lain

Data perwakilan

Nilai-nilai dalam kasus pelatihan harus beragam dan representatif. Misalnya, jika bidang diberi nama "tanggal", nilai untuk bidang ini harus menjadi tanggal. nilai sintetis seperti untai (karakter) acak dapat memengaruhi kinerja model.

Keterbatasan Saat Ini

  • Model tidak mengenali nilai yang dibagi melintasi batas halaman.
  • Model neural kustom hanya dilatih dalam bahasa Inggris dan kinerja model akan lebih rendah untuk dokumen dalam bahasa lain.
  • Jika himpunan data yang diberi label untuk model templat kustom digunakan untuk melatih model neural kustom, jenis bidang yang tidak didukung akan diabaikan.
  • Model saraf kustom dibatasi hingga 10 operasi build per bulan. Buka permintaan dukungan jika Anda ingin batasnya meningkat.

Melatih model

Model neural kustom hanya tersedia di API v3.

Jenis dokumen REST API SDK Model Label dan Uji
Dokumen kustom Form Recognizer 3.0 (pratinjau) SDK Pratinjau Form Recognizer Form Recognizer Studio

Operasi build untuk melatih model mendukung properti baru buildMode, untuk melatih model saraf khusus, mengatur ke buildModeneural.

https://{endpoint}/formrecognizer/documentModels:build?api-version=2022-06-30

{
  "modelId": "string",
  "description": "string",
  "buildMode": "neural",
  "azureBlobSource":
  {
    "containerUrl": "string",
    "prefix": "string"
  }
}

Langkah berikutnya