Form tanıyıcı düzen modeli

Azure form tanıyıcı düzeni API 'SI, belgelerden (PDF, TIFF) ve görüntülerden (JPG, PNG, BMP) metin, tablo, seçim işaretleri ve yapı bilgilerini ayıklar. Düzen modeli metin, tablo, seçim işaretlerini ve belge yapısını ayıklamak için derin öğrenme modelleriyle güçlü optik karakter tanıma (OCR) olanaklarımızın gelişmiş bir sürümünü birleştirir.

Form tanıyıcı örnek etiketleme aracı düzen özelliği ile işlenen örnek form

Ekran görüntüsü: GIF işleme örnek etiketleme aracı.

Veri ayıklama özellikleri

Düzen modeli Metin ayıklama Seçim Işaretleri Tablolar
Layout

Dağıtım seçenekleri

Aşağıdaki kaynaklar form tanıyıcı v 2.1 tarafından desteklenir:

Özellik Kaynaklar
Düzen API 'SI

Aşağıdaki kaynaklar form tanıyıcı v 3.0 tarafından desteklenir:

Özellik Kaynaklar Model Kimliği
Düzen modeli önceden oluşturulmuş düzen

Form tanıyıcıyı deneyin

Tablolar, onay kutuları ve metin gibi verilerin form tanıyıcı Studio veya örnek etiketleme aracımızı kullanarak formlardan ve belgelerden ayıklandığını görün. Şunlar gerekir:

  • Bir Azure aboneliği — ücretsiz olarak bir tane oluşturabilirsiniz

  • Azure portal bir form tanıyıcı örneği . Hizmeti denemek için ücretsiz fiyatlandırma katmanını ( F0 ) kullanabilirsiniz. Kaynak dağıtıldıktan sonra API anahtarınızı ve uç noktanızı almak için Kaynağa Git ' i seçin.

Ekran görüntüsü: Azure portal anahtarlar ve uç nokta konumu.

Form tanıyıcı Studio (Önizleme)

Not

Form tanıyıcı Studio, Önizleme (v 3.0) API 'SI ile kullanılabilir.

Form tanıyıcı Studio ile işlenen örnek form

Ekran görüntüsü: form tanıyıcı Studio 'da belge işleme.

  1. Tanıyıcı Studio giriş sayfasında, Düzen ' i seçin.

  2. Örnek belgeyi çözümleyebilir veya + Ekle düğmesini seçerek kendi örneğinizi karşıya yükleyebilirsiniz.

  3. Çözümle düğmesini seçin:

    Ekran görüntüsü: Düzen menüsünü çözümle.

Örnek etiketleme aracı

Form belgesi gerekir. Örnek form belgemizikullanabilirsiniz.

  1. Örnek etiketleme aracı giriş sayfasında, metin, tablo ve seçim işaretlerini almak Için düzeni kullan' ı seçin.

  2. Açılır menüden yerel dosya ' yı seçin.

  3. dosyanızı Upload ve çalışma düzeni seçin

    Ekran görüntüsü: ekran görüntüsü: örnek etiketleme aracı açılan düzen dosya kaynağı seçim menüsü.

Giriş gereksinimleri

  • En iyi sonuçlar için, belge başına tek bir açık fotoğraf veya yüksek kaliteli tarama sağlayın.
  • Desteklenen dosya biçimleri: JPEG, PNG, BMP, TIFF ve PDF (metin katıştırılmış veya taranan). Metin katıştırılmış PDF 'Ler, karakter ayıklama ve konumunda hata olasılığını ortadan kaldırmak için idealdir.
  • PDF ve TIFF için en fazla 2000 sayfa işlenebilir (ücretsiz bir katman aboneliğiyle yalnızca ilk iki sayfa işlenir).
  • Dosya boyutu 50 MB 'tan az olmalıdır.
  • Resim boyutları 50 x 50 piksel ve 10000 x 10000 piksel arasında olmalıdır.
  • PDF boyutları, yasal veya A3 kağıt boyutuna karşılık gelen 17 x 17 inç veya daha küçük bir boyuta sahiptir.
  • Eğitim verilerinin toplam boyutu 500 sayfa veya daha az.
  • PDF 'niz parola kilitliyse, göndermeden önce kilidi kaldırmanız gerekir.
  • Denetimsiz öğrenme için (etiketli veriler olmadan):
    • Veriler, anahtar ve değer içermelidir.
    • Anahtarların, değerlerin solunda veya solunda görünmesi gerekir; Bunlar sağ tarafta veya doğru görünemez.

Not

Örnek etiketleme aracı , BMP dosya biçimini desteklemez. Bu, form tanıyıcı hizmeti olmayan aracın bir sınırlamasıdır.

Desteklenen diller ve yerel ayarlar

Form tanıyıcı önizleme sürümü, düzen modeli için ek dil desteği sunar. Desteklenen el yazısı ve yazılı metnin tüm listesi için dil desteğimize bakın .

Özellikler

Tablolar ve tablo üstbilgileri

Düzen API 'si, pageResults JSON çıktısının bölümündeki tabloları ayıklar. Belgeler taranabilir, fotokopi veya dijital olabilir. Tablolar, birleştirilmiş hücreler veya sütunlarla, Kenarlıksız veya Kenarlıksız ve tek açılarla karmaşık olabilir. Ayıklanan tablo bilgileri, sütun ve satır sayısını, satır yayılımını ve sütun yayılımını içerir. Sınırlayıcı kutusuyla her bir hücre, bir üstbilginin parçası olarak tanınıp tanınmadığını ve bilgi olarak çıktı olur. Model tahmin edilen üst bilgi hücreleri birden çok satıra yayılabilir ve tablodaki ilk satırda olması gerekmez. Ayrıca döndürülen tablolarla da çalışırlar. Her tablo hücresi Ayrıca, bölümdeki tek sözcüklere başvuran tam metni içerir readResults .

Düzen tablosu üstbilgileri çıkışı

Seçim işaretleri

Ayrıca, Düzen API 'SI belgelerden seçim işaretlerini de ayıklar. Ayıklanan seçim işaretleri sınırlayıcı kutusu, güvenirlik ve durumu (seçili/seçilmemiş) içerir. Seçim işareti bilgileri readResults JSON çıktısının bölümünde ayıklanır.

Düzen seçimi işaret çıktısı

Metin satırları ve sözcükleri

Düzen API 'SI, birden çok metin açısı ve rengi olan belgelerden ve görüntülerden metin ayıklar. Belge, Faks, yazdırılan ve/veya el yazısı (Yalnızca Ingilizce) metin ve karışık modların fotoğraflarını kabul eder. Metin, çizgiler, kelimeler, sınırlama kutuları, güven puanları ve stil (el ile veya diğer) için belirtilen bilgilerle ayıklanır. Tüm metin bilgileri readResults JSON çıktısının bölümüne dahil edilir.

Düzen metin ayıklama çıkışı

Metin çizgileri için doğal okuma sırası (yalnızca Latin)

Sorgu parametresi ile metin çizgilerinin çıkış sırasını belirtebilirsiniz readingOrder . naturalAşağıdaki örnekte gösterildiği gibi, daha kolay okunabilir bir okuma sırası çıkışı için kullanın. Bu özellik yalnızca Latin dilleri için desteklenir.

Düzen okuma düzeni örneği

Metin satırları için el ile sınıflandırma (yalnızca Latin)

Yanıt, her metin satırının el yazısı stili olup olmadığı sınıflandırıp bir güven puanı ile birlikte yer alır. Bu özellik yalnızca Latin dilleri için desteklenir. Aşağıdaki örnek görüntüdeki metin için el yazısı sınıflandırmasını gösterir.

El yazısı sınıflandırması örneği

Metin ayıklama için sayfa numaralarını veya aralıklarını seçin

Büyük çok sayfalı belgeler için, pages metin ayıklama için belirli sayfa numaralarını veya sayfa aralıklarını belirtmek üzere sorgu parametresini kullanın. Aşağıdaki örnek, her iki durumda da tüm sayfalar (1-10) ve seçili 3-6 Sayfalar için metin ayıklanarak 10 sayfalı bir belge gösterir.

Seçili sayfaların çıkışını yerleştir çıktısı

Form tanıyıcı önizleme v 3.0

Form tanıyıcı önizlemesi, birkaç yeni özellik ve özelliği sunar.

Sonraki adımlar