Form Tanıma belge modelini oluşturma (önizleme)

Genel belge önizleme modeli, belgelerden anahtar-değer çiftlerini ve varlıkları ayıklamak için güçlü Optik Karakter Tanıma (OCR) özelliklerini derin öğrenme modelleriyle birleştirir. Genel belge yalnızca önizleme (v3.0) API'si ile kullanılabilir. Önizleme (v3.0) API'sini kullanma hakkında daha fazla bilgi için geçiş kılavuzumuza bakın.

Genel belge API'si çoğu form türlerini destekler ve belgelerinizi analiz eder ve değerleri, keşfettileri tablolarda anahtar ve girişlerle ilişkilendirilecektir. Belgelerden ortak anahtar-değer çiftlerini ayıklamak için idealdir. Etiketleri olmayan özel bir modeli eğitmeden genel belge modelini alternatif olarak kullanabilirsiniz.

Genel belge özellikleri

  • Anahtar-değer çiftlerini ayıklamak için özel bir model eğitin.

  • Belgelerden anahtar değer çiftlerini, varlıkları, metinleri, tabloları ve yapıyı ayıklamak için tek bir API kullanılır.

  • Kapsamı ve doğruluğu geliştirmek için yeni veriler üzerinde düzenli aralıklarla eğitilen, önceden eğitilmiş bir modeldir.

  • Genel belge modeli yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış verileri destekler.

Form Tanıma Studio'da işlenen örnek belge

Ekran görüntüsü: Form Tanıma Studio'da genel belge analizi.

Dağıtım seçenekleri

Aşağıdaki kaynaklar v3.0 Form Tanıma tarafından de destekleni:

Özellik Kaynaklar
🆕 Genel belge modeli

Deneme Form Tanıma

Tablolar, değerler ve varlıklar dahil olmak üzere verilerin Form Tanıma Studio veya Örnek Etiketleme aracımızı kullanarak formlardan ve belgelerden nasıl ayıklandıklarına bakın. Aşağıdakiler gerekir:

  • Azure aboneliği: Ücretsiz bir abonelik oluşturabilirsiniz

  • Form Tanıma bir örnek Azure portal. Hizmeti denemek için ücretsiz fiyatlandırma katmanını ( F0 ) kullanabilirsiniz. Kaynağınız dağıt edildikten sonra API anahtarınızı ve uç noktanızı almak için Kaynağa git'i seçin.

Ekran görüntüsü: Anahtarlar ve uç nokta konumu Azure portal.

Form Tanıma Studio (önizleme)

Not

Form Tanıma Studio ve genel belge modeli önizleme (v3.0) API'si ile kullanılabilir.

  1. Form Tanıma Studio giriş sayfasında Genel belgeler'i seçin

  2. Örnek belgeyi analiz edip + Ekle düğmesini seçerek kendi örneğinizi karşıya yükleyebilirsiniz.

  3. Çözümle düğmesini seçin:

    Ekran görüntüsü: Genel belgeyi analiz etme menüsü.

Anahtar-değer çiftleri

Anahtar değer çiftleri, belge içinde bir etiketi veya anahtarı ve ilişkili yanıtını ya da değerini tanımlamaya yönelik belirli aralıklardır. Yapılandırılmış bir formda bu etiket ve kullanıcının bu alan için girdiği değer veya yapılandırılmamış bir belge olabilir. Bu, bir paragrafta yer alan metne göre sözleşmenin yürütül olduğu tarih olabilir. AI modeli çok çeşitli belge türlerine, biçimlere ve yapılara göre tanımlanabilen anahtarları ve değerleri ayıklamak üzere eğitildi.

Model, ilişkili bir değere sahip olmayan bir anahtarın mevcut olduğunu algılayan veya isteğe bağlı alanları işlerken anahtarlar yalıtarak da var olabilir. Örneğin, bazı örneklerde formda bir orta ad alanı boş bırakılabilir. Anahtar değer çiftleri her zaman belgede yer alan metne yayılmıştır ve aynı değerin farklı yollarla (örneğin bir müşteri veya kullanıcı) açıklandığı belgeleriniz varsa, ilişkili anahtar belgenin ne içerdiğine bağlı olarak müşteri veya kullanıcı olur.

Varlıklar

Doğal dil işleme modelleri konuşma bölümlerini tanımlayabilir ve her belirteci veya sözcüğü sınıflandırabilirsiniz. Adlandırılmış varlık tanıma modeli, daha zengin bir deneyim sağlamak için kişiler, konumlar ve tarihler gibi varlıkları tanımlayabilir. Varlıkları tanımlamak, müşteri türlerini (örneğin, bir kişi veya kuruluş) ayırt etmek için size olanak sağlar. Anahtar değer çifti ayıklama modeli ve varlık tanımlama modeli, yalnızca ayıklanan anahtar değer çiftlerinin değerleri üzerinde değil, belgenin tamamına paralel olarak çalıştırıldı. Bu, bir anahtarın tanımlanamaması gereken karmaşık yapıların başvurulan varlıkları belirleyerek zenginleştirmesini sağlar. Yine de anahtarları veya değerleri tanımlanan aralıkların uzaklıklarına göre varlıklarla eşebilirsiniz.

  • Genel belge önceden eğitilmiş bir modeldir ve doğrudan REST API.

  • Genel belge modeli, çeşitli varlık kategorileri için adlandırılmış varlık tanımayı (NER) destekler. NER, metinde farklı varlıkları belirleyebilme ve bunları kişi, konum, olay, ürün ve kuruluş gibi önceden tanımlanmış sınıflara veya türlere ayırabilme özelliğidir. Varlıkları ayıklamak, ayıklanan değerleri doğrulamak istediğiniz senaryolarda yararlı olabilir. Varlıklar yalnızca ayıklanan değerleri değil tüm içerikten ayıklanır.

Genel belge modeli veri ayıklama

Modelleme Metin ayıklama Anahtar-Değer çiftleri Seçim İşaretleri Tablolar Varlıklar
Genel belge

Giriş gereksinimleri

  • En iyi sonuçları elde etmek için belge başına bir net fotoğraf veya yüksek kaliteli tarama sekleyebilirsiniz.
  • Desteklenen dosya biçimleri: JPEG, PNG, BMP, TIFF ve PDF (metin eklenmiş veya taranmış). Metin eklenmiş PDF'ler, karakter ayıklama ve konum hata olasılığını ortadan kaldırmak için en iyisidir.
  • PDF ve TIFF için en fazla 2000 sayfa işlenebilir (ücretsiz katman aboneliğiyle yalnızca ilk iki sayfa işlenir).
  • Dosya boyutu 50 MB'ın altında olmalıdır.
  • Görüntü boyutları 50 x 50 piksel ile 10000 x 10000 piksel arasında olmalıdır.
  • PDF boyutları En fazla 17 x 17 inçtir; Yasal veya A3 kağıt boyutuna karşılık gelen veya daha küçüktür.
  • Eğitim verilerinin toplam boyutu 500 sayfa veya daha azdır.
  • PDF'ler parolayla kilitliyse, göndermeden önce kilidi kaldırmanız gerekir.
  • Kontrolsiz öğrenme için (etiketli veriler olmadan):
    • Veriler anahtarlar ve değerler içermeli.
    • Anahtarların değerlerin üzerinde veya sollarında görünmesi gerekir; aşağıda veya sağda görünemektedir.

Desteklenen diller ve yerel diller

Modelleme Dil—Yerel kod Varsayılan
Genel belge
  • İngilizce (Birleşik Devletler)—en-US
İngilizce (Birleşik Devletler)—en-US

Adlandırılmış varlık tanıma (NER) kategorileri

Kategori Tür Description
Kişi Dize Bir kişinin kısmi veya tam adı.
PersonType Dize Kişinin iş türü veya rolü.
Konum Dize Doğal ve insan tarafından yapılan önemli yerler, yapılar, coğrafi özellikler ve jeopolitik varlıklar.
Kuruluş Dize Şirketler, siyasi gruplar, müzik grupları, spor sporları, kamu kuruluşları ve kamu kuruluşları.
Olay Dize Geçmiş, sosyal ve doğal olarak oluşan olaylar.
Ürün Dize Çeşitli kategorilerdeki fiziksel nesneler.
Beceri Dize Yetenek, beceri veya uzmanlık.
Adres Dize Tam posta adresleri.
Telefon numarası Dize Telefon sayılar.
E-posta Dize E-posta adresi.
URL Dize Web sitesi URL'leri ve bağlantıları.
IP Adresi Dize Ağ IP adresleri.
DateTime Dize Günün tarihleri ve saatleri.
Miktar Dize Sayısal ölçümler ve birimler.

Dikkat edilmesi gerekenler

  • Varlıkları ayıklamak, ayıklanan değerleri doğrulamak istediğiniz senaryolarda yararlı olabilir. Varlıklar yalnızca ayıklanan değerleri değil, belgelerin tüm içeriğinde ayıklanır.

  • Anahtarlar, belgeden ayıklanan metinlerin yayılmalarıdır. Yarı yapılandırılmış belgeler için anahtarların mevcut bir anahtar sözlüğüne eşlenmiş olması gerekir.

  • Bir anahtarla anahtar değer çiftleri görmeyi bekler, ancak değer görmeyin. Örneğin, bir kullanıcı formda bir e-posta adresi sağlamamayı seçti.

Sonraki adımlar

  • Uygulamalarınız Form Tanıma önizleme sürümünü kullanmayı öğrenmek için Form Tanıma v3.0 geçiş kılavuzumuza bakın.

  • Önizleme sürümü REST API yeni özellikler hakkında daha fazla bilgi edinmek için REST API (önizleme) sayfamızı keşfedin.