Örnek etiketleme aracını kullanmaya başlayın

Azure form tanıyıcı, belgelerinizden form alanlarını, metinleri ve tabloları ayıklamak ve analiz etmek için makine öğrenimi modellerini kullanan bulut tabanlı bir Azure uygulanmış AI hizmetidir. Veri işlemenizi uygulamalar ve iş akışlarında otomatikleştirin, veri odaklı stratejileri geliştirebilir ve belge arama yeteneklerini zenginleştirebilirsiniz.

Form tanıyıcı örnek etiketleme Aracı, Azure form tanıyıcı ve optik karakter tanıma (OCR) hizmetlerinin en son özelliklerini sınamanızı sağlayan açık kaynaklı bir araçtır:

Önkoşullar

Başlamak için aşağıdakilere ihtiyacınız olacak:

  • Bir Azure aboneliği — ücretsiz olarak bir tane oluşturabilirsiniz

  • Bilişsel hizmetler veya form tanıyıcı kaynağı. Azure aboneliğiniz olduktan sonra, anahtarınızı ve uç noktanızı almak için Azure portal bir tek hizmet veya çok hizmet bir tanıyıcı kaynağı oluşturun. F0Hizmeti denemek ve daha sonra üretime yönelik ücretli bir katmana yükseltmek için ücretsiz fiyatlandırma katmanını () kullanabilirsiniz.

    İpucu

    Tek bir uç nokta/anahtar altında birden fazla bilişsel hizmete erişmeyi planlıyorsanız bilişsel hizmetler kaynağı oluşturun. Yalnızca form tanıyıcı erişimi için form tanıyıcı kaynağı oluşturun. Azure Active Directory kimlik doğrulamasıkullanmak istiyorsanız, tek hizmet kaynağına ihtiyacınız olacağını lütfen unutmayın.

Form tanıyıcı kaynağı oluşturma

Azure portal'a gidin ve oluşturun ve yeni bir Form Tanıma oluşturun. Oluştur bölmesinde aşağıdaki bilgileri ekleyin:

Proje ayrıntıları Açıklama
Abonelik Erişim verilen Azure aboneliğini seçin.
Kaynak grubu Kaynağınızı içeren Azure kaynak grubu. Yeni bir grup oluşturabilir veya önceden var olan bir gruba eklersiniz.
Bölge Bilişsel hizmet örneğinizin konumu. Farklı konumlar gecikmeye neden olabilir ancak kaynağın çalışma zamanı kullanılabilirliğini etkilemez.
Ad Kaynağınız için açıklayıcı bir ad. Açıklayıcı bir ad kullanılması önerilir, örneğin MyNameFormRecognizer.
Fiyatlandırma katmanı Kaynağın maliyeti, seçtiğiniz fiyatlandırma katmanına ve kullanımınıza bağlıdır. Daha fazla bilgi için bkz. API fiyatlandırma ayrıntıları.

Anahtarı ve uç noktayı alma

Kaynak Form Tanıma tamam olduğunda portalda Tüm kaynaklar listesinden kaynağı bulun ve seçin. Anahtarınız ve uç noktanız kaynağın Anahtar ve Uç Nokta sayfasında, Kaynak Yönetimi altında bulunur. Devam etmek için bunların ikisini de geçici bir konuma kaydedin.

Ekran görüntüsü: Azure portal anahtarlar ve uç nokta konumu.

Önceden oluşturulmuş bir model kullanarak çözümle

Form tanıyıcı, aralarından seçim yapabileceğiniz birkaç önceden oluşturulmuş model sunar. Her modelin kendi desteklenen alan kümesi vardır. Çözümle işlemi için kullanılacak model çözümlenecek belge türüne bağlıdır. Form tanıyıcı hizmeti tarafından şu anda desteklenen önceden oluşturulmuş modeller aşağıda verilmiştir:

  • Faturala: metin, seçim işaretleri, tablolar, anahtar-değer çiftleri ve faturalardan anahtar bilgilerini ayıklar.
  • Alındı: alındılardan metin ve anahtar bilgilerini ayıklar.
  • Kimlik belgesi: sürücü lisanslarından ve uluslararası Passport 'tan metin ve anahtar bilgilerini ayıklar.
  • İş kartı: iş kartlarından metin ve anahtar bilgilerini ayıklar.
  1. Form tanıyıcı örnek aracınagidin.

  2. Örnek araç giriş sayfasında, verileri almak için önceden oluşturulmuş modeli kullan' ı seçin.

    Form tanıyıcı düzeninin sonuçlarını analiz etme

  3. Açılan pencereden çözümlemek istediğiniz form türünü seçin.

  4. Aşağıdaki seçeneklerden çözümlemek istediğiniz dosya için bir URL seçin:

  5. Kaynak: URL alanında, seçili URL 'yi yapıştırın ve getir düğmesini seçin.

  6. Bir tanıyıcı hizmeti uç noktası alanına, form tanıyıcı aboneliğinizle edindiğiniz uç noktayı yapıştırın.

  7. API anahtarı alanında, form tanıyıcı kaynağından edindiğiniz abonelik anahtarını yapıştırın.

    Ekran görüntüsü: form türü açılan penceresini seçin.

  8. Analizi Çalıştır' ı seçin. Form tanıyıcı örnek etiketleme Aracı, önceden oluşturulmuş API 'YI çözümle ve belgeyi analiz eder.

  9. Sonuçları görüntüleme-ayıklanan anahtar değer çiftlerinin, satır öğelerinin, vurgulanan metnin ayıklandığı ve tabloların algılandığını görün.

    Form tanıyıcı fatura modelinin sonuçlarını analiz etme

  10. Ayrıntılı sonuçları görüntülemek için JSON çıkış dosyasını indirin.

    • "ReadResults" düğümü, sayfada ilgili sınırlayıcı kutusu yerleşimine sahip her metin satırını içerir.
    • "Selectioniþaretleri" düğümü her seçim işaretini (onay kutusu, radyo işareti) ve durumunun "seçili" veya "seçilmemiş" olup olmadığını gösterir.
    • "PageResults" bölümü ayıklanan tabloları içerir. Her tablo için metin, satır ve sütun dizini, satır ve sütun kapsayıcı, sınırlama kutusu ve daha fazlası ayıklanır.
    • "DocumentResults" alanı, belgenin en ilgili bölümleri için anahtar/değer çiftleri bilgisi ve satır öğesi bilgilerini içerir.

Düzeni çözümle

Azure form tanıyıcı düzeni API 'SI, belgelerden (PDF, TIFF) ve görüntülerden (JPG, PNG, BMP) metin, tablo, seçim işaretleri ve yapı bilgilerini ayıklar.

  1. Form tanıyıcı örnek aracınagidin.

  2. Örnek araç giriş sayfasında , metin, tablolar ve seçim işaretlerini almak Için düzeni kullan ' ı seçin.

    Düzen formu tanıyıcı aracı için bağlantı ayarları.

  3. Bir tanıyıcı hizmeti uç noktası alanına, form tanıyıcı aboneliğinizle edindiğiniz uç noktayı yapıştırın.

  4. API anahtarı alanında, form tanıyıcı kaynağından edindiğiniz abonelik anahtarını yapıştırın.

  5. Kaynak: URL alanında, aşağıdaki URL 'yi yapıştırın https://raw.githubusercontent.com/Azure-Samples/cognitive-services-REST-api-samples/master/curl/form-recognizer/layout-page-001.jpg ve getirme düğmesini seçin.

  6. Çalışma düzeni seçin. Form tanıyıcı örnek etiketleme Aracı, çözümleme düzenleme API 'sini çağırır ve belgeyi analiz eder.

    Ekran görüntüsü: düzen açılan penceresi.

  7. Sonuçları görüntüleme-vurgulanan metnin ayıklandığını, seçim işaretlerinin algılandığını ve algılanan tabloları görün.

    Form tanıyıcı aracı için bağlantı ayarları.

  8. Ayrıntılı düzen sonuçlarını görüntülemek için JSON çıkış dosyasını indirin.

    • readResultsDüğüm, sayfada ilgili sınırlayıcı kutusu yerleşimine sahip her metin satırını içerir.
    • selectionMarksDüğüm, her seçim işaretini (onay kutusu, radyo işareti) ve durumunun or olup olmadığını selected gösterir unselected .
    • pageResultsBölümü ayıklanan tabloları içerir. Her tablo için metin, satır ve sütun dizini, satır ve sütun kapsayıcı, sınırlama kutusu ve daha fazlası ayıklanır.

Özel form modeli eğitme

İşletmenize özgü formlardan ve belgelerden veri çözümlemek ve ayıklamak için özel bir model eğitme. API, farklı içeriklerinizin içindeki form alanlarını tanımak ve anahtar-değer çiftlerini ve tablo verilerini ayıklamak için eğitilen bir makine öğrenimi programıdır. Başlamak için aynı form türünde en az beş örnek gerekir ve özel modeliniz etiketli veri kümeleri ile veya etiketsiz bir şekilde eğitilmiş olabilir.

Özel form modeli eğitimi için Önkoşullar

  • eğitim verileri kümesi içeren bir Azure Depolama blob kapsayıcısı. Tüm eğitim belgelerinin aynı biçimde olduğundan emin olun. Farklı biçimlere sahip belgeleriniz varsa bunları biçime göre klasörlere ayırın. Bu proje için örnek veri kümesi' ni kullanabilirsiniz.

  • CORS Yapılandırma

    CORS 'Nin form tanıyıcı Studio 'dan erişilebilir olması için Azure depolama hesabınızda yapılandırılması gerekir. Azure portal CORS 'yi yapılandırmak için, depolama hesabınızın CORS dikey penceresine erişmeniz gerekir.

    Bir depolama hesabı için CORS yapılandırmasını gösteren ekran görüntüsü.

    1. Depolama hesabı için CORS dikey penceresini seçin.

    2. Blob hizmetinde yeni bir CORS girişi oluşturarak başlayın.

    3. Izin verilen kaynakları olarak ayarlayın https://formrecognizer.appliedai.azure.com .

    4. Izin verilen Yöntemler için tüm kullanılabilir 8 seçeneklerini seçin.

    5. Her bir alana * girerek Izin verilen tüm üst bilgileri ve sunulan üstbilgileri onaylayın.

    6. Maksimum geçerlilik süresini 120 saniyeye veya kabul edilebilir bir değere ayarlayın.

    7. Değişiklikleri kaydetmek için sayfanın üst kısmındaki Kaydet düğmesine tıklayın.

    CORS, artık form tanıyıcı Studio 'dan depolama hesabını kullanacak şekilde yapılandırılmalıdır.

Örnek etiketleme aracını kullanma

  1. Form tanıyıcı örnek aracınagidin.

  2. Örnek araç giriş sayfasında, etikete sahip bir modeli eğitme ve anahtar değer çiftlerini Al ' ı seçerek özel formu kullan ' ı seçin.

    Özel bir modeli eğitme.

  3. Yeni proje seçin

    Ekran görüntüsü: yeni bir proje istemi seçin.

Yeni proje oluşturma

Project Ayarlar alanlarını aşağıdaki değerlerle yapılandırın:

  1. Görünen ad. Projenizi adlandırın.

  2. Güvenlik belirteci. Her proje, hassas proje ayarlarını şifrelemek/şifrelerini çözmek için kullanılabilen bir güvenlik belirtecini otomatik olarak oluşturur. sol gezinti çubuğunun altındaki dişli simgesini seçerek uygulama Ayarlar güvenlik belirteçlerini bulabilirsiniz.

  3. Kaynak bağlantısı. Örnek etiketleme aracı bir kaynağa (özgün olarak yüklenmiş formlarınızı) ve bir hedefe (oluşturulan Etiketler ve çıkış verileri) bağlanır. Bağlantılar, projeler arasında ayarlanabilir ve paylaşılabilir. Bunlar bir Genişletilebilir sağlayıcı modeli kullandıkları için kolayca yeni kaynak/hedef sağlayıcılar ekleyebilirsiniz.

    • Yeni bir bağlantı oluşturun, bağlantı ekle düğmesini seçin. Şu değerleri içeren alanları doldurun:
    • Görünen ad. Bağlantıyı adlandırın.
    • Açıklama. Kısa bir açıklama ekleyin.
    • SAS URL 'si. Azure Blob Depolama kapsayıcınız için paylaşılan erişim imzası (SAS) URL 'sini yapıştırın.
    • özel model eğitim verilerinize yönelik SAS URL 'sini almak için Azure portal depolama kaynağına gidin ve Depolama Gezgini sekmesini seçin. kapsayıcınıza gidin, sağ tıklayın ve paylaşılan erişim imzasını al' ı seçin. Depolama hesabının kendisi için değil, kapsayıcınıza yönelik SAS almak önemlidir. Okuma, yazma, silme ve Listeleme izinlerinin işaretli olduğundan emin olun ve Oluştur' a tıklayın. Sonra URL bölümündeki değeri geçici bir konuma kopyalayın. Şu biçimde olmalıdır: https://<storage account>.blob.core.windows.net/<container name>?<SAS value>.

      SAS konumu.

  4. Klasör yolu (isteğe bağlı). Kaynak formlarınız blob kapsayıcısında bir klasör içinde bulunuyorsa, klasör adını belirtin.

  5. Form tanıyıcı hizmeti URI 'si -form tanıyıcı uç nokta URL 'si.

  6. API anahtarı. Form tanıyıcı abonelik anahtarınız.

  7. API sürümü. V 2.1 (varsayılan) değerini koruyun.

  8. Açıklama (isteğe bağlı). Projenizi tanıtın.

    Bağlantı ayarları

Formlarınızı etiketleme

Yeni proje sayfası

Bir proje oluşturduğunuzda veya açtığınızda, ana Etiket Düzenleyicisi penceresi açılır. Etiket Düzenleyicisi üç bölümden oluşur:

  • Kaynak bağlantıdan bir form listesinin kaydırılabilir listesini içeren bir yeniden boyutlandırılabilir Önizleme bölmesi.
  • Etiket uygulamanıza izin veren ana Düzenleyici bölmesi.
  • Kullanıcıların etiketleri değiştirmesine, kilitlemesine, yeniden sıralayabilir ve silmesine izin veren Etiketler Düzenleyicisi bölmesi.
Metin ve tabloları tanımla

Her belge için metin ve Tablo düzeni bilgilerini almak için sol bölmedeki tüm dosyalarda OCR Çalıştır ' ı seçin. Etiketleme aracı her metin öğesinin etrafında sınırlayıcı kutular çizer.

Etiketleme aracı Ayrıca, hangi tabloların otomatik olarak ayıklandığını gösterir. Ayıklanan tabloyu görmek için belgenin sol tarafındaki tablo/kılavuz simgesini seçin. Tablo içeriği otomatik olarak ayıklandığından tablo içeriğini etiketlendirilecektir, bunun yerine otomatik ayıklamanın olması gerekir.

Örnek etiketleme aracında tablo görselleştirme.

Metne Etiketler uygulama

Ardından, Etiketler (Etiketler) oluşturacak ve bunları modelin analiz etmesini istediğiniz metin öğelerine uygulayacaksınız. Örnek Etiket veri kümesinin zaten etiketli alanları içerdiğini göz önünde bulundurur. başka bir alan ekleyeceğiz.

Tanımlamak istediğiniz yeni bir etiket oluşturmak için Etiketler Düzenleyicisi bölmesini kullanın:

  1. + Yeni bir etiket oluşturmak için artı işaretini seçin.

  2. "Toplam" adı etiketini girin.

  3. Etiketi kaydetmek için ENTER ' u seçin.

  4. Ana düzenleyicide, vurgulanan metin öğelerinden toplam değeri seçin.

  5. Değere uygulanacak toplam etiketini seçin veya ilgili klavye tuşuna basın. Sayı tuşları ilk 10 etiketi için kısayol tuşu olarak atanır. Etiket Düzenleyicisi bölmesindeki yukarı ve aşağı ok simgelerini kullanarak etiketlerinizi yeniden düzenleyebilirsiniz.

    İpucu

    Formlarınızı etiketleyerek aşağıdaki ipuçlarını göz önünde bulundurun:

    • Seçili her metin öğesine yalnızca bir etiket uygulayabilirsiniz.

    • Her etiket, sayfa başına yalnızca bir kez uygulanabilir. Bir değer aynı formda birden çok kez görünürse, her örnek için farklı etiketler oluşturun. Örneğin: "Invoice # 1", "Invoice # 2" vb.

    • Etiketler sayfalara yayılamaz.

    • Değerleri formda göründükleri şekilde etiketleyin; iki farklı etikete sahip iki parçaya bir değeri bölmeye çalışmayın. Örneğin, bir adres alanının birden çok satıra yayılsa bile tek bir etiketle etiketlenmesi gerekir.

    • Etiketli alanlarınıza anahtar eklemeyin — yalnızca değerleri.

    • Tablo verileri otomatik olarak algılanmalı ve ' pageResults ' bölümündeki son çıktı JSON dosyasında kullanılabilir olacaktır. Ancak, model tüm tablo verilerinizi algılayamazsa, tabloları saptamak için bir modeli etiketleyebilir ve eğitebilirsiniz, bkz. özel model eğitme | Formlarınızı etiketleme

    • + Etiketlerinizi aramak, yeniden adlandırmak, yeniden sıralamak ve silmek için sağ tarafındaki düğmeleri kullanın.

    • Etiket kendisini silmeden uygulanan bir etiketi kaldırmak için belge görünümünde etiketli dikdörtgeni seçin ve DELETE tuşuna basın.

  6. Örnek veri kümesindeki beş formun tamamını etiketlemek için yukarıdaki adımları izlemeye devam edin.

Örnekleri etiketleyin.

Özel bir modeli eğitme

Sağ bölmedeki eğitme simgesini seçerek Eğitim sayfasını açın. Ardından, modele eğitime başlamak için eğitme düğmesini seçin. Eğitim işlemi tamamlandıktan sonra, aşağıdaki bilgileri görürsünüz:

  • Model kimliği -oluşturulan ve EĞITILEN modelin kimliği. Her eğitim çağrısı kendi KIMLIĞINE sahip yeni bir model oluşturur. Bu dizeyi güvenli bir konuma kopyalayın; REST API veya istemci kitaplığıaracılığıyla tahmin görüşmeleri yapmak istiyorsanız buna ihtiyacınız olur.

  • Ortalama doğruluk -modelin ortalama doğruluğu. Yeni bir model oluşturmak için ek formları ve yeniden eğitimi etiketleyerek model doğruluğunu artırabilirsiniz. Sonuçları çözümleyen ve test eden beş formun etiketleyerek başlamasını ve gerektiğinde daha fazla form eklenmesini öneririz.

  • Etiketlerin listesi ve etiket başına tahmini doğruluk.

    Eğitim görünümü aracı.

Özel formu çözümle

  1. Modelinizi test etmek için sol taraftaki Çözümle (ampul) simgesini seçin.

  2. Kaynak yerel dosya ' yı seçin ve bir dosyaya giderek, test klasöründe sıkıştırmanıza izin veren örnek veri kümesinden seçim yapabilirsiniz.

  3. Form için bir anahtar/değer çiftleri, metin ve tablo tahminleri almak üzere analiz Çalıştır düğmesini seçin. Araç etiketleri sınırlayıcı kutulara uygular ve her bir etiketin güvenirliği rapor eder.

    Eğitim görünümü.

İşte bu kadar! Form tanıyıcı örnek aracının form tanıyıcısı önceden oluşturulmuş, düzen ve özel modeller için nasıl kullanılacağını öğrendiniz. Ayrıca, el ile etiketlenmiş verilerle özel bir formu çözümlemeyi de öğrendiniz. Artık bir form tanıyıcı istemci kitaplığı SDK 'Sı veya REST API deneyebilirsiniz.

Sonraki adımlar