Hızlı Başlangıç: Verileri içeri aktarma sihirbazını kullanarak OCR ve görüntü analizi uygulama

Azure Bilişsel Arama'da AI zenginleştirmenin görüntü dosyalarından aranabilir içerik oluşturmak için Optik Karakter Tanıma (OCR) ve görüntü analizi eklemesini öğrenin.

Bu hızlı başlangıçta, JPG dosyalarında görsel içeriği analiz etmek için Verileri içeri aktarma sihirbazını çalıştıracaksınız. İçerik, işaret fotoğraflardan oluşur. Çıkış, OCR aracılığıyla tanımlanan açıklamalı alt yazıları, etiketleri ve metinleri içeren aranabilir bir dizindir ve bunların hepsi Search gezgini kullanılarak portalda sorgulanabilir.

Hazırlamak için, sihirbazı çalıştırmadan önce birkaç kaynak oluşturacağız ve örnek dosyaları karşıya yükleyebilirsiniz.

Kodla başlamayı mı tercih edersiniz? Bunun yerine .NET öğreticisini, Python öğreticisiniveya REST öğreticisini deneyin.

Önkoşullar

Başlamadan önce aşağıdaki önkoşulları karşılar:

Not

Bu hızlı başlangıçta, AI için Bilişsel Hizmetler de 2. İş yükü çok küçük olduğundan, Bilişsel Hizmetler arka arkalarına 20 adede kadar işlem için ücretsiz işleme için eşlenmiş olur. Bu, ek bilişsel hizmetler kaynağı oluşturmak zorunda kalmadan bu alıştırmayı tamamlayabilirsiniz.

Verilerinizi ayarlama

Aşağıdaki adımlarda, heterojen içerik dosyalarını depolamak için Azure Depolama blob kapsayıcısı ayarlayın.

  1. Veri kaynağından örnek GitHub. Birden çok veri kümesi var. Bu hızlı başlangıç için uns quickh-images\jpg-signs klasöründeki dosyaları kullanın.

  2. Upload blob kapsayıcıya veri depolama.

    1. Azure portal oturum açın ve depolama hesabınız bulun.
    2. Sol gezinti bölmesinde Kapsayıcılar'ı seçin.
    3. "signs" adlı bir kapsayıcı oluşturun. Varsayılan genel erişim düzeyini kullanın.
    4. "İşaretler" kapsayıcısı içinde, Upload yerel unsxoh-images\jpg-signs klasörünüzdeki dosyaları karşıya yüklemek için yeni bir kapsayıcı seçin.

İşaretlerin fotoğraflarını içeren 10 dosya olması gerekir.

Yer işareti binalarını içeren ikinci bir alt klasör vardır. Bir Bilişsel Hizmetler anahtarı eklemekiçin, ekli metin eklemeden görüntü analizinin görüntü dosyaları üzerinde nasıl çalıştığını görmek için bu dosyaları da dahilebilirsiniz. Anahtar, ücretsiz kabul sınırını aşan işler için gereklidir.

Artık Verileri içeri aktarma sihirbazını taşımaya hazırsınız.

Verileri içeri aktarma sihirbazını çalıştırma

  1. Azure hesabınızla Azure portalında oturum açın.

  2. Arama hizmetinizi bulun ve Genel Bakış sayfasında, dört adımda bilişsel zenginleştirmeyi ayarlamak için komut çubuğundaki Verileri içeri aktar'a tıklayın.

    Verileri içeri aktar komutunun ekran görüntüsü

1. Adım - Veri kaynağı oluşturma

  1. Verilerinize Bağlan azure blobu'Depolama. Oluşturduğunuz depolama hesabı ve kapsayıcıya mevcut bir bağlantıyı seçin. Veri kaynağına bir ad verin ve geri kalanı için varsayılan değerleri kullanın.

    Azure blob yapılandırması

2. Adım - Bilişsel beceriler ekleme

Ardından, OCR ve görüntü analizini çağırmak için AI zenginleştirmesini yapılandırabilirsiniz.

  1. Bu hızlı başlangıçta Ücretsiz Bilişsel Hizmetler kaynağını kullanıyoruz. Örnek veriler 19 dosyadan oluşur, bu nedenle Bilişsel Hizmetler'de günlük, dizinleyici başına 20 ücretsiz işlem için bu hızlı başlangıç yeterlidir.

    Ücretsiz Bilişsel Hizmetler işleme ekleme

  2. Aynı sayfada Zenginleştirme ekle'yi genişletin ve ağaç seçimleri yapın:

    OCR'yi etkinleştirin ve tüm metinleri merged_content birleştirin.

    "Görüntülerden etiket oluştur" ve "Görüntülerden açıklamalı alt yazı oluştur" seçimlerini kullanın.

    Beceri kümesi için Bilişsel Hizmetler seçme hizmetlerini ekleme

    Görüntü analizi için, belge çözümleme sırasında görüntüler metinden ayrılır. "merged_content" alanı, AI zenginleştirme işlem hattında metin ve görüntüleri yeniden ilişkilendirin.

3. Adım - Dizini yapılandırma

Dizin aranabilir içeriğinizi içerir ve Verileri içeri aktarma sihirbazı genellikle verileri örnekleyerek şemayı sizin için çıkarabilir. Bu adımda, oluşturulan şemayı gözden geçirin ve olası ayarları düzeltin. Aşağıda, tanıtım veri kümesi için oluşturulan varsayılan şema verilmiştir.

Bu hızlı başlangıç, makul varsayılanlar ayarlanması konusunda iyi bir iş çıkarır:

  • Varsayılan alanlar, mevcut blobların özelliklerine ek olarak zenginleştirme çıkışı içeren yeni alanları temel alır text (örneğin, layoutText , , imageCaption ). Veri türleri meta verilerden ve veri örneklemeden alınarak alınmalıdır.

  • Varsayılan belge anahtarı metadata_storage_path (alan benzersiz değerler içerdiği için seçilidir).

  • Varsayılan öznitelikler Alınabilir ve Aranabilir öznitelikleridir. Aranabilir, bir alanda tam metin arama özelliğine izin verir. Alınabilir, alan değerlerinin sonuçlarda döndürülebilir olduğu anlamına gelir. Sihirbaz, bir beceri kümesi aracılığıyla oluşturduğunuz için bu alanların alınabilir ve aranabilir olması istediğiniz varsayılabilir.

    Dizin alanları

Bir alanı Alınabilir olarak işaretlemek, alanın arama sonuçlarında mevcut olması gerektiğini anlamaz. Hangi alanların dahil edilir olduğunu belirtmek için $select sorgu parametresini kullanarak arama sonuçlarının bileşimini tam olarak kontrol edersiniz. gibi yoğun metin kullanan alanlar için $select parametresi, bir yandan istemci kodunun Alınabilir özniteliği aracılığıyla ihtiyacı olan tüm bilgilere erişmesini sağlarken diğer yandan da uygulamanın insan kullanıcılarına yönetilebilir arama sonuçlarını şekillendirmeye content yönelik çözümünüzdür.

4. Adım - Dizineiciyi yapılandırma

Dizin oluşturucu, dizin oluşturma işlemini destekleyen, yüksek düzeyli bir kaynaktır. Veri kaynağı adını, hedef dizini ve yürütme sıklığını belirtir. Verileri içeri aktarma sihirbazı birkaç nesne oluşturur ve bu nesnelerden her zaman tekrar tekrar çalıştırabilirsiniz bir dizin oluşturur.

  1. Dizin Oluşturma sayfasında, varsayılan adı kabul edebilirsiniz ve Zamanlamadan sonra seçeneğine tıklar ve hemen çalıştırabilirsiniz.

    Dizin oluşturucu tanımı

  2. Dizin oluştur'u oluşturmak ve aynı anda çalıştırmak için Gönder'e tıklayın.

Durumu izleme

Bilişsel beceri dizini oluşturmanın tamamlanması, tipik metin tabanlı dizin oluşturmadan daha uzun sürer. İlerleme durumunu izlemek için Genel Bakış sayfasına gidin ve sayfanın ortasındaki DizinCiler sekmesini seçin.

Dizin oluşturma durumu

Yürütme durumuyla ilgili ayrıntıları kontrol etmek için listeden bir dizin oluşturma seçin.

Arama gezgininde sorgulama

Bir dizin oluşturulduktan sonra, sonuçları almak için sorgular çalıştırarak. Portalda bu görev için Arama gezgini'ni kullanın.

  1. Arama hizmeti panosu sayfasında, komut çubuğunda Arama gezgini'ne tıklayın.

  2. Oluşturduğunuz dizini seçmek için üst kısımdaki Dizini değiştir'e tıklayın.

  3. Sorgu dizesi'ne gibi bir dizin sorgulamak için bir arama dizesi girin ve search=sign&searchFields=imageTags&$select=text,imageCaption,imageTags&$count=true Ardından Ara'ya seçin.

    Arama gezgininde sorgu dizesi

Sonuçlar JSON olarak döndürülür ve özellikle de Azure bloblarından kaynaklanan büyük belgelerde ayrıntılı ve okunma zor olabilir. Bu araçta arama için bazı ipuçları aşağıdaki teknikleri içerir:

  • Sonuçlara $select hangi alanların dahil olduğunu belirtmek için sonuna ekleme.

  • Belirli searchField alanlara kapsamlı tam metin araması ekleme.

  • JSON içinde belirli özellikler veya terimler için arama yapmak için CTRL-F tuşlarını kullanın.

    Arama gezgini örneği

Sorgu dizeleri büyük/büyük/büyük harfe duyarlıdır, bu nedenle "bilinmeyen alan" iletisi alırsanız, ad ve büyük/büyük harf doğrulama için Alanlar'ı veya Dizin Tanımı'nı (JSON) kontrol edin.

Kaynakları temizleme

Kendi aboneliğinizde çalışırken, projenin sonunda oluşturduğunuz kaynaklara hala ihtiyacınız olup olmadığını belirlemek iyi bir fikirdir. Çalışır durumda bırakılan kaynaklar maliyetlerin artmasına neden olabilir. Kaynakları teker teker silebilir veya tüm kaynak grubunu silerek kaynak kümesinin tamamını kaldırabilirsiniz.

Sol gezinti bölmesindeki Tüm kaynaklar veya Kaynak grupları bağlantısını kullanarak portalda kaynakları bulabilir ve yönetebilirsiniz.

Ücretsiz bir hizmet kullanıyorsanız üç dizin, dizin ve veri kaynağıyla sınırlı olduğunu unutmayın. Sınırın altında kalmak için portalda tek tek öğeleri silebilirsiniz.

Sonraki adımlar

Bilişsel Arama, Verileri içeri aktarma sihirbazında 7.000.000'den fazla yerleşik beceriye sahip olabilir. Sonraki hızlı başlangıçta varlık tanıma, dil algılama ve metin çevirisi kullanılır.