Hızlı Başlangıç: Verileri içeri aktarma sihirbazını kullanarak metin çevirme ve varlıkları tanıma

Bir arama dizininde aranabilir içerik Azure Bilişsel Arama dil algılama, metin çevirisi ve varlık tanımayı nasıl ekleyen bir veri zekası zenginleştirmesi olduğunu öğrenin.

Bu hızlı başlangıçta, verileri içeri aktarma sihirbazını çalıştırarak İspanya'da bulunan çeşitli ulusal atların Fransızca ve İspanyolca açıklamalarını analiz edeceksiniz. Çıktı, Search gezgini kullanılarak portalda sorgulanabilir, çevrilmiş metin ve varlıkları içeren aranabilir bir dizindir.

Hazırlamak için, sihirbazı çalıştırmadan önce birkaç kaynak oluşturacağız ve örnek dosyaları karşıya yükleyebilirsiniz.

Kodla başlamayı mı tercih edersiniz? Bunun yerine .NET öğreticisini, Python öğreticisiniveya REST öğreticisini deneyin.

Önkoşullar

Başlamadan önce aşağıdaki önkoşulları karşılar:

Not

Bu hızlı başlangıçta, AI için Bilişsel Hizmetler de 2. İş yükü çok küçük olduğundan, Bilişsel Hizmetler arka arkalarına 20 adede kadar işlem için ücretsiz işleme için eşlenmiş olur. Bu, ek bilişsel hizmetler kaynağı oluşturmak zorunda kalmadan bu alıştırmayı tamamlayabilirsiniz.

Verilerinizi ayarlama

Aşağıdaki adımlarda, heterojen içerik dosyalarını depolamak için Azure Depolama blob kapsayıcısı ayarlayın.

  1. Veri kaynağından örnek GitHub. Birden çok veri kümesi var. Bu hızlı başlangıç için spanish-folder klasöründeki dosyaları kullanın.

  2. Upload blob kapsayıcıya veri depolama.

    1. Azure portal oturum açın ve depolama hesabınız bulun.
    2. Sol gezinti bölmesinde Kapsayıcılar'ı seçin.
    3. "spanish-spanish-spanish" adlı bir kapsayıcı oluşturun. Varsayılan genel erişim düzeyini kullanın.
    4. "spanish-spanish-spanish" kapsayıcısı içinde, Upload klasördeki dosyaları karşıya yüklemek için yeni bir sunucu seçin.

İspanya'da bulunan ulusal şehrin Fransızca ve İspanyolca açıklamalarını içeren 10 dosya olması gerekir.

Blob kapsayıcısı içinde docx dosyalarının listesi

Artık Verileri içeri aktarma sihirbazını taşımaya hazırsınız.

Verileri içeri aktarma sihirbazını çalıştırma

  1. Azure hesabınızla Azure portalında oturum açın.

  2. Arama hizmetinizi bulun ve Genel Bakış sayfasında, dört adımda bilişsel zenginleştirmeyi ayarlamak için komut çubuğundaki Verileri içeri aktar'a tıklayın.

    Verileri içeri aktar komutunun ekran görüntüsü

1. Adım - Veri kaynağı oluşturma

  1. Verilerinize Bağlan azure blobu'Depolama. Oluşturduğunuz depolama hesabı ve kapsayıcıya mevcut bir bağlantıyı seçin. Veri kaynağına bir ad verin ve geri kalanı için varsayılan değerleri kullanın.

    Azure blob yapılandırması

2. Adım - Bilişsel beceriler ekleme

Ardından, dil algılama, metin çevirisi ve varlık tanımayı çağırmak için AI zenginleştirmesini yapılandırabilirsiniz.

  1. Bu hızlı başlangıçta Ücretsiz Bilişsel Hizmetler kaynağını kullanıyoruz. Örnek veriler 10 dosyadan oluşur, bu nedenle Bilişsel Hizmetler'de günlük, dizinleyici başına 20 ücretsiz işlem için bu hızlı başlangıç yeterlidir.

    Ücretsiz Bilişsel Hizmetler işleme ekleme

  2. Aynı sayfada Zenginleştirme ekle'yi genişletin ve beş seçim yapın:

    Varlık tanımayı (kişiler, kuruluşlar, konumlar) seçme

    Dil algılama ve metin çevirisi seçme

    Beceri kümesi için Bilişsel Hizmetler seçme hizmetlerini ekleme

    Bloblarda "İçerik" alanı dosyanın içeriğini içerir. Örnek verilerde içerik, Fransızca veya İspanyolca olarak belirtilen bir türkçe hakkında birden çok paragraftır. "Ayrıntı", alanın kendisidir. Bazı beceriler daha küçük metin öbekleri üzerinde daha iyi çalışır, ancak bu hızlı başlangıçtaki beceriler için alan tanecikliği yeterlidir.

3. Adım - Dizini yapılandırma

Dizin aranabilir içeriğinizi içerir ve Verileri içeri aktarma sihirbazı genellikle verileri örnekleyerek şemayı sizin için çıkarabilir. Bu adımda, oluşturulan şemayı gözden geçirin ve olası ayarları düzeltin. Aşağıda, tanıtım veri kümesi için oluşturulan varsayılan şema verilmiştir.

Bu hızlı başlangıç, makul varsayılanlar ayarlanması konusunda iyi bir iş çıkarır:

  • Varsayılan alanlar, mevcut blobların özelliklerine ek olarak zenginleştirme çıkışı içeren yeni alanları temel alır people (örneğin, organizations , , locations ). Veri türleri meta verilerden ve veri örneklemeden alınarak alınmalıdır.

  • Varsayılan belge anahtarı metadata_storage_path (alan benzersiz değerler içerdiği için seçilidir).

  • Varsayılan öznitelikler Alınabilir ve Aranabilir öznitelikleridir. Aranabilir, bir alanda tam metin arama özelliğine izin verir. Alınabilir, alan değerlerinin sonuçlarda döndürülebilir olduğu anlamına gelir. Sihirbaz, bir beceri kümesi aracılığıyla oluşturduğunuz için bu alanların alınabilir ve aranabilir olması istediğiniz varsayılabilir.

  • "Dil" için filtrelenebilir onay kutusunu seçin. Sihirbaz klasörü sizin için ayarlamaz, ancak dile göre filtreleme özelliği, birden çok dil olduğu için bu tanıtımda kullanışlıdır.

    Dizin alanları

Bir alanı Alınabilir olarak işaretlemek, alanın arama sonuçlarında mevcut olması gerektiğini anlamaz. Hangi alanların dahil edilir olduğunu belirtmek için $select sorgu parametresini kullanarak arama sonuçlarının bileşimini tam olarak kontrol edersiniz. gibi yoğun metin kullanan alanlar için $select parametresi, bir yandan istemci kodunun Alınabilir özniteliği aracılığıyla ihtiyacı olan tüm bilgilere erişmesini sağlarken diğer yandan da uygulamanın insan kullanıcılarına yönetilebilir arama sonuçlarını şekillendirmeye yönelik content çözümünüzdür.

4. Adım - Dizineiciyi yapılandırma

Dizin oluşturucu, dizin oluşturma işlemini destekleyen, yüksek düzeyli bir kaynaktır. Veri kaynağı adını, hedef dizini ve yürütme sıklığını belirtir. Verileri içeri aktarma sihirbazı birkaç nesne oluşturur ve bu nesnelerden her zaman tekrar tekrar çalıştırabilirsiniz bir dizin oluşturur.

  1. Dizin Oluşturma sayfasında, varsayılan adı kabul edebilirsiniz ve Zamanlamadan sonra seçeneğine tıklar ve hemen çalıştırabilirsiniz.

    Dizin oluşturucu tanımı

  2. Dizin oluştur'u oluşturmak ve aynı anda çalıştırmak için Gönder'e tıklayın.

Durumu izleme

Bilişsel beceri dizini oluşturmanın tamamlanması, tipik metin tabanlı dizin oluşturmadan daha uzun sürer. İlerleme durumunu izlemek için Genel Bakış sayfasına gidin ve sayfanın ortasındaki DizinCiler sekmesini seçin.

Dizin oluşturma durumu

Yürütme durumuyla ilgili ayrıntıları kontrol etmek için listeden bir dizin oluşturma seçin.

Arama gezgininde sorgulama

Bir dizin oluşturulduktan sonra, sonuçları almak için sorgular çalıştırarak. Portalda bu görev için Arama gezgini'ni kullanın.

  1. Arama hizmeti panosu sayfasında, komut çubuğunda Arama gezgini'ne tıklayın.

  2. Oluşturduğunuz dizini seçmek için üst kısımdaki Dizini değiştir'e tıklayın.

  3. Sorgu dizesi'ne gibi bir dizin sorgulamak için bir arama dizesi girin ve search="picasso museum" &$select=people,organizations,locations,language,translated_text &$count=true &$filter=language eq 'fr' Ardından Ara'ya seçin.

    Arama gezgininde sorgu dizesi

Sonuçlar JSON olarak döndürülür ve özellikle de Azure bloblarından kaynaklanan büyük belgelerde ayrıntılı ve okunma zor olabilir. Bu araçta arama için bazı ipuçları aşağıdaki teknikleri içerir:

  • $selectSonuçlara hangi alanların ekleneceğini belirtmek için Ekle.

  • Belirli özellikler veya terimler için JSON içinde arama yapmak için CTRL-F kullanın.

    Arama gezgini örneği

Sorgu dizeleri büyük/küçük harfe duyarlıdır; bu nedenle, bir "bilinmeyen alan" iletisi alırsanız, ad ve durumu doğrulamak için alanları veya DIZIN tanımını (JSON) denetleyin.

Kaynakları temizleme

Kendi aboneliğinizde çalışırken, projenin sonunda oluşturduğunuz kaynaklara hala ihtiyacınız olup olmadığını belirlemek iyi bir fikirdir. Çalışır durumda bırakılan kaynaklar maliyetlerin artmasına neden olabilir. Kaynakları teker teker silebilir veya tüm kaynak grubunu silerek kaynak kümesinin tamamını kaldırabilirsiniz.

Sol gezinti bölmesindeki tüm kaynaklar veya kaynak grupları bağlantısını kullanarak portalda kaynakları bulabilir ve yönetebilirsiniz.

Ücretsiz bir hizmet kullanıyorsanız, üç Dizin, Dizin Oluşturucu ve veri kaynağı ile sınırlı olduğunu unutmayın. Sınırın altında kalmak için portalda ayrı ayrı öğeleri silebilirsiniz.

Sonraki adımlar

Bilişsel Arama, verileri Içeri aktarma Sihirbazı 'nda uygulanabilecek diğer yerleşik becerileri içerir. Sonraki adım olarak, görüntü dosyalarından metin aranabilir içerik oluşturmak için OCR ve görüntü analizi yeteneklerini deneyin.