Azure Bilişsel Arama'daki Dizin Oluşturucular
Azure Bilişsel Arama'daki bir dizin oluşturma, dış Azure veri kaynağından aranabilir metin ve meta verileri ayıklar ve kaynak veri ile dizininiz arasındaki alan-alan eşlemelerini kullanarak bir arama dizinini doldurmak için bir gezgindir. Hizmet, dizine veri ekleyen bir kod yazmak zorunda kalmadan verileri çekmesi nedeniyle bu yaklaşım bazen 'çekme modeli' olarak adlandırılır. Dizinler ayrıca Bilişsel Arama'nın AI zenginleştirme özelliklerini de yönlendirerek dizine giden içeriğin dış işlemesini tümleştirir.
Dizin oluşturma, Azure SQL , Azure Cosmos DB, Azure Tablo Depolama ve BlobDepolama. Dizin oluşturma yapılandırmasında bir veri kaynağı (kaynak) ve bir dizin (hedef) belirtirsiniz. Blob depolama gibi çeşitli kaynaklar, bu içerik türüne özgü ek yapılandırma özelliklerine sahiptir.
Dizin oluşturmaları isteğe bağlı olarak veya her beş dakikada bir çalışan yinelenen bir veri yenileme zamanlaması üzerinde çalıştırabilirsiniz. Daha sık güncelleştirmeler için hem veri kaynağınız hem de dış veri kaynağınız için aynı anda Azure Bilişsel Arama 'anında yükleme modeli' gerekir.
Kullanım senaryoları
Dizinleştiriciyi veri alımı için tek yol olarak veya isteğe bağlı olarak içerik yükleme ve isteğe bağlı olarak içerik dönüştürme veya zenginleştirme tekniklerinin bir birleşiminin parçası olarak kullanabilirsiniz. Aşağıdaki tabloda ana senaryolar özetlenmiştir.
| Senaryo | Strateji |
|---|---|
| Tek veri kaynağı | Bu en basit desendir: Bir veri kaynağı, arama dizini için tek içerik sağlayıcısıdır. Kaynaktan, arama dizininde belge anahtarı olarak görev yapacak benzersiz değerler içeren bir alan tanımlayabilirsiniz. Benzersiz değer tanımlayıcı olarak kullanılır. Diğer tüm kaynak alanlar, bir dizinde yer alan ilgili alanlara örtülü olarak veya açıkça eşlenmiş. Önemli bir nokta, belge anahtarının değerinin kaynak verilerden kaynaklandığıdır. Arama hizmeti anahtar değerleri oluşturmaz. Sonraki çalıştırmalarda, dizin alanlarının null veya doldurulma durumuna bağlı olarak var olan anahtarlara sahip gelen belgeler birleştirilir veya üzerine yazılırken yeni anahtarlarla gelen belgeler eklenir. |
| Birden çok veri kaynağı | Dizin, her çalıştırmanın farklı bir kaynaktan yeni içerik getirdiği birden çok kaynaktan içerik kabul eder. Bir sonuç, her dizinici çalıştırılan ve belgelerin tamamı her kaynaktan tam olarak oluşturulan belgeler alan bir dizin olabilir. Örneğin, 1-100 belgeleri Blob depolamadan, 101-200 belgeleri azure depolama SQL vb. belgelerdendir. Bu senaryonun zor olması, tüm gelen veriler için çalışan bir dizin şeması ve arama dizininde tekdüz bir belge anahtarı yapısı tasarlamaktır. Yerel olarak, bir belgeyi benzersiz olarak metadata_storage_path blob kapsayıcısı içinde ve SQL tablodaki birincil anahtardır. İçerik kaynağına bakılmaksızın anahtar değerleri ortak bir biçimde sağlamak için bir veya iki kaynağın da değiştirilmesi gerektiğini düşünebilirsiniz. Bu senaryo için, verileri tek bir dizine çekilemeleri için bir ön işleme düzeyi gerçekleştirmeyi beklemeniz gerekir. Alternatif bir sonuç, ilk çalıştırmada kısmen doldurulan ve sonraki çalıştırmalarla daha fazla doldurulan arama belgeleri olabilir. Örneğin, 1-10 alanları Blob depolamadan, Azure depolamadan 11-20 SQL vb. olur. Bu düzenin zor olması, her dizin oluşturma çalıştırması için aynı belgenin hedeflenmiş olduğundan emin olmaktır. Alanları mevcut bir belgeyle birleştirme işlemi, belge anahtarında eşleşme gerektirir. Bu senaryonun bir gösterimi için bkz. Öğretici: Birden çok veri kaynağından dizin oluşturma. |
| Birden çok dizin oluşturma | Birden çok veri kaynağı kullanıyorsanız, çalışma zamanı parametrelerini, zamanlamayı veya alan eşlemelerini farklı bir şekilde yapılandırmanız gerekirse birden çok dizine ihtiyacınız olabilir. Birden çok indexer-data-source kümesi aynı dizini hedefleyese de, dizinde mevcut değerlerin üzerine yazarak dizin oluşturma çalıştırmalarını dikkatli olun. İkinci bir indexer-data-source aynı belgeleri ve alanları hedeflerse, ilk çalıştırmanın tüm değerlerinin üzerine yazılır. Alan değerleri tam olarak değiştirilir; Bir dizin oluşturma, birden çok çalıştırmadan alınan değerleri aynı alana birleştiramaz.Başka bir çok dizinli kullanım durumu, Bilişsel Arama'nın bölgeler arası ölçeğini dışarı ölçeklendirmedir. Farklı bölgelerde aynı arama dizininin kopyaları olabilir. Arama dizini içeriğini eşitlemek için, aynı veri kaynağından her dizinleyicinin farklı bir arama dizinini hedefleyene birden çok dizinleyici çekmesi olabilir.Çok büyük veri kümelerinin paralel dizin oluşturması için çoklu dizin oluşturma stratejisi de gerekir. Her dizin oluşturma, verilerin bir alt kümesini hedefler. |
| İçerik dönüştürme | Bilişsel Arama, yeni aranabilir içerik ve yapı oluşturmak için görüntü analizi ve doğal dil işleme ekleyip isteğe bağlı AI zenginleştirme davranışlarını destekler. AI zenginleştirme, bağlı bir beceri kümesi aracılığıyla dizin oluşturma odaklıdır. AI zenginleştirmesi gerçekleştirmek için dizine ve Azure veri kaynağına ihtiyaç vardır, ancak bu senaryoda dizin oluşturma işlemi dizine ek olarak dizin oluşturma özelliğine de sahip olur. |
Desteklenen veri kaynakları
Dizinciler, Azure'da ve Azure'ın dışındaki veri depolarında geziniyor.
- Amazon Redshift (önizlemede)
- Azure Blob Depolama
- Azure Cosmos DB
- Azure Data Lake Storage 2. Nesil
- Azure MySQL (önizlemede)
- Azure SQL Veritabanı
- Azure Tablo Depolama
- Elasticsearch (önizlemede)
- PostgreSQL (önizlemede)
- Salesforce Nesneleri (önizlemede)
- Salesforce Raporları (önizlemede)
- Smartsheet (önizlemede)
- Snowflake (önizlemede)
- SQL Yönetilen Örnek
- Azure Sanal Makineler'de SQL Server
uzak veri kaynaklarına yönelik dizin oluşturma bağlantıları, istemci uygulamaları için Azure sanal ağları kullanırken standart İnternet bağlantıları (genel) veya şifrelenmiş özel bağlantılar kullanılarak gerçek olabilir. Güvenilen hizmet kimliği kullanarak kimlik doğrulaması yapmak için bağlantılar da kurabilirsiniz. Güvenli bağlantılar hakkında daha fazla bilgi için bkz. Özel uç noktalar aracılığıyla erişim izni Bağlan yönetilen kimlik kullanarak bir veri kaynağına erişim izni vermek.
Dizin oluşturma aşamaları
İlk çalıştırmada, dizin boş olduğunda dizin oluşturma, tablo veya kapsayıcıda sağlanan tüm verileri okur. Sonraki çalıştırmalarda dizin oluşturma genellikle yalnızca değişen verileri algılar ve alabilir. Blob verileri için değişiklik algılama otomatiktir. Azure veritabanı veya veritabanı SQL Cosmos veri kaynakları için değişiklik algılama etkinleştirilmelidir.
Aldığı her belge için dizine alma işlemi, belge almadan dizin oluşturma için son arama motoru "teslimi" adımına kadar olan birden çok adımı uygulayan veya koordine ediyor. İsteğe bağlı olarak, bir beceri kümesi tanımlandığıvarsayıldık, ayrıca bir dizine sahip olan bir dizine sahip olan, beceri kümesi yürütmeyi ve çıkışlarını da sağlar.
1. Aşama: Belgeyi kırarak
Belgeyi ayıklama, dosyaları açma ve içeriği ayıklama işlemidir. Metin tabanlı içerik bir hizmette yer alan dosyalardan, tablodaki satırlardan veya kapsayıcı ya da koleksiyondaki öğelerden ayıklanır. Bir dizine beceri kümesi ve görüntü becerileri eklersiniz, belge kırarak görüntüleri ayıklar ve iş için kuyruğa ekleyebilir.
Veri kaynağına bağlı olarak dizin sağlayıcı, dizinlenebilir olabilecek içeriği ayıklamak için farklı işlemler dener:
Belge, PDF veya Azure BlobDepolama'da desteklenen diğer dosya biçimi gibi bir dosya olduğunda, dizin oluşturıcı dosyayı açar ve metin, görüntüler ve meta verileri ayıklar. Dizinciler ayrıca SharePoint ve Azure Data Lake Depolama 2. Nesil'den dosyaları açabilir.
Belge AzureSQL'da bir kayıt olduğunda, dizin sağlayıcı her kayıtta yer alan her alandan ikili olmayan içeriği ayıklar.
Belge Cosmos DB'debir kayıt olduğunda dizin sağlayıcı, Cosmos DB belgesinde yer alan alanlardan ve alt alanlardan ikili olmayan içeriği ayıklar.
2. Aşama: Alan eşlemeleri
Dizin oluşturma, bir kaynak alandan metin ayıklar ve bir dizin veya bilgi deposu içinde bir hedef alana gönderir. Alan adları ve türleri çakıştığında yol açık olur. Ancak, çıkışta farklı adlar veya türler istiyor olabilir, bu durumda dizine alan eşlemeyi söylemelisiniz.
Bu adım belgeyi kırtıktan sonra, ancak dizin oluşturma kaynak belgelerden okurken dönüştürmelerden önce gerçekleşir. Bir alan eşlemesi tanımladığınızzaman, kaynak alanın değeri herhangi bir değişiklikle hedef alana olduğu gibi gönderilir.
3. Aşama: Beceri kümesi yürütme
Beceri kümesi yürütme, yerleşik veya özel AI işlemeyi çağıran isteğe bağlı bir adımdır. Kaynak veriler ikili görüntü ise görüntü analizi şeklinde optik karakter tanıma (OCR) için buna ihtiyacınız olabilir veya içerik farklı dillerde ise dil çevirisi gerekir.
Dönüştürme ne olursa olsun beceri kümesi yürütmesi, zenginleştirmenin oluştuğu yerdir. Dizin oluşturma bir işlem hattı ise beceri kümesi olarak "işlem hattı içinde işlem hattı" düşünesiniz.
4. Aşama: Çıkış alanı eşlemeleri
Beceri kümesi dahil ediyorsanız, büyük olasılıkla çıkış alanı eşlemelerini de dahil etmek gerekir. Beceri kümesi çıkışı, zenginleştirilmiş belge olarak adlandırılan bir bilgi ağacıdır. Çıkış alanı eşlemeleri, bu ağacın hangi bölümlerinin dizininizin alanlarına eşley fiyatlandırı seçerek bunu seçmenize olanak sağlar. Çıkış alanı eşlemelerini tanımlamayı öğrenin.
Alan eşlemeleri veri kaynağından hedef alanlara doğru değerleri ilişkilendirmekle birlikte, çıkış alanı eşlemeleri dizine zenginleştirilmiş belgede dönüştürülen değerleri dizinde hedef alanlarına nasıl ilişkilendirilmesi hakkında bilgi verir. İsteğe bağlı olarak kabul edilen alan eşlemeleri'nin aksine, her zaman bir dizinde yer alan dönüştürülen içerik için bir çıkış alanı eşlemesi tanımlamanız gerekir.
Sonraki görüntüde dizinleyici aşamalarının örnek dizinleyici hata ayıklama oturumu gösterimi yer alır: belge ayıklama, alan eşlemeleri, beceri kümesi yürütme ve çıkış alanı eşlemeleri.
Temel iş akışı
Dizin oluşturucular veri kaynağına özgü özellikler sunabilir. Bu bakımdan, dizin oluşturucu veya veri kaynağı yapılandırmasının bazı boyutları dizin oluşturucu türüne göre farklılık gösterir. Bununla birlikte, tüm dizin oluşturucuların temel birleşimi ve gereksinimleri aynıdır. Tüm dizin oluşturucularda ortak olan adımlar aşağıda ele alınmıştır.
1. Adım: Veri kaynağı oluşturma
Dizinciler, bağlantı dizesi ve muhtemelen kimlik bilgileri sağlayan bir veri kaynağı nesnesi gerektirir. Kaynağı oluşturmak için Veri Kaynağı Oluştur (REST) veya SearchIndexerDataSourceConnection sınıfını arayın.
Veri kaynakları, bunları kullanan dizin oluşturuculardan bağımsız olarak yapılandırılır ve yönetilir. Bu da bir veri kaynağının, bir seferde birden çok dizin yüklemek amacıyla birden çok dizin oluşturucu tarafından kullanılabileceği anlamına gelir.
2. Adım: Dizin oluşturma
Dizin oluşturucu veri alımıyla ilgili bazı görevleri otomatikleştirir, ancak dizin oluşturma genellikle bu görevlerden biri değildir. Bir önkoşul olarak dış veri kaynağınızdaki alanlarla eşleşen alanlara sahip önceden tanımlı bir dizininiz olmalıdır. Alanların ad ve veri türüne göre eşleşmesi gerekir. Yoksa, ilişkilendirmeyi kurmak için alan eşlemeleri tanımlayabilirsiniz. Bir dizini yapılandırma hakkında daha fazla bilgi için bkz. Dizin Oluşturma (REST) veya SearchIndex sınıfı.
İpucu
Dizin oluşturucular sizin için dizin oluşturamasa da, portaldaki Verileri içeri aktarma sihirbazı bu işlem için size yardımcı olabilir. Çoğu durumda, sihirbaz, kaynaktaki mevcut meta verilerden dizin şeması çıkarsayarak, sihirbaz etkin olduğunda satır içinde düzenleyebileceğiniz geçici bir dizin şeması sunar. Hizmet için sihirbaz oluşturulduğunda, portalda yapılabilecek ayrıntılı düzenlemeler, genellikle yeni alanlar eklemeyle sınırlıdır. Sihirbaz dizin oluşturmak için uygun olsa da, düzenlemek için uygun değildir. Uygulama yaparak öğrenmek için, portal kılavuzundaki adımları izleyin.
3. Adım: Dizin oluşturma ve çalıştırma (veya zamanlama)
Dizin oluşturma, arama hizmeti üzerinde ilk kez bir dizin oluşturma adımlarını çalıştırır. Yalnızca dizin oluşturma veya çalıştırma sırasında veri kaynağının erişilebilir olup olmadığını veya beceri kümesi geçerli olup olmadığını bulabilirsiniz. İlk çalıştırmadan sonra, Dizin Oluşturma Çalıştır'ı kullanarak isteğe bağlı olarak yeniden çalıştırarakveya yinelenen bir zamanlama tanımlayabilirsiniz.
Dizin oluşturma durumunu portaldan veya Dizin Oluşturma Durumunu Alma API'si aracılığıyla izleyebilirsiniz. Ayrıca, sonucun beklendiği gibi olduğunu doğrulamak için dizinde sorgular çalıştırmanız gerekir.
Sonraki adımlar
Artık size tanıtıldı. Bir sonraki adım dizin oluşturma özelliklerini ve parametrelerini, zamanlamayı ve dizin oluşturma izlemesini gözden geçirmektir. Alternatif olarak, belirli bir kaynak hakkında daha fazla bilgi için desteklenen veri kaynakları listesine dönebilirsiniz.