Hızlı Başlangıç: Tümleşik vektörleştirme (önizleme)

Önemli

Verileri içeri aktarma ve vektörleştirme sihirbazı, Ek Kullanım Koşulları altında genel önizleme aşamasındadır. 2023-10-01-Preview REST API'sini hedefler.

Azure portalındaki Verileri içeri aktarma ve vektörleştirme sihirbazını kullanarak tümleşik vektörleştirme (önizleme) kullanmaya başlayın. Bu sihirbaz, dizin oluşturma sırasında ve sorgularda içeriği vektörleştirmek için bir Azure OpenAI metin ekleme modelini çağırır.

Sihirbazın bu önizleme sürümünde:

  • Kaynak veriler, varsayılan ayrıştırma modunu (blob başına bir arama belgesi) kullanarak yalnızca blobdur.

  • Dizin şeması yapılandırılamaz. Kaynak alanlar başlık için (öbeklenmiş ve vektörleştirilmiş) metadata_storage_name ve Dizin'de olduğu gibi parent_id doldurulan belge anahtarı için bir metadata_storage_path içerir content .

  • Vektörleştirme, HNSW algoritmasını varsayılan değerlerle kullanan yalnızca Azure OpenAI 'dir (text-embedding-ada-002).

  • Öbekleme yapılandırılamaz. Geçerli ayarlar şunlardır:

    textSplitMode: "pages",
    maximumPageLength: 2000,
    pageOverlapLength: 500
    

Önkoşullar

  • Azure aboneliği. Ücretsiz bir tane oluşturun.

  • Azure AI Search, herhangi bir bölgede ve herhangi bir katmanda. Mevcut hizmetlerin çoğu vektör arama desteği sunar. Ocak 2019'den önce oluşturulan hizmetlerin küçük bir alt kümesi için vektör alanlarını içeren bir dizin oluşturma işleminde başarısız olur. Bu durumda yeni bir hizmet oluşturulmalıdır.

  • Text-embedding-ada-002 dağıtımı ve bir API anahtarı veya Bilişsel Hizmetler OpenAI Kullanıcı izinlerinin verileri karşıya yükleme izniyle Azure OpenAI uç noktası. Bu önizlemede yalnızca bir vektörleştirici seçebilirsiniz ve vektörleştirici Azure OpenAI olmalıdır.

  • Azure Depolama hesabı, standart performans (genel amaçlı v2), Sık Erişimli ve Seyrek Erişimli erişim katmanları.

  • Metin içeriği, yalnızca yapılandırılmamış belgeler ve meta veriler sağlayan bloblar. Bu önizlemede veri kaynağınızın Azure blobları olması gerekir.

  • Azure Depolama'da okuma izinleri. Erişim anahtarı içeren bir depolama bağlantı dizesi, depolama içeriğine okuma erişimi sağlar. Bunun yerine Microsoft Entra oturum açma bilgilerini ve rollerini kullanıyorsanız, arama hizmetinin yönetilen kimliğinin Depolama Blob Veri Okuyucusu izinlerine sahip olduğundan emin olun.

  • Portal düğümlerinin bunlara erişebilmesi için tüm bileşenlerin (veri kaynağı ve ekleme uç noktası) genel erişimi etkinleştirilmelidir. Aksi takdirde sihirbaz başarısız olur. Sihirbaz çalıştırıldıktan sonra güvenlik duvarları ve özel uç noktalar güvenlik için farklı tümleştirme bileşenlerinde etkinleştirilebilir. Özel uç noktalar zaten varsa ve devre dışı bırakılamıyorsa alternatif seçenek, özel uç noktayla aynı sanal ağ içindeki bir Sanal Makineden veya bir betikten veya programdan ilgili uçtan uca akışı çalıştırmaktır. Tümleşik vektörleştirme için bir Python kod örneği aşağıda verilmiştir. Aynı GitHub deposunda diğer programlama dillerindeki örnekler bulunur.

Alan denetleme

Birçok müşteri ücretsiz hizmetle başlar. Ücretsiz katman üç dizin, üç veri kaynağı, üç beceri kümesi ve üç dizin oluşturucu ile sınırlıdır. Başlamadan önce ek öğeler için yeriniz olduğundan emin olun. Bu hızlı başlangıçta her nesneden biri oluşturulur.

Anlamsal derecelendirmeyi denetleme

Bu sihirbaz semantik derecelendirmeyi destekler, ancak yalnızca Temel katmanda ve üzerinde ve yalnızca arama hizmetinizde semantik derecelendirme zaten etkinleştirilmişse. Faturalanabilir bir katman kullanıyorsanız anlamsal derecelendirmenin etkinleştirilip etkinleştirilmediğini denetleyin.

Anlamsal ranker yapılandırma sayfasının ekran görüntüsü.

Örnek verileri hazırlama

Bu bölüm, bu hızlı başlangıç için uygun olan verileri gösterir.

  1. Azure hesabınızla Azure portalında oturum açın ve Azure Depolama hesabınıza gidin.

  2. Gezinti bölmesindeki Veri Depolama'nin altında Kapsayıcılar'ı seçin.

  3. Yeni bir kapsayıcı oluşturun ve ardından bu hızlı başlangıç için kullanılan sistem durumu planı PDF belgelerini karşıya yükleyin.

  4. Azure Depolama hesabını Azure portalında bırakmadan önce rol tabanlı erişim istediğinizi varsayarak kapsayıcıda Depolama Blob Veri Okuyucusu izinleri verin. Alternatif olarak, Erişim anahtarları sayfasından depolama hesabına bir bağlantı dizesi alabilirsiniz.

Azure OpenAI için bağlantı ayrıntılarını alma

Sihirbaz bir uç noktaya, text-embedding-ada-002 dağıtımına ve Bilişsel Hizmetler OpenAI Kullanıcı izinlerine sahip bir API anahtarına veya arama hizmeti yönetilen kimliğine ihtiyaç duyar.

  1. Azure hesabınızla Azure portalında oturum açın ve Azure OpenAI kaynağınıza gidin.

  2. Anahtarlar ve yönetim'in altında uç noktayı kopyalayın.

  3. Aynı sayfada, bir anahtarı kopyalayın veya arama hizmeti kimliğinize rol üyeleri atamak için Erişim denetimini denetleyin.

  4. Azure AI Studio'yu açmak için Model dağıtımları'nın altında Dağıtımları yönet'i seçin. text-embedding-ada-002 dağıtım adını kopyalayın.

Sihirbazı başlatma

Başlamak için Azure portalında Azure yapay zeka Arama hizmeti göz atın ve Verileri içeri aktarma ve vektörleştirme sihirbazını açın.

  1. Azure hesabınızla Azure portalında oturum açın ve Azure yapay zeka Arama hizmeti gidin.

  2. Genel Bakış sayfasında Verileri içeri aktar ve vektörleştir'i seçin.

    Sihirbaz komutunun ekran görüntüsü.

Verilerinize bağlanma

Sonraki adım, arama dizini için kullanılacak bir veri kaynağına bağlanmaktır.

  1. veri sekmenize Bağlan verileri içeri aktarma ve vektörleştirme sihirbazında, Veri Kaynağı açılan listesini genişletin ve Azure Blob Depolama seçin.

  2. Verileri sağlayan Azure aboneliğini, depolama hesabını ve kapsayıcıyı belirtin.

  3. Bağlantı için, anahtar içeren bir tam erişim bağlantı dizesi sağlayın veya kapsayıcıda Depolama Blob Veri Okuyucusu izinlerine sahip bir yönetilen kimlik belirtin.

  4. Silme algılamasını isteyip istemediğinizi belirtin:

    Veri kaynağı sayfasının ekran görüntüsü.

  5. Devam etmek için İleri: Vektörleştir ve Zenginleştir'i seçin.

Verilerinizi zenginleştirme ve vektörleştirme

Bu adımda, öbeklenmiş verileri vektörleştirmek için kullanılan ekleme modelini belirtin.

  1. Abonelik, uç nokta, API anahtarı ve model dağıtım adını belirtin.

  2. İsteğe bağlı olarak, ikili görüntüleri (örneğin, taranmış belge dosyaları) kırabilir ve metni tanımak için OCR kullanabilirsiniz.

  3. İsteğe bağlı olarak, sorgu yürütmenin sonunda sonuçları yeniden boyutlandırmak için semantik derecelendirme ekleyebilir ve en anlamsal olarak ilgili eşleşmeleri en üste tanıtabilirsiniz.

  4. Dizin oluşturucu için bir çalışma zamanı zamanlaması belirtin.

    Zenginleştirme sayfasının ekran görüntüsü.

  5. Devam etmek için İleri: Oluştur ve Gözden Geçir'i seçin.

Sihirbazı çalıştırma

Bu adım aşağıdaki nesneleri oluşturur:

  • Blob kapsayıcınıza veri kaynağı bağlantısı.

  • Vektör alanları, vektörleştiriciler, vektör profilleri, vektör algoritmaları ile dizin. Sihirbaz iş akışı sırasında varsayılan dizini tasarlamanız veya değiştirmeniz istenmez. Dizinler 2023-10-01-Preview sürümüne uygundur.

  • Öbekleme için Metin Bölme becerisini ve vektörleştirme için AzureOpenAIEmbeddingModel'i içeren beceri kümesi.

  • Alan eşlemeleri ve çıkış alanı eşlemeleri olan dizin oluşturucu (varsa).

Hata alırsanız önce izinleri gözden geçirin. Azure OpenAI'de Bilişsel Hizmetler OpenAI Kullanıcısı ve Azure Depolama'da Depolama Blob Veri Okuyucusu gerekir. Bloblarınız yapılandırılmamış olmalıdır (öbeklenmiş veriler blob'un "içerik" özelliğinden alınır).

Sonuçları denetleme

Arama gezgini metin dizelerini giriş olarak kabul eder ve ardından vektör sorgu yürütmesi için metni vektörleştirir.

  1. Dizininizi seçin.

  2. İsteğe bağlı olarak Sorgu seçenekleri'ni seçin ve arama sonuçlarında vektör değerlerini gizleyin. Bu adım, arama sonuçlarınızın daha kolay okunmasını sağlar.

    Sorgu seçenekleri düğmesinin ekran görüntüsü.

  3. JSON görünümünü seçerek vektör sorgunuzun metnini metin vektör sorgusu parametresine girebilirsiniz.

    JSON seçicisinin ekran görüntüsü.

    Bu sihirbaz, "vektör" alanında bir vektör sorgusu veren ve en yakın 5 komşuyu döndüren bir varsayılan sorgu sunar. Vektör değerlerini gizlemeyi tercih ettiyseniz, varsayılan sorgunuz vektör alanını arama sonuçlarından dışlayan bir "select" deyimi içerir.

    {
       "select": "chunk_id,parent_id,chunk,title",
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
  4. Metni "*" sistem durumu planlarıyla ilgili bir soruyla değiştirin; örneğin , "hangi plan en düşük düşülebilir plana sahiptir".

  5. Sorguyu çalıştırmak için Ara'yı seçin.

    Arama sonuçlarının ekran görüntüsü.

    Her belgenin özgün PDF'nin bir öbeği olduğu 5 eşleşme görmeniz gerekir. Başlık alanında öbeklerin hangi PDF'den geldiği gösterilir.

  6. Belirli bir belgedeki tüm öbekleri görmek için, belirli bir PDF'nin başlık alanına filtre ekleyin:

    {
       "select": "chunk_id,parent_id,chunk,title",
       "filter": "title eq 'Benefit_Options.pdf'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
    

Temizleme

Azure AI Search faturalanabilir bir kaynaktır. Artık gerekli değilse, ücretlerden kaçınmak için aboneliğinizden silin.

Sonraki adımlar

Bu hızlı başlangıçta, tümleşik vektörleştirme için gerekli tüm nesneleri oluşturan Verileri içeri aktarma ve vektörleştirme sihirbazı tanıtıldı. Her adımı ayrıntılı olarak incelemek istiyorsanız tümleşik vektörleştirme örneğini deneyin.