Szybki start: wektoryzacja zintegrowana (wersja zapoznawcza)

Ważne

Kreator importowania i wektoryzacji danych jest w publicznej wersji zapoznawczej w obszarze Uzupełniające warunki użytkowania. Jest przeznaczony dla interfejsu API REST 2023-10-01-Preview.

Rozpocznij pracę ze zintegrowaną wektoryzacją (wersja zapoznawcza) przy użyciu Kreatora importowania i wektoryzacji danych w witrynie Azure Portal. Ten kreator wywołuje model osadzania tekstu usługi Azure OpenAI w celu wektoryzacji zawartości podczas indeksowania i zapytań.

W tej wersji zapoznawczej kreatora:

  • Dane źródłowe są tylko obiektami blob, używając domyślnego trybu analizowania (jeden dokument wyszukiwania na obiekt blob).

  • Schemat indeksu jest niekonfigurowalny. Pola źródłowe obejmują content (fragmentowane i wektoryzowane), metadata_storage_name tytuł i klucz metadata_storage_path dokumentu reprezentowany jako parent_id w indeksie.

  • Wektoryzacja to tylko azure OpenAI (osadzanie tekstu-ada-002) przy użyciu hierarchicznego algorytmu Navigable Small Worlds (HNSW) z wartościami domyślnymi.

  • Fragmentowanie nie jest konfigurowalne. Obowiązujące ustawienia to:

    textSplitMode: "pages",
    maximumPageLength: 2000,
    pageOverlapLength: 500
    

Aby uzyskać więcej opcji konfiguracji i źródła danych, wypróbuj język Python lub interfejsy API REST. Aby uzyskać szczegółowe informacje, zobacz przykład zintegrowanej wektoryzacji.

  • Subskrypcja Azure. Utwórz je bezpłatnie.

  • Usługa Azure AI Search w dowolnym regionie i w dowolnej warstwie. Większość istniejących usług obsługuje wyszukiwanie wektorów. W przypadku małego podzbioru usług utworzonych przed styczniem 2019 r. indeks zawierający pola wektorowe kończy się niepowodzeniem podczas tworzenia. W takiej sytuacji należy utworzyć nową usługę.

  • Punkt końcowy usługi Azure OpenAI z wdrożeniem osadzania tekstu ada-002 i klucza interfejsu API lub uprawnień użytkownika openAI usług Cognitive Services do przekazywania danych. W tej wersji zapoznawczej można wybrać tylko jeden wektoryzator, a wektoryzator musi mieć wartość Azure OpenAI.

  • Konto usługi Azure Storage, standardowa wydajność (ogólnego przeznaczenia, wersja 2), gorąca, chłodna i chłodna warstwa dostępu.

  • Obiekty blob udostępniające zawartość tekstową, tylko dokumenty bez struktury i metadane. W tej wersji zapoznawczej źródło danych musi być obiektami blob platformy Azure.

  • Uprawnienia do odczytu w usłudze Azure Storage. Parametry połączenia magazynu, który zawiera klucz dostępu, zapewnia dostęp do odczytu do zawartości magazynu. Jeśli zamiast tego używasz identyfikatorów logowania i ról firmy Microsoft Entra, upewnij się, że tożsamość zarządzana usługi wyszukiwania ma uprawnienia Czytelnik danych obiektu blob usługi Storage.

  • Wszystkie składniki (źródło danych i punkt końcowy osadzania) muszą mieć włączony dostęp publiczny, aby węzły portalu mogły uzyskiwać do nich dostęp. W przeciwnym razie kreator zakończy się niepowodzeniem. Po uruchomieniu kreatora zapory i prywatne punkty końcowe można włączyć w różnych składnikach integracji na potrzeby zabezpieczeń. Jeśli prywatne punkty końcowe są już obecne i nie można ich wyłączyć, alternatywną opcją jest uruchomienie odpowiedniego kompleksowego przepływu ze skryptu lub programu z maszyny wirtualnej w tej samej sieci wirtualnej co prywatny punkt końcowy. Oto przykładowy kod w języku Python na potrzeby zintegrowanej wektoryzacji. W tym samym repozytorium GitHub znajdują się przykłady w innych językach programowania.

Sprawdzanie ilości wolnego miejsca

Wielu klientów zaczyna od bezpłatnej usługi. Warstwa Bezpłatna jest ograniczona do trzech indeksów, trzech źródeł danych, trzech zestawów umiejętności i trzech indeksatorów. Przed rozpoczęciem upewnij się, że dysponujesz miejscem na dodatkowe elementy. Ten przewodnik Szybki start tworzy jeden z każdego obiektu.

Sprawdzanie klasyfikacji semantycznej

Ten kreator obsługuje klasyfikację semantyczną, ale tylko w warstwie Podstawowa i powyżej oraz tylko wtedy, gdy klasyfikacja semantyczna jest już włączona w usłudze wyszukiwania. Jeśli używasz warstwy rozliczanej, sprawdź, czy klasyfikacja semantyczna jest włączona.

Zrzut ekranu przedstawiający stronę konfiguracji klasyfikatora semantycznego.

Przygotowywanie przykładowych danych

W tej sekcji przedstawiono dane, które działają na potrzeby tego przewodnika Szybki start.

  1. Zaloguj się do witryny Azure Portal przy użyciu konta platformy Azure i przejdź do konta usługi Azure Storage.

  2. W okienku nawigacji w obszarze Magazyn danych wybierz pozycję Kontenery.

  3. Utwórz nowy kontener, a następnie przekaż dokumenty PDF planu kondycji używane na potrzeby tego przewodnika Szybki start.

  4. Przed opuszczeniem konta usługi Azure Storage w witrynie Azure Portal przyznaj uprawnienia Czytelnik danych obiektu blob usługi Storage w kontenerze przy założeniu, że chcesz uzyskać dostęp oparty na rolach. Możesz też uzyskać parametry połączenia do konta magazynu ze strony Klucze dostępu.

Uzyskiwanie szczegółów połączenia dla usługi Azure OpenAI

Kreator potrzebuje punktu końcowego , wdrożenia osadzania tekstu ada-002 oraz klucza interfejsu API lub tożsamości zarządzanej usługi wyszukiwania z uprawnieniami użytkownika openAI usług Cognitive Services.

  1. Zaloguj się do witryny Azure Portal przy użyciu konta platformy Azure i przejdź do zasobu Azure OpenAI.

  2. W obszarze Klucze i zarządzanie skopiuj punkt końcowy.

  3. Na tej samej stronie skopiuj klucz lub sprawdź kontrolę dostępu, aby przypisać członków roli do tożsamości usługi wyszukiwania.

  4. W obszarze Wdrożenia modelu wybierz pozycję Zarządzaj wdrożeniami , aby otworzyć program Azure AI Studio. Skopiuj nazwę wdrożenia elementu text-embedding-ada-002.

Uruchamianie kreatora

Aby rozpocząć, przejdź do usługa wyszukiwania usługi Azure AI w witrynie Azure Portal i otwórz kreatora Importowanie i wektoryzowanie danych.

  1. Zaloguj się do witryny Azure Portal przy użyciu konta platformy Azure i przejdź do usługa wyszukiwania usługi Azure AI.

  2. Na stronie Przegląd wybierz pozycję Importuj i wektoryzuj dane.

    Zrzut ekranu przedstawiający polecenie kreatora.

Nawiązywanie połączenia z danymi

Następnym krokiem jest nawiązanie połączenia ze źródłem danych w celu użycia indeksu wyszukiwania.

  1. W kreatorze Importowanie i wektoryzowanie danych na karcie Połączenie do danych rozwiń listę rozwijaną Źródło danych i wybierz pozycję Azure Blob Storage.

  2. Określ subskrypcję platformy Azure, konto magazynu i kontener, który dostarcza dane.

  3. W przypadku połączenia podaj pełny parametry połączenia dostępu, który zawiera klucz, lub określ tożsamość zarządzaną, która ma uprawnienia Czytelnik danych obiektu blob usługi Storage w kontenerze.

  4. Określ, czy chcesz wykryć usunięcie:

    Zrzut ekranu przedstawiający stronę źródła danych.

  5. Wybierz pozycję Dalej: Wektoryzuj i Wzbogacaj , aby kontynuować.

Wzbogacanie i wektoryzowanie danych

W tym kroku określ model osadzania używany do wektoryzacji danych fragmentowanych.

  1. Podaj subskrypcję, punkt końcowy, klucz interfejsu API i nazwę wdrożenia modelu.

  2. Opcjonalnie można złamać obrazy binarne (na przykład zeskanowane pliki dokumentów) i rozpoznawać tekst przy użyciu protokołu OCR .

  3. Opcjonalnie można dodać semantyczną klasyfikację , aby ponownie korektować wyniki na końcu wykonywania zapytania, promując najbardziej semantycznie istotne dopasowania do góry.

  4. Określ harmonogram czasu wykonywania dla indeksatora.

    Zrzut ekranu przedstawiający stronę wzbogacania.

  5. Wybierz pozycję Dalej: Utwórz i przejrzyj , aby kontynuować.

Uruchamianie kreatora

Ten krok tworzy następujące obiekty:

  • Połączenie ze źródłem danych z kontenerem obiektów blob.

  • Indeksowanie z polami wektorowymi, wektoryzatorami, profilami wektorów, algorytmami wektorów. Podczas przepływu pracy kreatora nie jest wyświetlany monit o zaprojektowanie ani zmodyfikowanie indeksu domyślnego. Indeksy są zgodne z wersją 2023-10-01-Preview.

  • Zestaw umiejętności z umiejętnościami dzielenia tekstu na potrzeby fragmentowania i modelu AzureOpenAIEmbeddingModel na potrzeby wektoryzacji.

  • Indeksator z mapowaniami pól i mapowaniami pól wyjściowych (jeśli ma zastosowanie).

Jeśli wystąpią błędy, najpierw przejrzyj uprawnienia. Potrzebujesz użytkownika openAI usług Cognitive Services w usłudze Azure OpenAI i czytniku danych obiektów blob usługi Storage w usłudze Azure Storage. Obiekty blob muszą być nieustrukturyzowane (fragmentowane dane są pobierane z właściwości "content" obiektu blob).

Sprawdzanie wyników

Eksplorator wyszukiwania akceptuje ciągi tekstowe jako dane wejściowe, a następnie wektoryzuje tekst na potrzeby wykonywania zapytania wektorowego.

  1. Wybierz indeks.

  2. Opcjonalnie wybierz pozycję Opcje zapytania i ukryj wartości wektorów w wynikach wyszukiwania. Ten krok ułatwia odczytywanie wyników wyszukiwania.

    Zrzut ekranu przedstawiający przycisk opcji zapytania.

  3. Wybierz widok JSON, aby można było wprowadzić tekst zapytania wektorowego w parametrze zapytania wektora tekstu .

    Zrzut ekranu przedstawiający selektor JSON.

    Ten kreator oferuje domyślne zapytanie, które wystawia zapytanie wektorowe w polu "vector", zwracając 5 najbliższych sąsiadów. Jeśli zdecydujesz się ukryć wartości wektorów, zapytanie domyślne zawiera instrukcję "select", która wyklucza pole wektora z wyników wyszukiwania.

    {
       "select": "chunk_id,parent_id,chunk,title",
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
  4. Zastąp tekst "*" pytaniem związanym z planami zdrowotnymi, takimi jak "który plan ma najniższy odliczenie".

  5. Wybierz pozycję Wyszukaj , aby uruchomić zapytanie.

    Zrzut ekranu przedstawiający wyniki wyszukiwania.

    Powinien zostać wyświetlonych 5 dopasowań, gdzie każdy dokument jest fragmentem oryginalnego pliku PDF. Pole tytułu pokazuje, z którego pliku PDF pochodzi fragment.

  6. Aby wyświetlić wszystkie fragmenty z określonego dokumentu, dodaj filtr dla pola tytułu dla określonego pliku PDF:

    {
       "select": "chunk_id,parent_id,chunk,title",
       "filter": "title eq 'Benefit_Options.pdf'",
       "count": true,
       "vectorQueries": [
           {
              "kind": "text",
              "text": "*",
              "k": 5,
              "fields": "vector"
           }
        ]
    }
    
    

Czyszczenie

Usługa Azure AI Search to zasób rozliczany. Jeśli nie jest już potrzebna, usuń ją z subskrypcji, aby uniknąć naliczania opłat.

Następne kroki

W tym przewodniku Szybki start przedstawiono kreatora importowania i wektoryzacji danych , który tworzy wszystkie obiekty niezbędne do zintegrowanej wektoryzacji. Jeśli chcesz szczegółowo zapoznać się z poszczególnymi krokami, wypróbuj przykład zintegrowanej wektoryzacji.