Magazyn wiedzy w usłudze Azure AI Search

Magazyn wiedzy to pomocniczy magazyn zawartości wzbogaconej przez sztuczną inteligencję utworzony przez zestaw umiejętności w usłudze Azure AI Search. W usłudze Azure AI Search zadanie indeksowania zawsze wysyła dane wyjściowe do indeksu wyszukiwania, ale jeśli dołączysz zestaw umiejętności do indeksatora, opcjonalnie możesz również wysłać dane wyjściowe wzbogacone przez sztuczną inteligencję do kontenera lub tabeli w usłudze Azure Storage. Magazyn wiedzy może służyć do niezależnej analizy lub przetwarzania podrzędnego w scenariuszach bez wyszukiwania, takich jak wyszukiwanie wiedzy.

Dwa dane wyjściowe indeksowania, indeks wyszukiwania i magazyn wiedzy, są wzajemnie wykluczające się produkty tego samego potoku. Pochodzą one z tych samych danych wejściowych i zawierają te same dane, ale ich zawartość jest ustrukturyzowana, przechowywana i używana w różnych aplikacjach.

Pipeline with skillset

Fizycznie magazynem wiedzy jest usługa Azure Storage, Azure Table Storage, Azure Blob Storage lub obie te elementy. Każde narzędzie lub proces, który może połączyć się z usługą Azure Storage, może korzystać z zawartości magazynu wiedzy. W usłudze Azure AI Search nie ma obsługi zapytań w celu pobierania zawartości z magazynu wiedzy.

W przypadku wyświetlania za pośrednictwem witryny Azure Portal magazyn wiedzy wygląda jak każda inna kolekcja tabel, obiektów lub plików. Poniższy zrzut ekranu przedstawia magazyn wiedzy składający się z trzech tabel. Możesz przyjąć konwencję nazewnictwa, taką jak kstore prefiks, aby zachować zawartość razem.

Skills read and write from enrichment tree

Zalety magazynu wiedzy

Główne zalety magazynu wiedzy to dwa razy: elastyczny dostęp do zawartości i możliwość kształtowania danych.

W przeciwieństwie do indeksu wyszukiwania, do którego można uzyskać dostęp tylko za pośrednictwem zapytań w usłudze Azure AI Search, magazyn wiedzy jest dostępny dla dowolnego narzędzia, aplikacji lub procesu obsługującego połączenia z usługą Azure Storage. Ta elastyczność otwiera nowe scenariusze korzystania z analizowanej i wzbogaconej zawartości utworzonej przez potok wzbogacania.

Ten sam zestaw umiejętności, który wzbogaca dane, może również służyć do kształtowania danych. Niektóre narzędzia, takie jak usługa Power BI, działają lepiej z tabelami, natomiast obciążenie nauki o danych może wymagać złożonej struktury danych w formacie obiektu blob. Dodanie umiejętności kształtowania do zestawu umiejętności zapewnia kontrolę nad kształtem danych. Następnie można przekazać te kształty do projekcji, tabel lub obiektów blob, aby utworzyć fizyczne struktury danych, które są zgodne z zamierzonym użyciem danych.

W poniższym filmie wideo wyjaśniono obie te korzyści i nie tylko.

Definicja magazynu wiedzy

Magazyn wiedzy jest definiowany wewnątrz definicji zestawu umiejętności i ma dwa składniki:

  • Parametry połączenia do usługi Azure Storage

  • Projekcje określające, czy magazyn wiedzy składa się z tabel, obiektów lub plików. Element projekcji jest tablicą. W jednym magazynie wiedzy można utworzyć wiele zestawów kombinacji tabeli-object-file.

    "knowledgeStore": {
        "storageConnectionString":"<YOUR-AZURE-STORAGE-ACCOUNT-CONNECTION-STRING>",
        "projections":[
           {
              "tables":[ ],
              "objects":[ ],
              "files":[ ]
           }
        ]
    }
    

Typ projekcji określony w tej strukturze określa typ magazynu używanego przez magazyn wiedzy, ale nie jego strukturę. Pola w tabelach, obiektach i plikach są określane przez dane wyjściowe umiejętności kształtowania, jeśli tworzysz magazyn wiedzy programowo lub przez Kreatora importu danych, jeśli używasz portalu.

  • tables projektu wzbogacona zawartość w usłudze Table Storage. Zdefiniuj projekcję tabeli, gdy potrzebujesz struktur raportowania tabelarycznego dla danych wejściowych do narzędzi analitycznych lub eksportuj je jako ramki danych do innych magazynów danych. Można określić wiele tables w tej samej grupie projekcji, aby uzyskać podzestaw lub sekcję krzyżową wzbogaconych dokumentów. W tej samej grupie projekcji relacje tabeli są zachowywane, aby umożliwić pracę ze wszystkimi nimi.

    Przewidywana zawartość nie jest agregowana ani znormalizowana. Poniższy zrzut ekranu przedstawia tabelę posortowaną według frazy kluczowej z dokumentem nadrzędnym wskazanym w sąsiedniej kolumnie. W przeciwieństwie do pozyskiwania danych podczas indeksowania nie ma analizy językowej ani agregacji zawartości. Formy mnogie i różnice w wielkości liter są uznawane za unikatowe wystąpienia.

    Screenshot of key phrases and documents in a table

  • objects dokument JSON projektu w usłudze Blob Storage. Fizyczna reprezentacja elementu object to hierarchiczna struktura JSON, która reprezentuje wzbogacony dokument.

  • files pliki obrazów projektu w usłudze Blob Storage. Obiekt file to obraz wyodrębniony z dokumentu, przeniesiony bez zmian do usługi Blob Storage. Chociaż ma ona nazwę "files", jest wyświetlana w usłudze Blob Storage, a nie w magazynie plików.

Tworzenie magazynu wiedzy

Aby utworzyć magazyn wiedzy, użyj portalu lub interfejsu API.

Będziesz potrzebować usługi Azure Storage, zestawu umiejętności i indeksatora. Ponieważ indeksatory wymagają indeksu wyszukiwania, musisz również podać definicję indeksu.

Przejdź z podejściem portalu, aby uzyskać najszybszą trasę do gotowego magazynu wiedzy. Możesz też wybrać interfejs API REST, aby lepiej zrozumieć, jak obiekty są zdefiniowane i powiązane.

Utwórz swój pierwszy magazyn wiedzy w czterech krokach przy użyciu Kreatora importu danych .

  1. Zdefiniuj źródło danych zawierające dane, które chcesz wzbogacić.

  2. Zdefiniuj zestaw umiejętności. Zestaw umiejętności określa kroki wzbogacania i magazyn wiedzy.

  3. Zdefiniuj schemat indeksu. Być może nie jest potrzebny, ale indeksatory tego wymagają. Kreator może wywnioskować indeks.

  4. Wykonaj kroki kreatora. Wyodrębnianie, wzbogacanie i tworzenie magazynu wiedzy odbywa się w tym ostatnim kroku.

Kreator automatyzuje kilka zadań. W szczególności tworzone są zarówno kształtowanie, jak i projekcje (definicje fizycznych struktur danych w usłudze Azure Storage).

Połączenie z aplikacjami

Gdy zawartość wzbogacona istnieje w magazynie, każde narzędzie lub technologia łącząca się z usługą Azure Storage może służyć do eksplorowania, analizowania lub korzystania z zawartości. Poniższa lista to początek:

  • Eksplorator usługi Storage lub przeglądarki usługi Storage (wersja zapoznawcza) w witrynie Azure Portal, aby wyświetlić wzbogaconą strukturę i zawartość dokumentu. Rozważ to jako narzędzie odniesienia do wyświetlania zawartości magazynu wiedzy.

  • Usługa Power BI do raportowania i analizy.

  • Usługa Azure Data Factory do dalszej manipulacji.

Cykl życia zawartości

Za każdym razem, gdy uruchamiasz indeksator i zestaw umiejętności, magazyn wiedzy jest aktualizowany, jeśli zestaw umiejętności lub bazowe dane źródłowe uległy zmianie. Wszelkie zmiany pobierane przez indeksator są propagowane przez proces wzbogacania do projekcji w magazynie wiedzy, zapewniając, że przewidywane dane są bieżącą reprezentacją zawartości w źródle danych źródłowych.

Uwaga

Podczas edytowania danych w projekcjach wszelkie zmiany zostaną zastąpione przy następnym wywołaniu potoku, przy założeniu, że dokument w danych źródłowych zostanie zaktualizowany.

Zmiany w danych źródłowych

W przypadku źródeł danych, które obsługują śledzenie zmian, indeksator przetworzy nowe i zmienione dokumenty oraz ominie istniejące dokumenty, które zostały już przetworzone. Informacje sygnatury czasowej różnią się w zależności od źródła danych, ale w kontenerze obiektów blob indeksator analizuje lastmodified datę, aby określić, które obiekty blob muszą być pozyskiwane.

Zmiany w zestawie umiejętności

Jeśli wprowadzasz zmiany w zestawie umiejętności, należy włączyć buforowanie wzbogaconych dokumentów w celu ponownego użycia istniejących wzbogaceń tam, gdzie to możliwe.

Bez buforowania przyrostowego indeksator zawsze przetwarza dokumenty w kolejności od górnego znaku wodnego, bez przechodzenia do tyłu. W przypadku obiektów blob indeksator przetwarza obiekty blob sortowane według lastModified, niezależnie od zmian ustawień indeksatora lub zestawu umiejętności. Jeśli zmienisz zestaw umiejętności, wcześniej przetworzone dokumenty nie zostaną zaktualizowane w celu odzwierciedlenia nowego zestawu umiejętności. Dokumenty przetwarzane po zmianie zestawu umiejętności będą używać nowego zestawu umiejętności, co powoduje, że dokumenty indeksowania są mieszanką starych i nowych zestawów umiejętności.

Dzięki buforowaniu przyrostowe i po aktualizacji zestawu umiejętności indeksator ponownie użyje wszelkich wzbogacenia, które nie mają wpływu na zmianę zestawu umiejętności. Wzbogacenia nadrzędne są pobierane z pamięci podręcznej, podobnie jak wszelkie wzbogacania, które są niezależne i odizolowane od umiejętności, które zostały zmienione.

usunięcia

Mimo że indeksator tworzy i aktualizuje struktury i zawartość w usłudze Azure Storage, nie usuwa ich. Projekcje nadal istnieją nawet po usunięciu indeksatora lub zestawu umiejętności. Jako właściciel konta magazynu należy usunąć projekcję, jeśli nie jest już potrzebna.

Następne kroki

Magazyn wiedzy oferuje trwałość wzbogaconych dokumentów, przydatną podczas projektowania zestawu umiejętności lub tworzenie nowych struktur i zawartości do użycia przez wszystkie aplikacje klienckie, które mogą uzyskiwać dostęp do konta usługi Azure Storage.

Najprostszym podejściem do tworzenia wzbogaconych dokumentów jest użycie portalu, ale klient REST i interfejsy API REST mogą zapewnić lepszy wgląd w sposób tworzenia obiektów i przywoływanych programowo.