Alokacja ukrytej zmiennej Dirichleta

Artykuł
05/06/2019

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Zobacz informacje na temat przenoszenia projektów uczenia maszynowego z programu ML Studio (wersja klasyczna) do Azure Machine Learning.
Dowiedz się więcej o Azure Machine Learning.

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Używanie biblioteki Vowpal Wabbit do wykonywania VW LDA

Kategoria: analiza tekstu

Uwaga

Dotyczy: tylko Machine Learning Studio (klasyczne)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Omówienie modułu

W tym artykule opisano sposób użycia modułu alokacji Latent Dirichlet w programie Machine Learning Studio (wersja klasyczna) do grupowania tekstu niesklasyfikowanego w inny sposób w wielu kategoriach. Latent Dirichlet Allocation (LDA) jest często używany w przetwarzaniu języka naturalnego (NLP) do znalezienia podobnych tekstów. Innym powszechnym terminem jest modelowanie tematu.

Ten moduł przyjmuje kolumnę tekstu i generuje następujące dane wyjściowe:

Tekst źródłowy wraz z wynikiem dla każdej kategorii
Macierz cech zawierająca wyodrębnione terminy i współczynniki dla każdej kategorii
Przekształcenie, które można zapisać i ponownie stosować do nowego tekstu używanego jako dane wejściowe

Ponieważ ten moduł używa biblioteki Vowpal Wabbit, jest bardzo szybki. Aby uzyskać więcej informacji na temat usługi Vowpal Wabbit, zobacz repozytorium GitHub, które zawiera samouczki i wyjaśnienie algorytmu.

Więcej informacji na temat alokacji Ukrytego Dirichleta (LDA)

Ogólnie rzecz biorąc, LDA nie jest metodą klasyfikacji per se, ale używa metody generowania. Oznacza to, że nie trzeba dostarczać znanych etykiet klas, a następnie wywnioskować wzorców. Zamiast tego algorytm generuje model probabilistyczny, który jest używany do identyfikowania grup tematów. Model probabilistyczny umożliwia klasyfikowanie istniejących przypadków szkoleniowych lub nowych przypadków, które są wprowadzane do modelu jako dane wejściowe.

Model generujący może być preferowany, ponieważ pozwala uniknąć jakichkolwiek silnych założeń dotyczących relacji między tekstem i kategoriami oraz używa tylko rozkładu wyrazów do matematycznie modelowych tematów.

Teoria jest omówiona w tym dokumencie, dostępnym do pobrania w formacie PDF: Latent Dirichlet Allocation: Spasi, Ng i Format
Implementacja w tym module jest oparta na bibliotece Vowpal Wabbit (wersja 8) dla LDA.

Aby uzyskać więcej informacji, zobacz sekcję Uwagi techniczne.

Jak skonfigurować alokację Ukrytego Dirichleta

Ten moduł wymaga zestawu danych, który zawiera kolumnę tekstu nieprzetworzonego lub wstępnie przetworzonego.

Dodaj moduł Alokacja Ukrytego Dirichleta do eksperymentu.
Jako dane wejściowe modułu podaj zestaw danych zawierający co najmniej jedną kolumnę tekstową.
W polu Kolumny docelowe wybierz co najmniej jedną kolumnę zawierającą tekst do przeanalizowania.

Możesz wybrać wiele kolumn, ale muszą one mieć typ danych ciągów.

Ogólnie rzecz biorąc, ponieważ LDA tworzy dużą macierz funkcji z tekstu, zwykle analizuje się pojedynczą kolumnę tekstową.
W polu Liczba tematów do modelowania wpisz liczbę całkowitą z zakresów od 1 do 1000, która wskazuje, ile kategorii lub tematów ma pochodzić od tekstu wejściowego.

Domyślnie jest tworzona 5 tematów.
W przypadku N-gramy określ maksymalną długość N-gramy wygenerowaną podczas wyznaczania wartości skrótu.

Wartość domyślna to 2, co oznacza, że generowane są zarówno bigramy, jak i unigramy.
Wybierz opcję Normalize ( Normalizacja), aby przekonwertować wartości wyjściowe na prawdopodobieństwa. Dlatego zamiast reprezentować przekształcone wartości jako liczby całkowite, wartości w zestawie danych wyjściowych i zestawie danych funkcji zostaną przekształcone w następujący sposób:
- Wartości w zestawie danych będą reprezentowane jako prawdopodobieństwo, gdzie P(topic|document).
- Wartości w macierzy tematu funkcji będą reprezentowane jako prawdopodobieństwo, gdzie P(word|topic).
Wybierz opcję Pokaż wszystkie opcje, a następnie ustaw ją na wartość TRUE, jeśli chcesz wyświetlić, a następnie ustaw dodatkowe zaawansowane parametry.

Te parametry są specyficzne dla implementacji Vowpal Wabbit LDA. Istnieje kilka dobrych samouczków dotyczących LDA w Vowpal Wabbit online, a także oficjalne Vowpal Wabbit Wiki.

Zobacz ten przykład, aby uzyskać przykłady w wersji 8 i użycie programu VW w usłudze Azure ML.
- Parametr Bezbłędny. Podaj prawdopodobieństwo wstępne rozrzednia rozkładów tematu. Odpowiada parametrowi VW lda_rho . Wartości 1 należy użyć, jeśli spodziewasz się, że rozkład wyrazów jest płaska; tzn. zakłada się, że wszystkie wyrazy są ekwiwalne. Jeśli uważasz, że większość słów wydaje się niedrogo, możesz ustawić ją na znacznie niższą wartość.
- Parametr alfa. Określ prawdopodobieństwo wstępne dla rozrzedności wag tematu dla dokumentu. Odpowiada parametrowi VW lda_alpha .
- Szacowana liczba dokumentów. Wpisz liczbę, która reprezentuje najlepsze oszacowanie liczby dokumentów (wierszy), które zostaną przetworzone. Dzięki temu moduł może przydzielić tabelę skrótów o wystarczającym rozmiarze. Odpowiada parametrowi lda_D w Vowpal Wabbit.
- Rozmiar partii. Wpisz liczbę, która wskazuje, ile wierszy należy uwzględnić w każdej partii tekstu wysyłanej do usługi Vowpal Wabbit. Odpowiada parametrowi batch_sz w Vowpal Wabbit.
- Początkowa wartość iteracji używanej w harmonogramie aktualizacji uczenia. Określ wartość początkową kursu nauki. Odpowiada parametrowi initial_t w Vowpal Wabbit.
- Moc zastosowana do iteracji podczas aktualizacji. Wskazuje poziom zasilania zastosowany do liczby iteracji podczas aktualizacji online. Odpowiada parametrowi power_t w Vowpal Wabbit.
- Liczba przebiegów danych. Określ, ile razy algorytm będzie przetwarzać dane. Odpowiada parametrowi epoch_size w Vowpal Wabbit.
Wybierz opcję Build dictionary of ngrams (Utwórz słownik ngramów ) lub Build dictionary of ngrams prior to LDA (Utwórz słownik ngramów przed lda), jeśli chcesz utworzyć listę n-gramową w początkowym przebiegu przed klasyfikacją tekstu.

Jeśli wcześniej utworzysz słownik początkowy, możesz później użyć słownika podczas przeglądania modelu. Możliwość mapowania wyników na tekst, a nie indeksy liczbowe, jest zwykle łatwiejsza do interpretacji. Zapisywanie słownika będzie jednak trwać dłużej i będzie używać dodatkowego magazynu.
W przypadku słownika Maksymalny rozmiar ngramu wpisz łączną liczbę wierszy, które można utworzyć w słowniku n-gram.

Ta opcja jest przydatna do kontrolowania rozmiaru słownika. Jeśli jednak liczba ngramów w danych wejściowych przekroczy ten rozmiar, mogą wystąpić kolizje.
Uruchom eksperyment. Moduł LDA używa teorii Bayesa, aby określić, które tematy mogą być skojarzone z poszczególnymi wyrazami. Wyrazy nie są skojarzone wyłącznie z żadnymi tematami lub grupami; Zamiast tego każdy n-gram ma wyuczony prawdopodobieństwo, że będzie skojarzony z dowolną odnalezioną klasą.

Wyniki

Moduł ma dwa dane wyjściowe:

Przekształcony zestaw danych: zawiera tekst wejściowy i określoną liczbę odnalezionych kategorii wraz z wynikami dla każdego przykładu tekstu dla każdej kategorii.
Macierz tematu funkcji: kolumna po lewej stronie zawiera funkcję wyodrębnianego tekstu i istnieje kolumna dla każdej kategorii zawierająca wynik dla tej funkcji w tej kategorii.

Aby uzyskać szczegółowe informacje, zobacz Przykład wyników LDA.

Przekształcanie LDA

Ten moduł zawiera również dane wyjściowe przekształcenia, które stosuje LDA do zestawu danych, jako interfejs ITransform.

Możesz zapisać to przekształcenie i ponownie użyć go dla innych zestawów danych. Może to być przydatne, jeśli wytrenowaliśmy się na dużych corpus i chcesz ponownie użyć współczynników lub kategorii.

Uściślanie modelu LDA lub wyników

Zazwyczaj nie można utworzyć pojedynczego modelu LDA spełniającego wszystkie potrzeby, a nawet model zaprojektowany dla jednego zadania może wymagać wielu iteracji w celu zwiększenia dokładności. Zalecamy wypróbowanie wszystkich tych metod w celu ulepszenia modelu:

Zmienianie parametrów modelu
Używanie wizualizacji do zrozumienia wyników
Uzyskiwanie opinii ekspertów w różnych tematach w celu upewnienia się, czy wygenerowane tematy są przydatne.

Miary jakościowe mogą być również przydatne do oceny wyników. Aby ocenić wyniki modelowania tematu, rozważ:

Dokładność — czy podobne elementy są bardzo podobne?
Różnorodność — czy model może rozróżniać podobne elementy, gdy jest to wymagane w przypadku problemu biznesowego?
Skalowalność — czy działa w wielu kategoriach tekstowych, czy tylko w wąskiej domenie docelowej?

Dokładność modeli opartych na technologii LDA można często poprawić, używając przetwarzania języka naturalnego do czyszczenia, podsumowywanego i upraszczania lub kategoryzowania tekstu. Na przykład następujące techniki, wszystkie obsługiwane w Machine Learning, mogą zwiększyć dokładność klasyfikacji:

Zatrzymywanie usuwania wyrazów
Normalizacja przypadku
Lematyzacja lub analiza sybingowa
Rozpoznawanie jednostek nazwanych

Aby uzyskać więcej informacji, zobacz Wstępne przetwarzanie tekstu i rozpoznawanie jednostek nazwanych.

W programie Studio (klasycznym) można również używać bibliotek języka R lub Python do przetwarzania tekstu: Wykonywanie skryptu języka R, Wykonywanie skryptu języka Python

Przykłady

Przykłady analizy tekstu można znaleźć w tych eksperymentach w Azure AI Gallery:

Wykonywanie skryptu języka Python: używa przetwarzania języka naturalnego w języku Python do czyszczenia i przekształcania tekstu.

Aby uzyskać szczegółowe informacje i przykład na podstawie tekstu recenzji klienta, zobacz Understanding LDA Results (Opis wyników LDA).

Przykładowe wyniki LDA

Aby zilustrować sposób działania modułu alokacji Latent Dirichlet, poniższy przykład stosuje LDA z ustawieniami domyślnymi do zestawu danych przeglądu książki dostępnego w programie Machine Learning Studio (wersja klasyczna).

Zestaw danych źródłowych

Zestaw danych zawiera kolumnę klasyfikacji oraz pełny tekst komentarza dostarczony przez użytkowników.

W tej tabeli przedstawiono tylko kilka reprezentatywnych przykładów.

tekst
Ta książka ma swoje dobre punkty. Jeśli coś, pomaga w dorzucie wyrazów, których potrzebujesz od przełożonego....
Przyznaję, że ta książka nie została zakończona. Znajomy polecił mi ją, ponieważ mam problemy z braku usypianiem...
Źle napisanych próbowano przeczytać tę książkę, ale znalazłem ją tak zakrzywieloną i źle napisaną, że nie mam frustracji. ...
Od czasu zapożyczania od znajomych kopii o słuchu psów, którzy kilka lat temu ją przekazywania, nie udało mi się uzyskać praktycznej pracy nad tą książką, która stała się ulubionym miejscem o krótkim czasie życia
Wykres tej książki był interesujący i mógł być dobrą książką. Niestety tak nie było. Głównym problemem dla mnie było to, że ...

Podczas przetwarzania moduł alokacji Latent Dirichlet czyści i analizuje tekst na podstawie parametrów, które określisz. Na przykład może automatycznie tokenizować tekst i usuwać znaki interpunktowe, a jednocześnie znaleźć funkcje tekstowe dla każdego tematu.

Przekształcony zestaw danych LDA

W poniższej tabeli przedstawiono przekształcony zestaw danych oparty na przykładzie recenzji książki. Dane wyjściowe zawierają tekst wejściowy i określoną liczbę odnalezionych kategorii wraz z wynikami dla każdej kategorii.

Nazwa filmu	Temat 1	Temat 2	Temat 3	Temat 4	Temat 5
Ta książka ma swoje dobre punkty	0.001652892	0.001652892	0.001652892	0.001652892	0.9933884
znajomy polecił mi to	0.00198019	0.001980198	0.9920791	0.001980198	0.001980198
wypróbowano przeczytanie tej książki	0.002469135	0.002469135	0.9901233	0.002469135	0.002469135
zapożycz go od znajomego	0.9901232	0.002469135	0.002469135	0.002469135	0.002469135
wykres tej książki był interesujący	0.001652892	0.001652892	0.9933884	0.001652892	0.001652892

W tym przykładzie umyliśmy wartość domyślną 5 dla ustawienia Liczba tematów do modelowania. W związku z tym moduł LDA tworzy pięć kategorii, które można założyć, że będą odpowiadać mniej więcej pierwotnemu systemowi klasyfikacji o pięciu skalach.

Moduł przypisuje również ocenę do każdej pozycji dla każdej z pięciu kategorii reprezentujących tematy. Wynik wskazuje prawdopodobieństwo przypisania wiersza do określonej kategorii.

Macierz tematu funkcji

Drugim wyjściem modułu jest macierz tematu funkcji. Jest to tabelarowy zestaw danych, który zawiera tekst cechowany w kolumnieFeature wraz z wynikiem dla każdej z kategorii w pozostałych kolumnach: Temat 1, Temat 2, ... Temat N. Wynik reprezentuje współczynnik.

Cecha	Temat 1	Temat 2	Temat 3	Temat 4	Temat 5
Ciekawe	0.0240282071983144	0.0354678954779375	0.363051866576914	0.0276637824315893	0.660663576149515
Został	0.0171478729532397	0.0823969031108669	0.00452966877950789	0.0408714510319233	0.025077322689733
z	0.0148224220349217	0.0505086981492109	0.00434423322461094	0.0273389126293824	0.0171484355106826
Działka	0.0227415889348212	0.0408709456489325	0.182791041345191	0.086937090812819	1 0.0169680136708971
czytanie	0.0227415889348212	0.0408709456489325	0.182791041345191	0.0869370908128191	0.0169680136708971
Próbował	0.0269724979147211	0.039026263551767	0.00443749106785087	0.0628829816088284	0.0235340728818033
Me	0.0262656945140134	0.0366941302751921	0.00656837975179138	0.0329214576160066	0.0214121851106808
na wartość	0.0141026103224462	0.043359976919215	0.00388640531859447	0.0305925953440055	0.0228993750526364
it	0.0264490547105951	0.0356674440311847	0.00541759897864314	0.0314539386250293	0.0140606468587681
friend	0.0135971322960941	0.0346118171467234	0.00434999437350706	0.0666507321888536	0.018156863779311
points	0.0227415889348212	0.0396233855719081	0.00404663601474112	0.0381156510019025	0.0337788009496797
Dobry	0.651813073836783	0.0598646397444108	0.00446809691985617	0.0358975694646062	0.0138989124411206
Jego	0.0185385588647078	0.144253986783184	0.00408876416453866	0.0583049240441475	0.015442805566858
z	0.0171416780245647	0.0559361180418586	0.0100633904544953	0.087093930106723	0.0182573833869842
Pożyczonych	0.0171416780245647	0.0559361180418586	0.0100633904544953	0.087093930106723	0.0182573833869842
Hsa	0.0171416780245647	0.0559361180418586	0.0100633904544953	0.087093930106723	0.0182573833869842
książka	0.0143157047920681	0.069145948535052	0.184036340170983	0.0548757337823903	0.0156837976985903
zalecane	0.0161486848419689	0.0399143326399534	0.00550113530229642	0.028637149142764	0.0147675139039372
this	0.0161486848419689	0.0399143326399534	0.00550113530229642	0.028637149142764	0.0147675139039372

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Szczegóły implementacji

Domyślnie rozkłady danych wyjściowych dla przekształconego zestawu danych i macierzy tematu funkcji są normalizowane jako prawdopodobieństwa.

Przekształcony zestaw danych jest normalizowany jako warunkowe prawdopodobieństwo tematów w danym dokumencie. W tym przypadku suma każdego wiersza jest równa 1.
Macierz tematu funkcji jest normalizowana jako warunkowe prawdopodobieństwo wyrazów podanych w temacie. W tym przypadku suma każdej kolumny jest równa 1.

Porada

Czasami moduł może zwrócić pusty temat, który jest najczęściej spowodowany pseudolosowym inicjowaniem algorytmu. W takim przypadku możesz spróbować zmienić powiązane parametry, takie jak maksymalny rozmiar słownika N-grama lub liczba bitów do użycia na użytek funkcji wyznaczania wartości skrótu.

Modelowanie LDA i tematu

Latent Dirichlet Allocation (LDA) jest często używany do modelowania tematów opartych na zawartości, co zasadniczo oznacza uczenie kategorii z niesklasyfikowanego tekstu. W modelowaniu tematu opartego na zawartości temat jest dystrybucją słów.

Załóżmy na przykład, że podano zestaw recenzji klientów, który zawiera wiele, wiele produktów. Tekst recenzji, które były przesyłane przez wielu klientów w czasie, zawierałby wiele terminów, z których niektóre są używane w wielu tematach.

Temat , który jest identyfikowany przez proces LDA, może reprezentować przeglądy dla pojedynczego produktu A lub może reprezentować grupę przeglądów produktów. Dla LDA sam temat jest po prostu rozkładem prawdopodobieństwa w czasie dla zestawu wyrazów.

Terminy rzadko wykluczają się do żadnego produktu, ale mogą odnosić się do innych produktów lub mogą być ogólnymi terminami, które mają zastosowanie do wszystkiego ("świetnie", "awful"). Inne terminy mogą być wyrazami szumu. Jednak ważne jest, aby zrozumieć, że metoda LDA nie ma na celu przechwycenia wszystkich wyrazów we wszechświecie ani zrozumienia, jak słowa są powiązane, oprócz prawdopodobieństwa wystąpienia współwydarzeń. Może ona grupowania tylko wyrazów, które zostały użyte w domenie docelowej.

Po obliczeniu terminu indeksy poszczególne wiersze tekstu są porównywane przy użyciu miary podobieństwa na podstawie odległości, aby określić, czy dwa fragmenty tekstu są podobne do siebie. Na przykład może się okazać, że produkt ma wiele nazw, które są silnie skorelowane. Może się też okazać, że silnie negatywne terminy są zwykle skojarzone z konkretnym produktem. Miary podobieństwa można użyć zarówno do identyfikowania powiązanych terminów, jak i do tworzenia rekomendacji.

Oczekiwane dane wejściowe

Nazwa	Typ	Opis
Zestaw danych	Tabela danych	Wejściowy zestaw danych

Parametry modułu

Nazwa	Typ	Zakres	Opcjonalne	Domyślny	Opis
Liczba bitów skrótu	Liczba całkowita	[1;31]	Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje nie jest zaznaczone	12	Liczba bitów do użycia na użytek funkcji wyznaczania wartości skrótu
Kolumny docelowe	Wybór kolumny		Wymagane	StringFeature	Nazwa lub indeks kolumny docelowej
Liczba tematów do modelowania	Liczba całkowita	[1;1000]	Wymagane	5	Modelowanie dystrybucji dokumentów na N tematach
N-gramy	Liczba całkowita	[1;10]	Wymagane	2	Kolejność N-generowana podczas wyznaczania wartości skrótu
Normalizacji	Wartość logiczna		Wymagane	true	Normalizowanie danych wyjściowych do prawdopodobieństw. Przekształcony zestaw danych to P(topic\|document), a macierz tematu funkcji to P(słowo\|topowe).
Pokaż wszystkie opcje	Wartość logiczna	Prawda czy fałsz	Wymagane	Fałsz	Przedstawia dodatkowe parametry specyficzne dla Vowpal Wabbit online LDA
Parametr Bezbłędny	Float	[0.00001;1.0]	Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone	0,01	Parametr Bezbłędny
Parametr alfa	Float	[0.00001;1.0]	Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone	0,01	Parametr alfa
Szacowana liczba dokumentów	Liczba całkowita	[1; int. MaxValue]	Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone	1000	Szacowana liczba dokumentów (odpowiada lda_D parametru)
Rozmiar partii	Liczba całkowita	[1;1024]	Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone	32	Rozmiar partii
Początkowa wartość iteracji używanej w harmonogramie aktualizacji szybkości uczenia	Liczba całkowita	[0; int. MaxValue]	Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone	0	Początkowa wartość liczby iteracji używanej w harmonogramie aktualizacji szybkości uczenia (odpowiada parametrowi initial_t)
Moc zastosowana do iteracji podczas aktualizacji	Float	[0.0;1.0]	Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone	0,5	Moc zastosowana do liczby iteracji podczas aktualizacji online (odpowiada parametrowi power_t)
Liczba iteracji trenowania	Liczba całkowita	[1;1024]	Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone	25	Liczba iteracji trenowania
Słownik kompilacji ngramów	Wartość logiczna	Prawda czy fałsz	Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje nie jest zaznaczone	Prawda	Tworzy słownik ngramów przed rozpoczęciem przetwarzania LDA. Przydatne do inspekcji i interpretacji modelu
Liczba bitów do użycia na użytek funkcji wyznaczania wartości skrótu	Liczba całkowita	[1;31]	Ma zastosowanie, gdy opcja Build dictionary of ngrams (Słownik kompilacji ngramów) ma wartość False	12	Liczba bitów do użycia podczas wyznaczania wartości skrótu funkcji
Maksymalny rozmiar słownika ngramu	Liczba całkowita	[1; int. MaxValue]	Ma zastosowanie, gdy opcja Build dictionary of ngrams (Słownik kompilacji ngramów) ma wartość True	20000	Maksymalny rozmiar słownika ngrams. Jeśli liczba tokenów w danych wejściowych przekroczy ten rozmiar, mogą wystąpić kolizje
Tworzenie słownika ngramów przed LDA	Wartość logiczna	Prawda czy fałsz	Ma zastosowanie, gdy pole wyboru Pokaż wszystkie opcje jest zaznaczone	Prawda	Tworzy słownik ngramów przed LDA. Przydatne do inspekcji i interpretacji modelu
Maksymalna liczba ngramów w słowniku	Liczba całkowita	[1; int. MaxValue]	Ma zastosowanie, gdy opcja Skompilowanie słownika ngramów ma wartość True i zaznaczono pole wyboru Pokaż wszystkie opcje	20000	Maksymalny rozmiar słownika. Jeśli liczba tokenów w danych wejściowych przekroczy ten rozmiar, mogą wystąpić kolizje

Dane wyjściowe

Nazwa	Typ	Opis
Przekształcony zestaw danych	Tabela danych	Wyjściowy zestaw danych
Macierz tematu funkcji	Tabela danych	Macierz tematu funkcji lda
Przekształcanie LDA	ITransform, interfejs	Przekształcanie, które stosuje LDA do zestawu danych

Wyjątki

Wyjątek	Opis
Błąd 0002	Wyjątek występuje, jeśli nie można odnaleźć co najmniej jednej określonej kolumny zestawu danych.
Błąd 0003	Wyjątek występuje, jeśli co najmniej jeden z danych wejściowych ma wartość null lub jest pusty.
Błąd 0004	Wyjątek występuje, jeśli parametr jest mniejszy lub równy określonej wartości.
Błąd 0017	Wyjątek występuje, jeśli co najmniej jedna określona kolumna ma typ nieobsługiwany przez bieżący moduł.

Aby uzyskać listę błędów specyficznych dla modułów programu Studio (wersja klasyczna), zobacz Machine Learning Kody błędów.

Aby uzyskać listę wyjątków interfejsu API, zobacz Machine Learning API REST Error Codes (Kody błędów interfejsu API REST).

Zobacz też

Analiza tekstu
Tworzenie skrótów funkcji
Rozpoznawanie jednostek nazwanych
Ocena modelu Vowpal Wabbit 7-4
Trenowanie modelu Vowpal Wabbit 7-4
Trenowanie modelu Vowpal Wabbit 8

Share via