Latente Dirichlet-toewijzing

Artikel
05/06/2019

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
Meer informatie over Azure Machine Learning.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

De Vowpal Wabbit-bibliotheek gebruiken om VW LDA uit te voeren

Categorie: Text Analytics

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules met slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Latent Diraglet Allocation in Machine Learning Studio (klassiek) gebruikt om anders niet-geclassificeerde tekst te groepeert in een aantal categorieën. Latente diptlet-toewijzing (LDA) wordt vaak gebruikt in nlp (natuurlijke taalverwerking) om teksten te vinden die vergelijkbaar zijn. Een andere veelvoorkomende term is onderwerpmodelleren.

In deze module wordt een kolom met tekst gebruikt en worden deze uitvoer gegenereerd:

De brontekst, samen met een score voor elke categorie
Een functiematrix met geëxtraheerde termen en coëfficiënten voor elke categorie
Een transformatie, die u kunt opslaan en opnieuw kunt gebruiken voor nieuwe tekst die wordt gebruikt als invoer

Omdat deze module gebruikmaakt van de Vowpal Wabbit-bibliotheek, is deze zeer snel. Zie voor meer informatie over Vowpal Wabbit de GitHub opslagplaats met zelfstudies en een uitleg van het algoritme.

Meer informatie over latente dilet-toewijzing (LDA)

LDA is over het algemeen geen methode voor classificatie per se, maar maakt gebruik van een generatieve benadering. Dit betekent dat u geen bekende klasselabels hoeft op te geven en vervolgens de patronen hoeft af te lezen. In plaats daarvan genereert het algoritme een probabilistisch model dat wordt gebruikt om groepen onderwerpen te identificeren. U kunt het probabilistische model gebruiken om bestaande trainingsgevallen of nieuwe cases die u aan het model op te geven als invoer te classificeren.

Een genererend model kan de voorkeur hebben, omdat hiermee wordt voorkomen dat er sterke veronderstellingen over de relatie tussen de tekst en categorieën worden gemaakt en alleen de verdeling van woorden wordt gebruikt om wiskundige onderwerpen te modelleren.

De theorie wordt besproken in dit artikel, beschikbaar als PDF-download: Latente Dilet-toewijzing: Blei, Ng en Paper
De implementatie in deze module is gebaseerd op de Vowpal Wabbit-bibliotheek (versie 8) voor LDA.

Zie de sectie Technische notities voor meer informatie.

Latente dilatlet-toewijzing configureren

Voor deze module is een gegevensset vereist die een tekstkolom bevat, onbewerkt of voorverwerkt.

Voeg de module Latent Diraglet Allocation toe aan uw experiment.
Geef als invoer voor de module een gegevensset op die een of meer tekstkolommen bevat.
Kies voor Doelkolommen een of meer kolommen met tekst die u wilt analyseren.

U kunt meerdere kolommen kiezen, maar deze moeten van het gegevenstype tekenreeks zijn.

Over het algemeen analyseert u doorgaans één tekstkolom, omdat LDA een grote functiematrix maakt van de tekst.
Bij Aantal onderwerpen dat u wilt modelleren typt u een geheel getal tussen 1 en 1000 dat aangeeft hoeveel categorieën of onderwerpen u wilt afleiden uit de invoertekst.

Standaard worden er vijf onderwerpen gemaakt.
Voor N-grammen geeft u de maximale lengte op van N-grammen die tijdens het hashen worden gegenereerd.

De standaardwaarde is 2, wat betekent dat zowel bigrams als unigrammen worden gegenereerd.
Selecteer de optie Normaliseren om uitvoerwaarden te converteren naar waarschijnlijkheden. Daarom worden waarden in de uitvoer- en functieset als volgt getransformeerd in plaats van de getransformeerde waarden weer te geven als gehele getallen:
- Waarden in de gegevensset worden weergegeven als een waarschijnlijkheid waarbij P(topic|document).
- Waarden in de matrix van het functieonderwerp worden weergegeven als een waarschijnlijkheid waarbij P(word|topic).
Selecteer de optie Alle opties weergeven en stel deze in op TRUE als u aanvullende geavanceerde parameters wilt weergeven en instellen.

Deze parameters zijn specifiek voor de Vowpal Wabbit-implementatie van LDA. Er zijn enkele goede zelfstudies over LDA in Vowpal Wabbit online, evenals de officiële Vowpal Wabbit Wiki.

Zie dit voorbeeld voor voorbeelden in versie 8 en het gebruik van VW in Azure ML.
- Parameter Rho. Geef een eerdere waarschijnlijkheid op voor de sparsiteit van onderwerpdistributies. Komt overeen met de parameter van lda_rho VW. U gebruikt de waarde 1 als u verwacht dat de verdeling van woorden plat is; Dat wil zeggen dat van alle woorden wordt uitgegaan dat ze kunnen worden gemaakt. Als u denkt dat de meeste woorden sparse worden weergegeven, kunt u deze instellen op een veel lagere waarde.
- Alfaparameter. Geef een eerdere waarschijnlijkheid op voor de sparsiteit van gewichten per documentonderwerp. Komt overeen met de parameter van lda_alpha VW.
- Geschat aantal documenten. Typ een getal dat de beste schatting vertegenwoordigt van het aantal documenten (rijen) dat wordt verwerkt. Hiermee kan de module een hash-tabel van voldoende grootte toewijzen. Komt overeen met de lda_D parameter in Vowpal Wabbit.
- Grootte van de batch. Typ een getal dat aangeeft hoeveel rijen moeten worden gebruikt in elke batch tekst die naar Vowpal Wabbit wordt verzonden. Komt overeen met de batch_sz parameter in Vowpal Wabbit.
- Aanvankelijke waarde van iteratie die wordt gebruikt in het leerupdateschema. Geef de beginwaarde op voor de leersnelheid. Komt overeen met de initial_t parameter in Vowpal Wabbit.
- Energie die wordt toegepast op de iteratie tijdens updates. Geef het energieniveau aan dat wordt toegepast op het aantal iteraties tijdens online updates. Komt overeen met de power_t parameter in Vowpal Wabbit.
- Het aantal keer dat de gegevens worden door geven. Geef het aantal keren op dat het algoritme over de gegevens wordt gecyclusd. Komt overeen met de epoch_size parameter in Vowpal Wabbit.
Selecteer de optie Build dictionary of ngrams ofBuild dictionary of ngrams prior to LDA (Woordenlijst van ngrammen bouwen vóór LDA) als u de n-gram-lijst in een eerste keer wilt maken voordat u tekst classificeert.

Als u de eerste woordenlijst vooraf maakt, kunt u later de woordenlijst gebruiken bij het beoordelen van het model. Het is over het algemeen eenvoudiger om resultaten toe te wijsen aan tekst in plaats van numerieke indexen. Het opslaan van de woordenlijst duurt echter langer en maakt gebruik van extra opslag.
Bij Maximale grootte van ngram-woordenlijst typt u het totale aantal rijen dat kan worden gemaakt in de n-gram-woordenlijst.

Deze optie is handig voor het beheren van de grootte van de woordenlijst. Als het aantal ngrammen in de invoer echter groter is dan deze grootte, kunnen er sprake zijn van een aanrijding.
Voer het experiment uit. De LDA-module maakt gebruik van bayes-theorema om te bepalen welke onderwerpen aan afzonderlijke woorden kunnen worden gekoppeld. Woorden zijn niet uitsluitend gekoppeld aan onderwerpen of groepen; In plaats daarvan heeft elke n-gram een geleerde waarschijnlijkheid dat deze is gekoppeld aan een van de ontdekte klassen.

Resultaten

De module heeft twee uitvoer:

Getransformeerde gegevensset: bevat de invoertekst en een opgegeven aantal ontdekte categorieën, samen met de scores voor elk tekstvoorbeeld voor elke categorie.
Matrix met functieonderwerpen: De meest linkse kolom bevat de geëxtraheerde tekstfunctie en er is een kolom voor elke categorie met de score voor die functie in die categorie.

Zie voorbeeld van LDA-resultaten voor meer informatie.

LDA-transformatie

In deze module wordt ook de transformatie uitgevoerd waarmee LDA als een ITransform-interface wordt toegepast op de gegevensset.

U kunt deze transformatie opslaan en opnieuw gebruiken voor andere gegevenssets. Dit kan handig zijn als u hebt getraind op een grote groep en de coëfficiënten of categorieën opnieuw wilt gebruiken.

Een LDA-model of -resultaten verfijnen

Normaal gesproken kunt u niet één LDA-model maken dat aan alle behoeften voldoet en zelfs voor een model dat is ontworpen voor één taak, kunnen veel iteraties nodig zijn om de nauwkeurigheid te verbeteren. We raden u aan al deze methoden uit te proberen om uw model te verbeteren:

De modelparameters wijzigen
Visualisatie gebruiken om inzicht te krijgen in de resultaten
Feedback krijgen van deskundigen om na te gaan of de gegenereerde onderwerpen nuttig zijn.

Kwalitatieve metingen kunnen ook nuttig zijn voor het beoordelen van de resultaten. Als u de resultaten van het onderwerpmodel wilt evalueren, kunt u het volgende overwegen:

Nauwkeurigheid: zijn vergelijkbare items echt vergelijkbaar?
Diversiteit: kan het model vergelijkbare items onderscheiden wanneer dit nodig is voor het bedrijfsprobleem?
Schaalbaarheid: werkt het voor een breed scala aan tekstcategorieën of alleen voor een beperkt doeldomein?

De nauwkeurigheid van modellen op basis van LDA kan vaak worden verbeterd door verwerking van natuurlijke taal te gebruiken om tekst op te schonen, samen te vatten en te vereenvoudigen of te categoriseren. De volgende technieken, die allemaal worden ondersteund in Machine Learning, kunnen bijvoorbeeld de nauwkeurigheid van de classificatie verbeteren:

Verwijderen van woorden stoppen
Casenormalisatie
Synchronisatie of stemming
Herkenning van tekeneenheden

Zie Voorverwerking van tekst en Herkenning van benoemde entiteiten.

In Studio (klassiek) kunt u ook R- of Python-bibliotheken gebruiken voor tekstverwerking: R-script uitvoeren, Python-script uitvoeren

Voorbeelden

Zie voor voorbeelden van tekstanalyse deze experimenten in de Azure AI Gallery:

Python-script uitvoeren: maakt gebruik van verwerking van natuurlijke taal in Python om tekst op te schonen en te transformeren.

Zie Understanding LDA Results (Informatie over LDA-resultaten) voor meer informatie en een voorbeeld op basis van de tekst van de klantbeoordeling.

Voorbeeld van LDA-resultaten

Om te laten zien hoe de module Latent Didomlet Allocation werkt, past het volgende voorbeeld LDA toe met de standaardinstellingen op de gegevensset Boekbeoordeling in Machine Learning Studio (klassiek).

Brongegevensset

De gegevensset bevat een beoordelingskolom en de volledige opmerkingstekst van gebruikers.

In deze tabel ziet u slechts enkele representatieve voorbeelden.

tekst
Dit boek heeft goede punten. Als er iets is, kunt u in woorden zetten wat u wilt van een supervisor....
Ik geef toe dat ik dit boek nog niet heb voltooid. Een vriend raadt het me aan omdat ik problemen heb met slapeloosheid...
Slecht geschreven ik heb geprobeerd dit boek te lezen, maar ik vond het zo slecht en slecht geschreven dat ik er gefrustreerd over was. ...
Sinds ik een kopie met een hond in het oren heb gehad van vrienden die het een aantal jaar geleden hebben door geven, heb ik dit boek, dat een kortstondige favoriet werd, niet meer in mijn handen kunnen krijgen
De plot van dit boek was interessant en het had een goed boek kunnen zijn. Helaas is dat niet zo. Het belangrijkste probleem voor mij was dat ...

Tijdens de verwerking schoont en analyseert de module Latent Didomlet Allocation de tekst op basis van de parameters die u opgeeft. Het kan bijvoorbeeld automatisch de tekst tokeniseren en leestekens verwijderen, en tegelijkertijd de tekstfuncties voor elk onderwerp vinden.

Getransformeerde LDA-gegevensset

De volgende tabel bevat de getransformeerde gegevensset , op basis van het voorbeeld boekbeoordeling. De uitvoer bevat de invoertekst en een opgegeven aantal ontdekte categorieën, samen met de scores voor elke categorie.

Filmnaam	Onderwerp 1	Onderwerp 2	Onderwerp 3	Onderwerp 4	Onderwerp 5
dit boek heeft zijn goede punten	0.001652892	0.001652892	0.001652892	0.001652892	0.9933884
vriend heeft dit voor mij aanbevolen	0.00198019	0.001980198	0.9920791	0.001980198	0.001980198
heeft geprobeerd dit boek te lezen	0.002469135	0.002469135	0.9901233	0.002469135	0.002469135
heeft het van een vriend leend	0.9901232	0.002469135	0.002469135	0.002469135	0.002469135
plot van dit boek was interessant	0.001652892	0.001652892	0.9933884	0.001652892	0.001652892

In dit voorbeeld hebben we de standaardwaarde 5 gebruikt voor Aantal onderwerpen dat moet worden gemodelleerd. Daarom maakt de LDA-module vijf categorieën, waarvan we kunnen aannemen dat deze ongeveer overeenkomen met het oorspronkelijke classificatiesysteem met vijf schalen.

De module wijst ook een score toe aan elk item voor elk van de vijf categorieën die onderwerpen vertegenwoordigen. Een score geeft de waarschijnlijkheid aan dat de rij moet worden toegewezen aan een bepaalde categorie.

Matrix met functieonderwerpen

De tweede uitvoer van de module is de functieonderwerpmatrix. Dit is een gegevensset in tabelvorm die de tekst bevat, , in kolom Functie, samen met een score voor elk van de categorieën, in de resterende kolommen Onderwerp 1, Onderwerp 2, ... Onderwerp N. De score vertegenwoordigt de coëfficiënt.

Functie	Onderwerp 1	Onderwerp 2	Onderwerp 3	Onderwerp 4	Onderwerp 5
Interessante	0.0240282071983144	0.0354678954779375	0.363051866576914	0.0276637824315893	0.660663576149515
Was	0.0171478729532397	0.0823969031108669	0.00452966877950789	0.0408714510319233	0.025077322689733
from	0.0148224220349217	0.0505086981492109	0.00434423322461094	0.0273389126293824	0.0171484355106826
Plot	0.0227415889348212	0.0408709456489325	0.182791041345191	0.086937090812819	1 0.0169680136708971
lezen	0.0227415889348212	0.0408709456489325	0.182791041345191	0.0869370908128191	0.0169680136708971
Geprobeerd	0.0269724979147211	0.039026263551767	0.00443749106785087	0.0628829816088284	0.0235340728818033
Me	0.0262656945140134	0.0366941302751921	0.00656837975179138	0.0329214576160066	0.0214121851106808
tot	0.0141026103224462	0.043359976919215	0.00388640531859447	0.0305925953440055	0.0228993750526364
it	0.0264490547105951	0.0356674440311847	0.00541759897864314	0.0314539386250293	0.0140606468587681
Vriend	0.0135971322960941	0.0346118171467234	0.00434999437350706	0.0666507321888536	0.018156863779311
punten	0.0227415889348212	0.0396233855719081	0.00404663601474112	0.0381156510019025	0.0337788009496797
Goede	0.651813073836783	0.0598646397444108	0.00446809691985617	0.0358975694646062	0.0138989124411206
Zijn	0.0185385588647078	0.144253986783184	0.00408876416453866	0.0583049240441475	0.015442805566858
van	0.0171416780245647	0.0559361180418586	0.0100633904544953	0.087093930106723	0.0182573833869842
Geleend	0.0171416780245647	0.0559361180418586	0.0100633904544953	0.087093930106723	0.0182573833869842
Hsa	0.0171416780245647	0.0559361180418586	0.0100633904544953	0.087093930106723	0.0182573833869842
boek	0.0143157047920681	0.069145948535052	0.184036340170983	0.0548757337823903	0.0156837976985903
Aanbevolen	0.0161486848419689	0.0399143326399534	0.00550113530229642	0.028637149142764	0.0147675139039372
dit/deze	0.0161486848419689	0.0399143326399534	0.00550113530229642	0.028637149142764	0.0147675139039372

Technische opmerkingen

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

Implementatiegegevens

Standaard worden de distributies van uitvoer voor getransformeerde gegevenssets en functieonderwerpmatrix genormaliseerd als waarschijnlijkheden.

De getransformeerde gegevensset wordt genormaliseerd als de voorwaardelijke waarschijnlijkheid van onderwerpen op basis van een document. In dit geval is de som van elke rij gelijk aan 1.
De functieonderwerpmatrix wordt genormaliseerd als de voorwaardelijke waarschijnlijkheid van woorden op een onderwerp. In dit geval is de som van elke kolom gelijk aan 1.

Tip

Af en toe kan de module een leeg onderwerp retourneren, dat meestal wordt veroorzaakt door de pseudo-willekeurige initialisatie van het algoritme. Als dit gebeurt, kunt u gerelateerde parameters wijzigen, zoals de maximale grootte van de N-gram-woordenlijst of het aantal bits dat moet worden gebruikt voor het hashen van functies.

LDA en onderwerpmodelleren

Latente Didomlet Allocation (LDA) wordt vaak gebruikt voor het modelleren van inhoudsonderwerpen, wat in feite betekent dat u categorieën leert van niet-geclassificeerde tekst. In op inhoud gebaseerde onderwerpmodellen is een onderwerp een verdeling over woorden.

Stel bijvoorbeeld dat u een aantal klantbeoordelingen hebt opgegeven die veel, veel producten bevat. De tekst van beoordelingen die door veel klanten gedurende een periode zijn ingediend, bevat veel termen, waarvan sommige in meerdere onderwerpen worden gebruikt.

Een onderwerp dat door het LDA-proces wordt geïdentificeerd, kan beoordelingen voor een afzonderlijk product A vertegenwoordigen of een groep productbeoordelingen vertegenwoordigen. Voor LDA is het onderwerp zelf slechts een waarschijnlijkheidsverdeling over een periode voor een reeks woorden.

Termen zijn zelden exclusief voor één product, maar kunnen verwijzen naar andere producten, of algemene termen zijn die van toepassing zijn op alles ('geweldig', 'niet waar'). Andere termen kunnen ruiswoorden zijn. Het is echter belangrijk om te begrijpen dat de LDA-methode er niet toe doet om alle woorden in het universum vast te leggen of om te begrijpen hoe woorden zijn gerelateerd, afgezien van de waarschijnlijkheid van co-exemplaren. Er kunnen alleen woorden worden gegroepeerd die in het doeldomein zijn gebruikt.

Nadat de term indexen zijn berekend, worden afzonderlijke rijen tekst vergeleken met behulp van een op afstand gebaseerde vergelijkbaarheidsmeting om te bepalen of twee tekstdelen op elkaar lijken. U kunt bijvoorbeeld zien dat het product meerdere namen heeft die sterk gecorreleerd zijn. U kunt ook merken dat sterk negatieve termen meestal aan een bepaald product zijn gekoppeld. U kunt de overeenkomstmeting gebruiken om gerelateerde termen te identificeren en aanbevelingen te maken.

Verwachte invoer

Naam	Type	Description
Gegevensset	Gegevenstabel	Invoerset

Moduleparameters

Naam	Type	Bereik	Optioneel	Standaard	Beschrijving
Aantal hash-bits	Geheel getal	[1;31]	Is van toepassing wanneer het selectievakje Alle opties tonen niet is ingeschakeld	12	Aantal bits dat moet worden gebruikt voor functie-hashing
Doelkolom(en)	Kolomselectie		Vereist	StringFeature	Naam of index van doelkolom
Aantal onderwerpen dat moet worden gemodelleerd	Geheel getal	[1;1000]	Vereist	5	De documentdistributie modelleren op N onderwerpen
N-grammen	Geheel getal	[1;10]	Vereist	2	Volgorde van N-grammen die zijn gegenereerd tijdens hashing
Normalize	Booleaans		Vereist	true	Uitvoer normaliseren naar waarschijnlijkheden. De getransformeerde gegevensset is P(topic\|document) en de matrix van het functieonderwerp is P(word\|topic).
Alle opties tonen	Booleaans	Waar of Onwaar	Vereist	Niet waar	Biedt aanvullende parameters die specifiek zijn voor Vowpal Wabbit Online LDA
Parameter Rho	Float	[0.00001;1.0]	Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld	0,01	Parameter Rho
Alfaparameter	Float	[0.00001;1.0]	Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld	0,01	Alfaparameter
Geschat aantal documenten	Geheel getal	[1;int. MaxValue]	Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld	1000	Geschat aantal documenten (komt overeen met lda_D parameter)
Grootte van de batch	Geheel getal	[1;1024]	Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld	32	Grootte van de batch
Initiële waarde van iteratie die wordt gebruikt in updateschema voor leersnelheid	Geheel getal	[0;int. MaxValue]	Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld	0	Aanvankelijke waarde van het aantal iteraties dat wordt gebruikt in het updateschema voor leersnelheid (komt overeen met initial_t parameter)
Energie die wordt toegepast op de iteratie tijdens updates	Float	[0.0;1.0]	Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld	0,5	Energie die wordt toegepast op het aantal iteraties tijdens online updates (komt overeen met power_t parameter)
Aantal trainings iteraties	Geheel getal	[1;1024]	Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld	25	Aantal trainings iteraties
Een woordenlijst van ngrammen bouwen	Booleaans	Waar of Onwaar	Is van toepassing wanneer het selectievakje Alle optiestonen niet is ingeschakeld	Waar	Bouwt een woordenlijst van ngrammen voordat LDA wordt gebruikt. Handig voor modelinspectie en interpretatie
Aantal bits dat moet worden gebruikt voor functie-hashing	Geheel getal	[1;31]	Is van toepassing wanneer de optie Build dictionary of ngrams false is	12	Aantal bits dat moet worden gebruikt tijdens het hashen van functies
Maximale grootte van ngram-woordenlijst	Geheel getal	[1;int. MaxValue]	Is van toepassing wanneer de optie Build dictionary of ngrams true is	20.000	Maximale grootte van de ngrammen-woordenlijst. Als het aantal tokens in de invoer deze grootte overschrijdt, kunnen er sprake zijn van een aanrijding
Een woordenlijst van ngrammen bouwen vóór LDA	Booleaans	Waar of Onwaar	Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld	Waar	Bouwt een woordenlijst van ngrammen vóór LDA. Handig voor modelinspectie en interpretatie
Maximum aantal ngrammen in woordenlijst	Geheel getal	[1;int. MaxValue]	Is van toepassing wanneer de optie Woordenlijst bouwen van ngrammen waar is en het selectievakje Alle opties tonen is ingeschakeld	20.000	Maximale grootte van de woordenlijst. Als het aantal tokens in de invoer deze grootte overschrijdt, kunnen er sprake zijn van een aanrijding

Uitvoerwaarden

Naam	Type	Description
Getransformeerde gegevensset	Gegevenstabel	Uitvoerset
Matrix met functieonderwerpen	Gegevenstabel	Matrix met functieonderwerpen die is geproduceerd door LDA
LDA-transformatie	ITransform-interface	Transformatie waarmee LDA wordt toegepast op de gegevensset

Uitzonderingen

Uitzondering	Description
Fout 0002	Er treedt een uitzondering op als een of meer opgegeven kolommen met gegevenssets niet kunnen worden gevonden.
Fout 0003	Uitzondering treedt op als een of meer invoer null of leeg zijn.
Fout 0004	Uitzondering treedt op als de parameter kleiner is dan of gelijk is aan een specifieke waarde.
Fout 0017	Uitzondering treedt op als een of meer opgegeven kolommen het type niet ondersteund hebben door de huidige module.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Tekstanalyse
Functie-hashing
Herkenning van benoemde entiteiten
Vowpal Wabbit 7-4-model scoren
Vowpal Wabbit 7-4-model trainen
Vowpal Wabbit 8-model trainen