Analyse van hoofdcomponenten

Artikel
05/06/2019

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
Meer informatie over Azure Machine Learning.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Berekent een set functies met verminderde dimensionaliteit voor efficiënter leren

Categorie: Gegevenstransformatie/ Voorbeeld en splitsen

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Analyse van principal-onderdelen in Machine Learning Studio (klassiek) gebruikt om de dimensionaliteit van uw trainingsgegevens te verminderen. De module analyseert uw gegevens en maakt een beperkte functieset die alle informatie in de gegevensset vast legt, maar in een kleiner aantal functies.

De module maakt ook een transformatie die u kunt toepassen op nieuwe gegevens om een vergelijkbare vermindering van dimensionaliteit en compressie van functies te bereiken, zonder dat er aanvullende training nodig is.

Meer informatie over analyse van principal-onderdelen

PcA (Principal Component Analysis) is een populaire techniek in machine learning. Het is afhankelijk van het feit dat veel typen vectorruimtegegevens comprimeerbaar zijn en dat compressie het efficiëntst kan worden bereikt door steekproeven te nemen.

Toegevoegde voordelen van PCA zijn verbeterde gegevensvisualisatie en optimalisatie van resourcegebruik door het leeralgoritme.

De module Analyse van principal-onderdelen in Machine Learning Studio (klassiek) neemt een set functiekolommen in de opgegeven gegevensset en maakt een projectie van de functieruimte met een lagere dimensionaliteit. Het algoritme maakt gebruik van randomisatietechnieken om een functiesubruimte te identificeren die de meeste informatie in de volledige functiematrix vast legt. Daarom leggen de getransformeerde gegevens matrices de afwijking in de oorspronkelijke gegevens vast terwijl het effect van ruis wordt verminderd en het risico op overfitting wordt geminimeerd.

Zie dit Wikipedia-artikel voor algemene informatie over PCA (Principal Component Analysis). Zie de volgende artikelen voor meer informatie over de PCA-benaderingen die in deze module worden gebruikt:

Finding Structure with Randomness: Probabilistic Algorithms for Constructing Approximate Matrix Decompositions (Structuur zoeken met willekeurigheid: probabilistische algoritmen voor het maken van geschatte matrixdecomposities). Moetko, Martinsson en Tropp, 2010.
Structured and Unstructured Randomness in Large Scale PCA combineren Het combineren van gestructureerde en ongestructureerde willekeurigheid in grootschalige PCA. Moetmpatziakis en Mineiro, 2013.

Analyse van principal-onderdelen configureren

Voeg de module Analyse van hoofdcomponenten toe aan uw experiment. U vindt deze onder Gegevenstransformatie in de categorie Schalen en Verminderen.
Verbinding maken de gegevensset die u wilt transformeren en kies de functiekolommen die u wilt analyseren.

Als het nog niet duidelijk is welke kolommen functies zijn en welke labels zijn, raden we u aan de module Metagegevens bewerken te gebruiken om de kolommen vooraf te markeren.
Aantal dimensies dat moet worden beperkt tot: typ het gewenste aantal kolommen in de uiteindelijke uitvoer. Elke kolom vertegenwoordigt een dimensie die een deel van de informatie in de invoerkolommen vast legt.

Als de brongegevensset 3bijvoorbeeld acht kolommen heeft en u typt, worden er drie nieuwe kolommen geretourneerd die de informatie van de acht geselecteerde kolommen vastleggen. De kolommen hebben de namen Col1, Col2en Col3. Deze kolommen zijn niet rechtstreeks aan de bronkolommen toe te schrijven; In plaats daarvan bevatten de kolommen een benadering van de functieruimte die wordt beschreven in de oorspronkelijke kolommen 1-8.

Tip

Het algoritme werkt optimaal wanneer het aantal gereduceerde dimensies veel kleiner is dan de oorspronkelijke dimensies.
Compacte gegevensset normaliseren naar nul gemiddelde: selecteer deze optie als de gegevensset compact is, wat betekent dat deze weinig ontbrekende waarden bevat. Als deze optie is geselecteerd, normaliseert de module de waarden in de kolommen tot een gemiddelde van nul vóór andere verwerkingen.

Voor sparse gegevenssets moet deze optie niet worden geselecteerd. Als er een sparse gegevensset wordt gedetecteerd, wordt de parameter overschrijven.
Voer het experiment uit.

Resultaten

De module geeft een gereduceerde set kolommen weer die u kunt gebruiken bij het maken van een model. U kunt de uitvoer opslaan als een nieuwe gegevensset of deze gebruiken in uw experiment.

U kunt het analyseproces desgewenst opslaan als een opgeslagen transformatie om het toe te passen op een andere gegevensset met behulp van Transformatie toepassen.

De gegevensset waar u de transformatie op wilt toepassen, moet hetzelfde schema hebben als de oorspronkelijke gegevensset.

Voorbeelden

Voor voorbeelden van hoe Analyse van principal-onderdelen wordt gebruikt in machine learning, zie de Azure AI Gallery:

Clustering: Find Similar Companies: Maakt gebruik van Principal Component Analysis om het aantal waarden te verminderen van tekstanalyse tot een beheerbaar aantal functies.

Hoewel in dit voorbeeld PCA wordt toegepast met behulp van een aangepast R-script, illustreert het hoe PCA doorgaans wordt gebruikt.

Technische opmerkingen

De berekening van de lagerdimensionale onderdelen bestaat uit twee fasen.

De eerste is het maken van een laagdimensionale subruimte die de actie van de matrix vast legt.
De tweede is om de matrix te beperken tot de subruimte en vervolgens een standaardfactorisatie van de gereduceerde matrix te berekenen.

Verwachte invoer

Naam	Type	Description
Gegevensset	Gegevenstabel	Gegevensset waarvan de dimensies moeten worden verminderd

Moduleparameters

Naam	Type	Bereik	Optioneel	Description	Standaard
Geselecteerde kolommen	ColumnSelection		Vereist		Geselecteerde kolommen om PCA op toe te passen
Aantal dimensies dat moet worden verkleind tot	Geheel getal	>= 1	Vereist		Het aantal gewenste dimensies in de gereduceerde gegevensset
Compacte gegevensset normaliseren naar nul gemiddelde	Booleaans		Vereist	true	Geef aan of de invoerkolommen worden genormaliseerd voor compacte gegevenssets (voor sparse gegevensparameters wordt genegeerd)

Uitvoerwaarden

Naam	Type	Description
Gegevensset met resultaten	Gegevenstabel	Gegevensset met beperkte dimensies
PCA-transformatie	ITransform-interface	Transformatie die, wanneer deze wordt toegepast op de gegevensset, een nieuwe gegevensset met beperkte dimensies geeft

Uitzonderingen

Uitzondering	Description
Fout 0001	Er treedt een uitzondering op als een of meer opgegeven kolommen met gegevenssets niet kunnen worden gevonden.
Fout 0003	Uitzondering treedt op als een of meer invoer null of leeg zijn.
Fout 0004	Uitzondering treedt op als de parameter kleiner is dan of gelijk is aan een specifieke waarde.

Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).

Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.

Zie ook

Voorbeeld en splitsen
Functieselectie