Analyse van Principal-onderdelen

Berekent een aantal functies met een beperkte dimensionaliteit voor efficiënter leren

Categorie: gegevens transformatie/voor beeld en splitsen

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de module belangrijkste onderdeel analyse in azure machine learning Studio (klassiek) gebruikt om de dimensionaliteit van uw trainings gegevens te reduceren. De module analyseert uw gegevens en maakt een gereduceerde functieset waarmee alle gegevens in de gegevensset worden vastgelegd, maar in een kleiner aantal functies.

De module maakt ook een trans formatie die u op nieuwe gegevens kunt Toep assen om een soort gelijke verlaging van de dimensionaliteit en compressie van functies te krijgen zonder extra training.

Meer informatie over het analyseren van hoofd onderdelen

De functie voor het analyseren van Principal-onderdelen (PCA) is een populaire techniek in machine learning. Het is afhankelijk van het feit dat er veel soorten compressible zijn en dat compressie het meest efficiënt kan worden gerealiseerd door steek proeven te nemen.

Extra voor delen van PCA zijn verbeterde gegevens visualisatie en de optimalisatie van het resource gebruik door het leer algoritme.

De analyse module voor belangrijkste onderdelen in azure machine learning Studio (klassiek) gebruikt een set functie kolommen in de opgegeven gegevensset en maakt een projectie van de functie ruimte met een lagere dimensionaliteit. De algoritme maakt gebruik van wille keurige technieken voor het identificeren van een functie subruimte waarmee de meeste informatie in de volledige functie matrix wordt vastgelegd. Daarom leggen de getransformeerde gegevens matrices de variantie vast in de oorspronkelijke gegevens en vermindert het effect van lawaai en minimaliseert het risico van overmontage.

Zie dit Wikipedia-artikelvoor algemene informatie over Principal component ANALYSIS (PCA). Raadpleeg de volgende artikelen voor meer informatie over de PCA-benaderingen die in deze module worden gebruikt:

Principal-onderdeel analyse configureren

  1. Voeg de module belangrijkste onderdeel analyse toe aan uw experiment. U vindt deze in onder gegevens transformatie, in de categorie schalen en verminderen .

  2. Verbind de gegevensset die u wilt transformeren en kies de functie kolommen die u wilt analyseren.

    Als het nog niet duidelijk is welke kolommen functies en labels zijn, kunt u het beste de module meta gegevens bewerken gebruiken om de kolommen vooraf te markeren.

  3. Aantal dimensies dat moet worden gereduceerd: Typ het gewenste aantal kolommen in de uiteindelijke uitvoer. Elke kolom vertegenwoordigt een dimensie die een deel van de gegevens in de invoer kolommen vastlegt.

    Als de bron gegevensset bijvoorbeeld acht kolommen bevat en u typt 3 , worden er drie nieuwe kolommen geretourneerd die de informatie van de acht geselecteerde kolommen vastleggen. De kolommen hebben de naam Col1 , Col2 en Col3 . Deze kolommen worden niet rechtstreeks aan de bron kolommen toegewezen. in plaats daarvan bevatten de kolommen een benadering van de functie ruimte die wordt beschreven door de oorspronkelijke kolommen 1-8.

    Tip

    Het algoritme werkt optimaal wanneer het aantal kleinere dimensies veel kleiner is dan de oorspronkelijke dimensies.

  4. Compacte gegevensset normaliseren naar nul gemiddelde: Selecteer deze optie als de gegevensset dicht op staat, wat betekent dat deze weinig ontbrekende waarden bevat. Als u dit selectief selecteert, worden de waarden in de kolommen genormaliseerd tot een gemiddelde van nul vóór een andere verwerking.

    Voor sparse gegevens sets moet deze optie niet worden geselecteerd. Als er een sparse gegevensset wordt gedetecteerd, wordt de para meter genegeerd.

  5. Voer het experiment uit.

Resultaten

De module levert een beperkte set kolommen op die u kunt gebruiken om een model te maken. U kunt de uitvoer opslaan als een nieuwe gegevensset of in uw experiment gebruiken.

Desgewenst kunt u het analyse proces opslaan als een opgeslagen trans formatie om toe te passen op een andere gegevensset met behulp van trans formatie Toepassen.

De gegevensset waarop u de trans formatie toepast, moeten hetzelfde schema hebben als de oorspronkelijke gegevensset.

Voorbeelden

Voor voor beelden van het gebruik van de analyse van hoofd onderdelen in machine learning raadpleegt u de Azure AI Gallery:

  • Clustering: vergelijk bare bedrijven zoeken: maakt gebruik van Principal-onderdeel analyse om het aantal waarden van de tekst analyse te beperken tot een beheersbaar aantal functies.

    Hoewel in dit voor beeld-PCA wordt toegepast met behulp van een aangepast R-script, illustreert het hoe PCA doorgaans wordt gebruikt.

Technische opmerkingen

Er zijn twee fasen voor het berekenen van de verlaagde onderdelen.

  • De eerste is het maken van een eendimensionale subruimte die de actie van de matrix vastlegt.
  • De tweede is om de matrix te beperken tot de subruimte en vervolgens een standaard factorization van de gereduceerde matrix te berekenen.

Verwachte invoer

Naam Type Beschrijving
Gegevensset Gegevens tabel De gegevensset waarvan de dimensies moeten worden gereduceerd

Module parameters

Naam Type Bereik Optioneel Beschrijving Standaard
Geselecteerde kolommen ColumnSelection Vereist Geselecteerde kolommen waarop PCA moet worden toegepast
Aantal dimensies waarvoor moet worden gereduceerd Geheel getal >= 1 Vereist Het aantal gewenste dimensies in de gereduceerde gegevensset
Compacte gegevensset normaliseren tot nul betekent Boolean-waarde Vereist true Geef aan of de invoer kolommen normaal gesp roken worden genormaliseerd voor compacte gegevens sets (voor de para meter sparse data)

Outputs

Naam Type Beschrijving
Gegevensset voor resultaten Gegevens tabel Gegevensset met beperkte afmetingen
PCA-trans formatie ITransform-interface De trans formatie die wordt toegepast op de gegevensset krijgt een nieuwe gegevensset met een lagere dimensie

Uitzonderingen

Uitzondering Beschrijving
Fout 0001 Uitzonde ring treedt op als een of meer opgegeven kolommen met gegevensset niet zijn gevonden.
Fout 0003 Uitzonde ring treedt op als een of meer invoer waarden null of leeg zijn.
Fout 0004 Uitzonde ring treedt op als de para meter kleiner dan of gelijk aan een specifieke waarde is.

Zie machine learning fout codesvoor een lijst met fouten die specifiek zijn voor Studio-modules (Classic).

Zie Machine Learning rest API fout codesvoor een lijst met API-uitzonde ringen.

Zie ook

Voor beeld en splitsing
Functie selectie