Analys av huvudkomponent

Beräknar en uppsättning funktioner med minskad dimensionalitet för effektivare inlärning

Kategori: Datatransformering/exempel och delning

Anteckning

Gäller för: Machine Learning Studio (klassisk)

Det här innehållet gäller endast Studio (klassisk). Liknande dra-och släpp moduler har lagts till i Azure Machine Learning designer. Mer information i den här artikeln är att jämföra de två versionerna.

Modulöversikt

Den här artikeln beskriver hur du använder modulen För huvudkomponentanalys i Azure Machine Learning Studio (klassisk) för att minska dimensionaliteten för dina träningsdata. Modulen analyserar dina data och skapar en minskad funktionsuppsättning som samlar in all information som finns i datauppsättningen, men i ett mindre antal funktioner.

Modulen skapar också en transformering som du kan använda för nya data för att uppnå en liknande minskning av dimensionalitet och komprimering av funktioner, utan att kräva ytterligare träning.

Mer om analys av huvudkomponent

Principal Component Analysis (PCA) är en populär teknik inom maskininlärning. Den förlitar sig på det faktum att många typer av vektorutrymmesdata är komprimerbara och att komprimering bäst kan uppnås med sampling.

Ytterligare fördelar med PCA är förbättrad datavisualisering och optimering av resursanvändningen av inlärningsalgoritmen.

Modulen Analys av huvudkomponent i Azure Machine Learning Studio (klassisk) tar en uppsättning funktionskolumner i den angivna datauppsättningen och skapar en projektion av det funktionsutrymme som har lägre dimensionalitet. Algoritmen använder randomiseringstekniker för att identifiera ett funktionsunderområde som samlar in merparten av informationen i hela funktionsmatrisen. Därför fångar transformerade datamatriser variansen i ursprungliga data samtidigt som effekten av brus minskar och risken för överinpassering minimeras.

Allmän information om huvudkomponentanalys (PCA) finns i den här Wikipedia-artikeln. Information om PCA-metoder som används i den här modulen finns i följande artiklar:

Så här konfigurerar du huvudkomponentanalys

  1. Lägg till modulen För huvudkomponentanalys i experimentet. Du hittar den under Datatransformering i kategorin Skala och Minska.

  2. Anslut den datauppsättning som du vill transformera och välj de funktionskolumner som ska analyseras.

    Om det inte redan är klart vilka kolumner som är funktioner och vilka som är etiketter rekommenderar vi att du använder modulen Redigera metadata för att markera kolumnerna i förväg.

  3. Antal dimensioner som ska minskas till: Ange önskat antal kolumner i de slutliga utdata. Varje kolumn representerar en dimension som samlar in en del av informationen i indatakolumnerna.

    Om källdatauppsättningen till exempel har åtta kolumner och du skriver returneras tre nya kolumner som samlar in 3 information om de åtta valda kolumnerna. Kolumnerna heter Col1 , Col2 och Col3 . Dessa kolumner mappar inte direkt till källkolumnerna. I stället innehåller kolumnerna en uppskattning av funktionsutrymmet som beskrivs i de ursprungliga kolumnerna 1–8.

    Tips

    Algoritmen fungerar optimalt när antalet minskade dimensioner är mycket mindre än de ursprungliga dimensionerna.

  4. Normalisera kompakt datauppsättning till noll medelvärde: Välj det här alternativet om datauppsättningen är kompakt, vilket innebär att den innehåller få saknade värden. Om du väljer det här alternativet normaliserar modulen värdena i kolumnerna till ett medelvärde på noll före annan bearbetning.

    Det här alternativet bör inte väljas för glesa datamängder. Om en gles datauppsättning identifieras åsidosätts parametern.

  5. Kör experimentet.

Resultat

Modulen matar ut en minskad uppsättning kolumner som du kan använda när du skapar en modell. Du kan spara utdata som en ny datauppsättning eller använda dem i experimentet.

Du kan också spara analysprocessen som en sparad transformering för att tillämpa på en annan datauppsättning med hjälp av Tillämpa transformering.

Den datamängd som du tillämpar omvandlingen på måste ha samma schema som den ursprungliga datauppsättningen.

Exempel

Exempel på hur huvudkomponentanalys används i maskininlärning finns i Azure AI Gallery:

  • Klustring: Hitta liknande företag:Använder huvudkomponentanalys för att minska antalet värden från textutvinning till ett hanterbart antal funktioner.

    Även om PCA i det här exemplet tillämpas med ett anpassat R-skript visar det hur PCA vanligtvis används.

Teknisk information

Det finns två steg för att beräkna de lägre dimensionella komponenterna.

  • Det första är att skapa ett lågdimensionellt underområde som avbildar matrisens åtgärd.
  • Det andra är att begränsa matrisen till underområdet och sedan beräkna en standardfaktorisering av den minskade matrisen.

Förväntade indata

Namn Typ Description
Datamängd Datatabell Datauppsättning vars dimensioner ska minskas

Modulparametrar

Namn Typ Intervall Valfritt Description Standardvärde
Valda kolumner ColumnSelection Obligatorisk Valda kolumner som PCA ska tillämpas på
Antal dimensioner att minska till Integer >=1 Obligatorisk Antalet önskade dimensioner i den minskade datamängden
Normalisera kompakt datauppsättning till noll medelvärde Boolesk Obligatorisk true Ange om indatakolumnerna ska vara medel normaliserade för kompakta datauppsättningar (för gles dataparameter ignoreras)

Utdata

Namn Typ Description
Resultatdatauppsättning Datatabell Datauppsättning med minskade dimensioner
PCA-transformering ITransform-gränssnitt Transformering som när den tillämpas på datauppsättningen ger en ny datauppsättning med minskade dimensioner

Undantag

Undantag Description
Fel 0001 Undantaget inträffar om det inte gick att hitta en eller flera angivna kolumner i datauppsättningen.
Fel 0003 Undantaget inträffar om en eller flera indata är null eller tomma.
Fel 0004 Undantaget inträffar om parametern är mindre än eller lika med ett specifikt värde.

En lista över fel som är specifika för Studio-moduler (klassisk) finns i Machine Learning felkoder.

En lista över API-undantag finns i Machine Learning REST API felkoder.

Se även

Exempel och delning
Funktionsval