Data omvandling-manipulering

I den här artikeln beskrivs modulerna i Azure Machine Learning Studio (klassisk) som du kan använda för grundläggande data behandling.

Anteckning

Gäller för: Machine Learning Studio (klassisk)

Det här innehållet gäller endast Studio (klassisk). Liknande dra-och släpp moduler har lagts till i Azure Machine Learning designer. Mer information i den här artikeln är att jämföra de två versionerna.

Machine Learning Studio (klassisk) stöder uppgifter som är speciella för maskin inlärning, till exempel normalisering eller val av funktioner. Modulerna i den här kategorin är avsedda för mer allmänna uppgifter.

Data manipulations aktiviteter

Modulerna i den här kategorin är avsedda att stödja grundläggande data hanterings aktiviteter som kan behöva utföras i Machine Learning Studio (klassisk). Följande uppgifter är exempel på viktiga data hanterings uppgifter:

  • Kombinera två data uppsättningar, antingen genom att använda kopplingar eller genom att sammanfoga kolumner eller rader.
  • Skapa nya kategorier som ska användas i gruppering av data.
  • Ändra kolumn rubriker, ändra kolumn data typer eller flagga kolumner som funktioner eller etiketter.
  • Kontrol lera om det saknas värden och ersätt dem med lämpliga värden.

Exempel

Exempel på hur du arbetar med komplexa data i Machine Learning-experiment finns i följande exempel i Azure AI Gallery:

Moduler i den här kategorin

Kategorin data omvandling-manipulation innehåller följande moduler:

  • Lägg till kolumner: lägger till en uppsättning kolumner från en data uppsättning till en annan.
  • Lägg till rader: lägger till en uppsättning rader från en indata-datauppsättning till slutet av en annan data uppsättning.
  • Tillämpa SQL-omvandling: kör en sqlite-fråga på indata-datauppsättningar för att transformera data.
  • Rensa saknade data: anger hur värden som saknas från en data uppsättning ska hanteras. Den här modulen ersätter saknade värden för en Skrubbare som är inaktuell.
  • Konvertera till indikator värden: konverterar kategoriska-värden i kolumner till indikator värden.
  • Redigera metadata: redigerar metadata som är kopplade till kolumner i en data uppsättning.
  • Gruppera kategoriska-värden: grupperar data från flera kategorier till en ny kategori.
  • Koppla data: sammanfogar två data uppsättningar.
  • Ta bort dubblettrader: tar bort duplicerade rader från en data uppsättning.
  • Välj kolumner i data uppsättning: väljer kolumner som ska inkluderas i en data uppsättning eller undantas från en data uppsättning i en åtgärd.
  • Välj kolumner transformera: skapar en omvandling som väljer samma del av kolumner som i en angiven data mängd.
  • SMOTE: ökar antalet låg frekvens exempel i en data uppsättning med hjälp av syntetisk minoritets översampling.

Se även