Datatransformering – exempel och delning

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Den här artikeln beskriver de moduler i Machine Learning Studio (klassisk) som du kan använda för att partitionera eller exempeldata.

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Att dela upp och sampling av datauppsättningar är båda viktiga uppgifter inom maskininlärning. Det är till exempel vanligt att dela in data i tränings- och testuppsättningar för att utvärdera en modell på en holdout-datamängd. Sampling blir också allt viktigare i stordatans tideräkning för att säkerställa att det finns en rättvis fördelning av klasser i dina träningsdata. Sampling hjälper också till att se till att du inte bearbetar mer data än vad som behövs.

Du kan använda Machine Learning Studio-moduler (klassisk) för att anpassa hur du delar upp eller exempel på datauppsättningar:

  • Filtrera träningsdata baserat på ett attribut i data.
  • Utför stratifierad sampling för att dela upp klassvariabeln jämnt mellan n antal grupper.
  • Dela in källdata i en datauppsättning för träning och testning med hjälp av ett anpassat förhållande.
  • Tillämpa reguljära uttryck på data för att filtrera bort ogiltiga värden.

Välja rätt åtgärd: Dela eller sampling

Machine Learning Studio (klassisk) innehåller två moduler som kapslar in uppgifter. Modulerna låter liknande, men de har olika användningsområden och tillhandahåller kompletterande funktioner. Det är troligt att du använder båda modulerna i ett experiment för att få rätt mängd och rätt blandning av data.

Därefter jämför vi modulen Split Data (Dela data ) och modulen Partition och Sample (Partition och Exempel ) genom att se vilka uppgifter varje modul används ofta för.

Användning av modulen Dela data

  • Dela upp data i två grupper. Använd modulen Dela data. Modulen genererar exakt två delningar av data. Du kan ange villkoret för hur data delas upp och hur stor andel av data som ska förs in i varje delmängd. Dela data sparar alltid den delmängd av data som inte uppfyller villkoren.
  • Allokera etikettvärden jämnt till datauppsättningar. Alternativet att stratifiera på en angiven kolumn stöds av båda modulerna. Men om du vill skapa två datauppsättningar och främst är intresserad av etikettkolumnen är modulen Dela data en snabb lösning.

Exempel på hur du använder modulen Dela data

Anta att du har importerat en mycket stor datauppsättning från en CSV-fil. Datamängden innehåller kunddemografi. Du vill skapa olika modeller för kunder i olika länder, så du bestämmer dig för att dela data med hjälp av värdet för Country-Region kolumnen. Här är de steg du utför för att slutföra den här uppgiften:

  1. Lägg till modulen Split Data (Dela data) och ange sedan ett uttryck i Country-Region fältet . Resten av data är tillgängliga i sekundära utdata.
  2. Lägg till ytterligare en instans av modulen Split Data (Dela data).
  3. Upprepa steg 1 och 2. Ange ett annat land i uttrycket för varje iteration.

Modulen Dela data stöder både reguljära uttryck, för textdata och relativa uttryck, för numeriska data.

Modulen Split Data ( Dela upp data) innehåller också avancerade funktioner som du kan använda för att dela upp specialiserade datamängder. Använd funktionen för att skapa rekommendationsmodeller och för att generera förutsägelser.

Användning av partitions- och exempelmodulen

  • Sampling. Använd alltid modulen Partition och Sample. Modulen innehåller flera anpassningsbara samplingsmetoder, inklusive flera alternativ för stratifierad sampling.
  • Tilldela ärenden till flera grupper. Använd alternativen Assign to Fold (Tilldela till att lägga ned) eller Pick Fold (Välj vikning) i modulen Partition och Sample (Partition och Exempel).
  • Returnera endast en delmängd av data. Använd modulen Partition och Sample. Modulen ger dig den angivna delmängden på de primära utdata. Återstående data är tillgängliga i sekundära utdata.
  • Hämta endast de översta 2 000 raderna i en datauppsättning. Använd modulen Partition och Sample. Välj alternativet Huvud . Detta är särskilt användbart när du testar ett nytt experiment och vill köra korta utvärderingsversioner av ett arbetsflöde.

Exempel på hur du använder partitions- och exempelmodulen

Modulen Partition och Sample kan generera flera partitioner av data, inte bara två. Samtidigt kan den utföra olika samplingsåtgärder.

Anta till exempel att du bara behöver hämta 10 procent av dina data, samtidigt som du ser till att fördelningen av målattributet är samma som i källdata. Här är de steg du utför för att slutföra den här uppgiften:

  1. Lägg till modulen Partition och Sample.
  2. Välj Samplingsläge och ange sedan 10 %.
  3. Välj alternativet stratifierad sampling och välj sedan den kolumn som innehåller målattributet.

Om du inte behöver behålla alla data använder du modulen Partition och Exempel. Återstående data finns kvar på arbetsytan, men de behöver inte bearbetas ytterligare som en del av experimentet.

Lista över moduler

Den här kategorin innehåller följande moduler:

  • Partition och exempel: Skapar flera partitioner av en datauppsättning baserat på sampling.
  • Dela upp data: Partitioner raderna i en datauppsättning i två olika uppsättningar.

Se även