Dela data med delade rader

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Den här artikeln beskriver hur du använder alternativet Dela upp rader i modulen Dela data i Machine Learning Studio (klassisk). Det här alternativet är särskilt användbart när du behöver dela upp datauppsättningar som används för träning och testning, antingen slumpmässigt eller med vissa kriterier.

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Alternativet Dela rader stöder både slumpmässiga och stratifierade delningar. Du kan till exempel ange en delning mellan 70 och 30 eller 10–90 där målvariabeln visas jämnt i båda datauppsättningarna.

Allmän information om datapartitionering för maskininlärningsexperiment finns i Dela data och Partitionera och Dela.

Andra alternativ i modulen Dela data stöder olika sätt att dela upp data:

Dela upp en datauppsättning i två grupper

  1. Lägg till modulen Split Data (Dela data) i experimentet i Studio (klassisk) och anslut den datamängd som du vill dela.

  2. För Delningsläge väljer du Dela rader.

  3. Bråkdel av rader i den första utdatauppsättningen. Använd det här alternativet för att avgöra hur många rader som går till den första (vänstra) utmatningen. Alla andra rader går till den andra utdatan (till höger).

    Förhållandet representerar procentandelen rader som skickas till den första utdatauppsättningen, så du måste ange ett decimaltal mellan 0 och 1.

    Om du till exempel skriver 0,75 som värde delas datauppsättningen med ett förhållande på 75:25, där 75 % av raderna skickas till den första utdatauppsättningen och 25 % skickas till den andra utdatauppsättningen.

  4. Välj alternativet Randomiserad delning om du vill slumpmässigt välja data i de två grupperna. Det här är det bästa alternativet när du skapar datauppsättningar för träning och testning.

  5. Slumpmässigt startvärde: Ange ett icke-negativt heltalsvärde för att initiera pseudoslumpsekvensen av instanser som ska användas. Standardvärdet används i alla moduler som genererar slumpmässiga tal.

    Om du anger ett seed kan resultaten vanligtvis reproduceras. Om du behöver upprepa resultatet av en delningsåtgärd bör du ange ett start seed för slumptalsgeneratorn. Annars anges det slumpmässiga startvärdet som standard till 0, vilket innebär att det ursprungliga startvärdet hämtas från systemklockan. Därför kan fördelningen av data vara något annorlunda varje gång du utför en delning.

  6. Skiktad delning: Ställ in det här alternativet på Sant för att säkerställa att de två utdatauppsättningarna innehåller ett representativt urval av värdena i strata-kolumnen eller stratifieringsnyckelkolumnen.

    Med stratifierad sampling delas data så att varje utdatauppsättning får ungefär samma procentandel av varje målvärde. Du kanske till exempel vill se till att dina tränings- och testuppsättningar är ungefär balanserade med avseende på resultatet, eller med hänsyn till någon annan kolumn, till exempel kön.

  7. Kör experimentet eller högerklicka på modulen och välj Kör valda.

Exempel

Följande exempel visar hur du utför enkla delningar i läget Dela upp rader.

Dela upp i två lika delar

Lägg till modulen Split Data (Dela data) efter datauppsättningen utan några andra ändringar. Som standard delar modulen upp datauppsättningen i två lika delar. För data med ett udda antal rader får den andra utdata resten.

Dela upp i tredje

Anta att du vill dela upp en datauppsättning i två delar, med en tredje av de data som används för träning och resten för testning eller ytterligare delningar.

Det gör du genom att lägga till en Split Data-modul (Dela data) och ange Fraction of rows in the first output (Bråkdel av rader i de första utdata) till 0,33. Den andra utdatan innehåller de återstående två tredjedelarna.

Om du vill dela upp de andra utdata i lika delar lägger du till en annan instans av modulen Split Data (Dela upp data ) och använder standardvärdet för en delning på 50–50.

Teknisk information

Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.

Implementeringsdetaljer

  • Den här modulen kräver att datauppsättningen innehåller minst två rader. Annars utlöses ett fel.

  • Om du använder alternativet för att ange önskat antal rader måste det angivna talet vara ett positivt heltal och talet måste vara mindre än det totala antalet rader i datauppsättningen.

  • Alla procentvärden måste vara inom intervallet 0 och 1.

  • Om du anger ett tal eller en procentandel som ett flyttal som är mindre än ett och du inte använder procentsymbolen (%) tolkas talet som ett proportionellt värde.

Ytterligare krav för stratifierad sampling

  • Strata-kolumnen får bara innehålla nominella eller kategoriska data. Om kolumnen innehåller kontinuerliga numeriska data utlöses ett felmeddelande.

  • En kolumn med för många unika värden är inte en bra kandidat för stratifiering. Du kan försöka dölja vissa kategorier eller gruppera värden i förväg.

Se även

Sample ochSplitPartition och Sample