Dela data

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Partitioner raderna i en datauppsättning i två distinkta uppsättningar

Kategori: Datatransformering/exempel och delning

Anteckning

Gäller endast för: Machine Learning Studio (klassisk)

Liknande dra och släpp-moduler är tillgängliga i Azure Machine Learning designer.

Modulöversikt

Det här avsnittet beskriver hur du använder modulen Dela upp data i Machine Learning Studio (klassisk) för att dela upp en datauppsättning i två distinkta uppsättningar.

Den här modulen är särskilt användbar när du behöver separera data i tränings- och testuppsättningar. Du kan även anpassa hur data delas. Vissa alternativ stöder slumpmässighet av data. andra är skräddarsydda för en viss datatyp eller modelltyp.

Så här konfigurerar du delade data

Tips

Innan du väljer delningsläge läser du igenom alla alternativ för att avgöra vilken typ av delning du behöver. Om du ändrar delningsläget kan alla andra alternativ återställas.

  1. Lägg till modulen Split Data (Dela data) i experimentet i Studio. Du hittar den här modulen under Datatransformering i kategorin Exempel och Dela.

  2. Delningsläge: Välj något av följande lägen, beroende på vilken typ av data du har och hur du vill dela upp dem. Varje delningsläge har olika alternativ. Klicka på följande avsnitt för detaljerade instruktioner och exempel.

    • Dela upp rader: Använd det här alternativet om du bara vill dela upp data i två delar. Du kan ange procentandelen data som ska delas upp, men som standard är data uppdelade mellan 50 och 50.

      Du kan också slumpmässigt välja rader i varje grupp och använda stratifierad sampling. I stratifierad sampling måste du välja en enda kolumn med data för vilken du vill att värden ska fördelas jämnt mellan de två resultatdatauppsättningarna.

    • Dela upp rekommenderare: Välj alltid det här alternativet om du förbereder data för användning i ett rekommendationssystem. Det hjälper dig att dela in datauppsättningar i grupper för träning och testning samtidigt som du säkerställer att viktiga värden som användarobjektpar eller klassificeringar delas jämnt mellan grupperna.

    • Delning av reguljära uttryck: Välj det här alternativet om du vill dela upp datauppsättningen genom att testa en enda kolumn för ett värde.

      Om du till exempel analyserar sentiment kan du söka efter förekomsten av ett visst produktnamn i ett textfält och sedan dela upp datauppsättningen i rader med målproduktnamnet och de utan.

    • Relativ uttrycksdelning: Använd det här alternativet när du vill tillämpa ett villkor på en talkolumn. Talet kan vara ett datum-/tidsfält, en kolumn som innehåller belopp för ålder eller dollar eller till och med en procentandel. Du kanske till exempel vill dela upp datauppsättningen beroende på kostnaden för objekten, gruppera personer efter åldersintervall eller avgränsa data med ett kalenderdatum.

Krav

  • Dela data kan skapa högst två datauppsättningar i taget, och dessa uppsättningar måste vara exklusiva.

    Om du har en komplex delning med flera villkor och utdata kan du därför behöva länka samman flera Split Data-moduler .

    Du kan också använda en CASE-instruktion och modulen Tillämpa SQL Transformation.

  • Den här modulen tar inte bort data eller den från datauppsättningen. Den delar bara upp data som anges bland modulens första och andra utdata.

  • Att dela upp data för ett rekommendationssystem medför vissa ytterligare krav. I allmänhet kan datauppsättningen bara bestå av användarobjektpar eller trippelr med användarobjektklassificering. Därför kan inte modulen Dela data arbeta med datauppsättningar som har fler än tre kolumner för att undvika förvirring med data av funktionstyp. Om din datauppsättning innehåller för många kolumner kan du få det här felet:

    Fel 0022: Antalet valda kolumner i indatauppsättningen är inte lika med x

    Som en tillfällig lösning kan du använda Välj kolumner i datauppsättning för att ta bort vissa kolumner och sedan lägga till kolumnerna senare med hjälp av Lägg till kolumner. Om din datauppsättning har många funktioner som du vill använda i modellen kan du dela upp datauppsättningen med ett annat alternativ och träna modellen med hjälp av Träningsmodell i stället för Att träna Matchbox-rekommenderaren.

Exempel

Exempel på hur modulen Dela data används finns i Azure AI Gallery:

  • Korsvalidering för binär klassificering: Datauppsättning för vuxna: En samplingsfrekvens på 20 % används för att skapa en mindre slumpmässigt sampeldatamängd. (Den ursprungliga censusdatamängden hade över 30 000 rader. Träningsdatamängden har cirka 6 500). Datamängden rensas för saknade värden och skickas sedan till fem olika modeller för träning och korsvalidering.

Teknisk information

Följande krav gäller för all användning av delade data:

  • Indatauppsättningen måste innehålla minst två rader, annars utlöses ett fel.
  • Om du använder alternativet för att ange önskat antal rader måste det angivna talet vara ett positivt heltal och talet måste vara mindre än det totala antalet rader i datauppsättningen.
  • Om du anger ett tal i procent, eller om du använder en sträng som innehåller tecknet "%", tolkas värdet som en procentandel. Alla procentvärden måste vara inom intervallet (0, 100), utan värdena 0 och 100.
  • Om du anger ett tal eller en procentandel som är ett flyttal som är mindre än ett och du inte använder procentsymbolen (%) tolkas talet som ett proportionellt värde.
  • Om du använder alternativet för en stratifierad delning kan utdatauppsättningarna delas upp ytterligare med undergrupper genom att välja en strata-kolumn.

Förväntade indata

Namn Typ Description
Datamängd Datatabell Datauppsättning som ska delas

Modulparametrar

Namn Typ Intervall Valfritt Description Standardvärde
Delningsläge Delningsläge Dela upp rader, rekommenderardelning, reguljärt uttryck eller relativt uttryck Obligatorisk Dela upp rader Välj metod för att dela datauppsättningen

Utdata

Namn Typ Description
Resultatdatauppsättning1 Datatabell Datauppsättning som innehåller valda rader
Resultatdatauppsättning2 Datatabell Datauppsättning som innehåller alla andra rader

Se även

Exempel och delning
Partitionera och prova
A-Z-modullista