Dela data

Partitionerar raderna i en data uppsättning i två distinkta uppsättningar

Kategori: data omvandling/exempel och delning

Anteckning

Gäller för: Machine Learning Studio (klassisk)

Det här innehållet gäller endast Studio (klassisk). Liknande dra-och släpp moduler har lagts till i Azure Machine Learning designer. Mer information i den här artikeln är att jämföra de två versionerna.

Översikt över modul

I det här avsnittet beskrivs hur du använder modulen dela data i Azure Machine Learning Studio (klassisk) för att dela upp en data uppsättning i två distinkta mängder.

Den här modulen är särskilt användbar när du behöver separera data i utbildning och testnings uppsättningar. Du kan anpassa hur data delas upp. Vissa alternativ stöder slumpmässig data, andra skräddarsys för en viss datatyp eller modell typ.

Så här konfigurerar du delade data

Tips

Innan du väljer delnings läget kan du läsa alla alternativ för att avgöra vilken typ av delning du behöver. Om du ändrar delnings läget kan alla andra alternativ återställas.

  1. Lägg till modulen dela data i din experiment i Studio. Du hittar den här modulen under data omvandling, i kategorin exempel och Split .

  2. Delnings läge: Välj något av följande lägen, beroende på vilken typ av data du har och hur du vill dela upp det. Varje delnings läge har olika alternativ. Klicka på följande avsnitt om du vill ha detaljerade instruktioner och exempel.

    • Dela rader: Använd det här alternativet om du bara vill dela upp data i två delar. Du kan ange den procent andel av data som ska placeras i varje delning, men som standard delas data upp 50-50.

      Du kan också göra en slumpmässig markering av rader i varje grupp och använda Stratified-sampling. I Stratified-sampling måste du välja en enskild kolumn med data för vilka du vill att värden ska fördelas lika mellan de två resultat data uppsättningarna.

    • Rekommendations delning: Välj alltid det här alternativet om du förbereder data för användning i ett rekommenderat system. Det hjälper dig att dela upp data uppsättningar i utbildnings-och test grupper samtidigt som du ser till att viktiga värden som användar objekts par eller klassificeringar jämnt delas mellan grupperna.

    • Delning av reguljära uttryck: Välj det här alternativet om du vill dela upp data uppsättningen genom att testa en enskild kolumn för ett värde.

      Om du till exempel analyserar sentiment kan du kontrol lera om det finns ett visst produkt namn i ett textfält och sedan dela upp data uppsättningen i rader med mål produktens namn och de utan.

    • Delning av relativt uttryck: Använd det här alternativet när du vill tillämpa ett villkor för en tal kolumn. Talet kan vara ett datum/tid-fält, en kolumn som innehåller ålders-eller dollar belopp eller till och med en procent andel. Du kanske t. ex. vill dela upp din data uppsättning beroende på kostnaden för objekten, gruppera personer efter ålders intervall eller dela data efter kalender datum.

Krav

  • Delade data kan skapa högst två uppsättningar av data uppsättningar i taget, och dessa uppsättningar måste vara exklusiva.

    Om du däremot har en komplex delning med flera villkor och utdata kan du behöva kedja samman flera moduler för delade data .

    Du kan också använda en CASE-instruktion och modulen tillämpa SQL-omvandling .

  • Den här modulen tar inte bort data eller tar bort den från data uppsättningen. den delar bara in data enligt vad som anges i modulens första och andra utdata.

  • Att dela upp data för ett rekommenderat system medför ytterligare krav. I allmänhet kan data uppsättningen endast bestå av användar objekts par eller användar objekt – betyget tredubbla. Därför fungerar inte modulen dela data på data uppsättningar som har fler än tre kolumner för att undvika förvirring med funktions typs data. Om din data uppsättning innehåller för många kolumner kan du få följande fel meddelande:

    Fel 0022: antalet markerade kolumner i indata-datamängden är inte lika med x

    Som en lösning kan du använda Välj kolumner i data uppsättning för att ta bort några kolumner och sedan lägga till kolumner senare med hjälp av Lägg till kolumner. Alternativt, om din data uppsättning har många funktioner som du vill använda i modellen, delar du upp data uppsättningen med ett annat alternativ och tränar modellen med träna modell i stället för att träna matchbox-rekommendation.

Exempel

Exempel på hur modulen dela data används finns i Azure AI Gallery:

  • Kors validering för binär klassificering: vuxen data uppsättning: en samplings frekvens på 20% används för att skapa en mindre slumpmässigt insamlings data uppsättning. (Den ursprungliga data uppsättningen hade över 30 000 rader. inlärnings data uppsättningen har cirka 6500). Data uppsättningen rensas för saknade värden och skickas sedan till fem olika modeller för utbildning och kors validering.

Tekniska anteckningar

Följande krav gäller för all användning av delade data:

  • Data uppsättningen för indata måste innehålla minst två rader, annars genereras ett fel.
  • Om du använder alternativet för att ange önskat antal rader, måste det angivna antalet vara ett positivt heltal och talet måste vara mindre än det totala antalet rader i data uppsättningen.
  • Om du anger ett tal i procent, eller om du använder en sträng som innehåller "%"-tecken, tolkas värdet som en procent andel. Alla procent värden måste vara inom intervallet (0, 100), inte inklusive värdena 0 och 100.
  • Om du anger ett tal eller en procents ATS som är ett flytt ALS nummer som är mindre än ett, och du inte använder symbolen för procent (%) tolkas talet som ett proportionellt värde.
  • Om du använder alternativet för en Stratified delning kan data uppsättningarna för utdata delas ytterligare genom under grupper genom att välja en Strata-kolumn.

Förväntade indata

Namn Typ Beskrivning
Datamängd Data tabell Data uppsättning att dela

Parametrar för modul

Namn Typ Intervall Valfritt Beskrivning Standardvärde
Delnings läge Delat läge Dela rader, rekommenderat delat, reguljärt uttryck eller relativt uttryck Obligatorisk Dela rader Välj metod för att dela data uppsättningen

Utdata

Namn Typ Beskrivning
Resultat DataSet1 Data tabell Data uppsättning som innehåller markerade rader
Resultat DataSet2 Data tabell Data uppsättning som innehåller alla andra rader

Se även

Exempel och delning
Partition och exempel
En-ö-modul lista