Dela en datauppsättning med ett relativt uttryck

Viktigt

Stödet för Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du byter till Azure Machine Learning innan dess.

Från och med den 1 december 2021 kan du inte längre skapa nya Machine Learning Studio-resurser (klassisk). Du kan fortsätta att använda befintliga Machine Learning Studio-resurser (klassisk) till och med den 31 augusti 2024.

Dokumentationen om ML Studio (klassisk) håller på att dras tillbaka och kanske inte uppdateras i framtiden.

Den här artikeln beskriver hur du använder alternativet Relativ uttrycksdelning i modulen Dela data i Machine Learning Studio (klassisk). Det här alternativet är användbart när du behöver dela upp en datauppsättning i tränings- och testningsdatauppsättningar med hjälp av ett numeriskt uttryck. Exempel:

  • Ålder större än 40 jämfört med 40 år eller yngre
  • Testpoäng på 60 eller högre jämfört med mindre än 60
  • Rangvärde 1 jämfört med alla andra värden

Anteckning

Gäller endast för: Machine Learning Studio ( klassisk)

Liknande dra och släpp-moduler finns i Azure Machine Learning-designern.

Om du vill dela upp dina data väljer du en enda numerisk kolumn i dina data och definierar ett uttryck som ska användas för att utvärdera varje rad. Det relativa uttrycket måste innehålla kolumnnamnet, värdet och en operator, till exempel större än och mindre än, lika med och inte lika med.

Det här alternativet delar upp datauppsättningen i två grupper.

Allmän information om datapartitionering för maskininlärningsexperiment finns i Dela upp data och partitionera och dela.

Andra alternativ i modulen Dela data :

Använda ett relativt uttryck för att dela upp en datauppsättning

  1. Lägg till modulen Dela data i experimentet i Stuio och anslut den som indata till den datauppsättning som du vill dela upp.

  2. För Delningsläge väljer du relativ uttrycksdelning.

  3. I textrutan Relationsuttryck skriver du ett uttryck som utför en numerisk jämförelseåtgärd i en enda kolumn:

    • Kolumnen innehåller tal av valfri numerisk datatyp, inklusive datatyper för datum/tid.

    • Uttrycket kan referera till högst ett kolumnnamn.

    • Använd et-tecknet (&) för AND-åtgärden och använd pipe-tecknet (|) för OR-åtgärden.

    • Följande operatorer stöds: <, >, <=, >=, , ==!=

    • Du kan inte gruppera åtgärder med hjälp ( av och ).

    Idéer finns i avsnittet Exempel .

  4. Kör experimentet eller högerklicka på modulen och välj Kör valt.

    Uttrycket delar upp datauppsättningen i två uppsättningar rader: rader med värden som uppfyller villkoret och alla återstående rader.

    Om du behöver utföra ytterligare delade åtgärder kan du antingen lägga till en andra instans av *Split Data eller använda modulen Tillämpa SQL-transformering och definiera en CASE-instruktion.

Exempel på relatveuttryck

Följande exempel visar hur du delar upp en datamängd med hjälp av alternativet Relativt uttryck i modulen Dela data :

Använda kalenderår

Ett vanligt scenario är att dela upp en datauppsättning med år. Följande uttryck markerar alla rader där värdena i kolumnen Year är större än 2010.

\"Year" > 2010

Datumuttrycket måste ta hänsyn till alla datumdelar som ingår i datakolumnen, och datumformatet i datakolumnen måste vara konsekvent.

I en datumkolumn med formatet mmddyyyyska uttrycket till exempel vara ungefär så här:

\"Date" > 1/1/2010

Använda kolumnindex

Följande uttryck visar hur du kan använda kolumnindexet för att markera alla rader i den första kolumnen i datauppsättningen som innehåller värden som är mindre än eller lika med 30, men inte lika med 20.

(\0)<=30 & !=20

Sammansatt åtgärd i tidsvärden med flera delningar

Anta att du vill dela en tabell med loggdata för att gruppera frågor som körs för länge. Du kan använda följande relativa uttryck i kolumnen , Elapsedför att hämta de frågor som kördes under 1 minut.

\"Elapsed" >00:01:00

Om du vill hämta frågor med svarstider under en minut men mer än 30 sekunder lägger du till ytterligare en instans av Dela data till högerutdata och använder ett uttryck som detta:

\"Elapsed" <:00:01:00 & >00:00:30

Dela upp datamängd på datumvärden

Följande relativa uttryck delar datauppsättningen med hjälp av datumvärdena i kolumnen dt1.

\"dt1" > 10-08-2015

Rader med ett datum större än 10-08-2015 läggs till i den första (vänstra) utdatauppsättningen.

Rader med datumet 10-08-2015 eller tidigare läggs till i den andra (högra) utdatauppsättningen.

Tekniska anteckningar

Det här avsnittet innehåller implementeringsinformation, tips och svar på vanliga frågor.

Begränsningar

Följande begränsningar gäller för relativa uttryck i en datauppsättning:

  • Relativa uttryck kan endast tillämpas på numeriska datatyper och datatyper för datum/tid.
  • Relativa uttryck kan referera till högst ett kolumnnamn.
  • Använd et-tecknet (&) för AND-åtgärden och pipe-tecknet (|) för OR-åtgärden.
  • Följande operatorer tillåts för relativa uttryck: <, >, <=, >=, , ==!=
  • Grupperingsåtgärder med parenteser stöds inte.

Se även

Exempel och delning
Partitionera och prova