Een gegevensset splitsen met een relatieve expressie

In dit artikel wordt beschreven hoe u de relatieve expressie Split -optie gebruikt in de module split data van Azure machine learning Studio (klassiek). Deze optie is handig als u een gegevensset wilt splitsen in trainings-en test gegevens sets met behulp van een numerieke expressie. Bijvoorbeeld:

  • Leeftijd groter dan 40 vs. 40 of jongere
  • Test Score van 60 of hoger ten opzichte van minder dan 60
  • Rang waarde van 1 vs. alle andere waarden

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Als u uw gegevens wilt delen, kiest u één numerieke kolom in uw gegevens en definieert u een expressie die moet worden gebruikt bij het evalueren van elke rij. De relatieve expressie moet de kolom naam, de waarde en een operator bevatten, zoals groter dan en kleiner dan of gelijk aan.

Met deze optie wordt de gegevensset in twee groepen verdeeld.

Zie gegevens splitsen en partitioneren en splitsenvoor algemene informatie over het partitioneren van gegevens voor machine learning experimenten.

Andere opties in de module Split data :

Een relatieve expressie gebruiken om een gegevensset te verdelen

  1. Voeg de module gegevens splitsen toe aan uw experiment in Stuio en verbind deze als invoer met de gegevensset die u wilt splitsen.

  2. Voor de Splits modusselecteert u relatieve expressie splitsen.

  3. Typ in het tekstvak relationele expressie een expressie die een numerieke vergelijking bewerking uitvoert op één kolom:

    • De kolom bevat getallen van elk numeriek gegevens type, met inbegrip van de datum/tijd-gegevens typen.

    • De expressie kan naar Maxi maal één kolom naam verwijzen.

    • Gebruik het ampersand teken (&) voor de en-bewerking en gebruik het sluis teken (|) voor de OR-bewerking.

    • De volgende Opera tors worden ondersteund: < , > ,,, <= >= == , !=

    • U kunt geen bewerkingen groeperen met behulp van ( en ) .

    Zie de sectie voor beelden voor ideeën.

  4. Voer het experiment uit of klik met de rechter muisknop op de module en selecteer geselecteerde uitvoeren.

    De expressie splitst de gegevensset in twee sets rijen: rijen met waarden die voldoen aan de voor waarde en alle resterende rijen.

    Als u extra Split-bewerkingen moet uitvoeren, kunt u een tweede exemplaar van **gesplitste gegevens*toevoegen, of de module SQL-trans formatie Toep assen gebruiken en een instructie case definiëren.

Voor beelden van relatve-expressies

De volgende voor beelden laten zien hoe u een gegevensset kunt verdelen met behulp van de relatieve expressie optie in de module Split data :

Kalender jaar gebruiken

Een veelvoorkomend scenario is het verdelen van een gegevensset per jaar. Met de volgende expressie worden alle rijen geselecteerd waarvan de waarden in de kolom Year groter zijn dan 2010 .

\"Year" > 2010

De datum expressie moet account voor alle datum onderdelen die zijn opgenomen in de gegevens kolom en de notatie van de datums in de gegevens kolom moet consistent zijn.

In een kolom date met de notatie mmddyyyy moet de expressie er bijvoorbeeld als volgt uitzien:

\"Date" > 1/1/2010

Kolom indices gebruiken

De volgende expressie laat zien hoe u de kolom index kunt gebruiken om alle rijen in de eerste kolom van de gegevensset te selecteren die waarden bevatten die kleiner zijn dan of gelijk zijn aan 30, maar niet gelijk aan 20.

(\0)<=30 & !=20

Samengestelde bewerking op tijd waarden met behulp van meerdere splitsingen

Stel dat u een tabel met logboek gegevens wilt splitsen voor het groeperen van query's die te lang worden uitgevoerd. U kunt de volgende relatieve expressie gebruiken voor de kolom, Elapsed om de query's op te halen die meer dan 1 minuut hebben uitgevoerd.

\"Elapsed" >00:01:00

Als u de query's met reactie tijden wilt ophalen die meer dan 30 seconden duren, voegt u een andere instantie van gesplitste gegevens toe aan de rechter uitvoer en gebruikt u een expressie als volgt:

\"Elapsed" <:00:01:00 & >00:00:30

Gegevensset op datum waarden splitsen

De volgende relatieve expressie verdeelt de gegevensset met behulp van de datum waarden in de kolom dt1 .

\"dt1" > 10-08-2015

Rijen met een datum die groter is dan 10-08-2015 worden toegevoegd aan de eerste (links) uitvoer gegevensset.

Rijen met een datum van 10-08-2015 of eerder worden toegevoegd aan de tweede uitvoer gegevensset (rechts).

Technische opmerkingen

Deze sectie bevat implementatie details, tips en antwoorden op veelgestelde vragen.

Beperkingen

De volgende beperkingen zijn van toepassing op relatieve expressies voor een gegevensset:

  • Relatieve expressies kunnen alleen worden toegepast op numerieke gegevens typen en datum/tijd-gegevens typen.
  • Relatieve expressies kunnen verwijzen naar Maxi maal één kolom naam.
  • Gebruik het ampersand teken (&) voor de bewerking en en het sluis teken (|) voor de OR-bewerking.
  • De volgende Opera tors zijn toegestaan voor relatieve expressies: < , > ,,, <= >= == , !=
  • Groeperings bewerkingen met haakjes worden niet ondersteund.

Zie ook

Voor beeld en splitsing
Partitie en voorbeeld