Een gegevensset splitsen met behulp van een relatieve expressie

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

In dit artikel wordt beschreven hoe u de optie Relatieve expressie splitsen gebruikt in de module Gegevens splitsen van Machine Learning Studio (klassiek). Deze optie is handig als u een gegevensset wilt verdelen over het trainen en testen van gegevenssets met behulp van een numerieke expressie. Bijvoorbeeld:

  • Leeftijd groter dan 40 versus 40 of jonger
  • Testscore van 60 of hoger versus minder dan 60
  • Rangschikkingswaarde van 1 versus alle andere waarden

Notitie

Van toepassing op: alleen Machine Learning Studio (klassiek)

Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in de Azure Machine Learning-ontwerpfunctie.

Als u uw gegevens wilt verdelen, kiest u één numerieke kolom in uw gegevens en definieert u een expressie die moet worden gebruikt bij het evalueren van elke rij. De relatieve expressie moet de kolomnaam, de waarde en een operator bevatten, zoals groter dan en kleiner dan, gelijk en niet gelijk aan.

Met deze optie verdeelt u de gegevensset in twee groepen.

Zie Gegevens splitsen en partitioneren en splitsen voor algemene informatie over gegevenspartitionering voor machine learning-experimenten.

Andere opties in de module Gegevens splitsen :

Een relatieve expressie gebruiken om een gegevensset te verdelen

  1. Voeg de module Gegevens splitsen toe aan uw experiment in Stuio en koppel deze als invoer aan de gegevensset die u wilt splitsen.

  2. Selecteer voor splitsmodusrelatieve expressiesplitsing.

  3. Typ in het tekstvak Relationele expressie een expressie waarmee een numerieke vergelijkingsbewerking wordt uitgevoerd op één kolom:

    • De kolom bevat getallen van elk numeriek gegevenstype, inclusief datum/tijd-gegevenstypen.

    • De expressie kan verwijzen naar maximaal één kolomnaam.

    • Gebruik het en-teken (&) voor de bewerking AND en gebruik het sluisteken (|) voor de BEWERKING OR.

    • De volgende operators worden ondersteund: <, >, <=, >=, , ==, !=

    • U kunt bewerkingen niet groeperen met behulp van ( en ).

    Zie de sectie Voorbeelden voor ideeën.

  4. Voer het experiment uit of klik met de rechtermuisknop op de module en selecteer Uitvoeren geselecteerd.

    De expressie verdeelt de gegevensset in twee sets rijen: rijen met waarden die voldoen aan de voorwaarde en alle resterende rijen.

    Als u aanvullende splitsbewerkingen wilt uitvoeren, kunt u een tweede exemplaar van *Split Data toevoegen of de module SQL-transformatie toepassen gebruiken en een CASE-instructie definiëren.

Voorbeelden van relatve-expressies

In de volgende voorbeelden ziet u hoe u een gegevensset deelt met behulp van de optie Relatieve expressie in de module Gegevens splitsen :

Kalenderjaar gebruiken

Een veelvoorkomend scenario is om een gegevensset te delen door jaren. Met de volgende expressie worden alle rijen geselecteerd waarin de waarden in de kolom Year groter zijn dan 2010.

\"Year" > 2010

De datumexpressie moet rekening houden met alle datumonderdelen die zijn opgenomen in de gegevenskolom en de notatie van datums in de gegevenskolom moet consistent zijn.

In een datumkolom met de notatie mmddyyyymoet de expressie er bijvoorbeeld ongeveer als volgt uitzien:

\"Date" > 1/1/2010

Kolomindexen gebruiken

De volgende expressie laat zien hoe u de kolomindex kunt gebruiken om alle rijen in de eerste kolom van de gegevensset te selecteren die waarden bevatten die kleiner zijn dan of gelijk zijn aan 30, maar niet gelijk aan 20.

(\0)<=30 & !=20

Samengestelde bewerking voor tijdwaarden met behulp van meerdere splitsingen

Stel dat u een tabel met logboekgegevens wilt splitsen om query's te groeperen die te lang worden uitgevoerd. U kunt de volgende relatieve expressie in de kolom , Elapsedgebruiken om de query's op te halen die meer dan 1 minuut zijn uitgevoerd.

\"Elapsed" >00:01:00

Als u de query's wilt ophalen met reactietijden van minder dan één minuut, maar meer dan 30 seconden, voegt u nog een exemplaar van Gegevens splitsen toe aan de uitvoer aan de rechterkant en gebruikt u een expressie zoals deze:

\"Elapsed" <:00:01:00 & >00:00:30

Gegevensset splitsen op datumwaarden

Met de volgende relatieve expressie wordt de gegevensset gedeeld met behulp van de datumwaarden in de kolom dt1.

\"dt1" > 10-08-2015

Rijen met een datum groter dan 10-08-2015 worden toegevoegd aan de eerste uitvoergegevensset (links).

Rijen met een datum van 10-08-2015 of eerder worden toegevoegd aan de tweede uitvoergegevensset (rechts).

Technische opmerkingen

Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.

Beperkingen

De volgende beperkingen zijn van toepassing op relatieve expressies in een gegevensset:

  • Relatieve expressies kunnen alleen worden toegepast op numerieke gegevenstypen en datum/tijd-gegevenstypen.
  • Relatieve expressies kunnen verwijzen naar maximaal één kolomnaam.
  • Gebruik het en-teken (&) voor de bewerking AND en het sluisteken (|) voor de bewerking OR.
  • De volgende operators zijn toegestaan voor relatieve expressies: <, >, <=, >=, , ==!=
  • Het groeperen van bewerkingen tussen haakjes wordt niet ondersteund.

Zie ook

Voorbeeld en splitsen
Partitie en voorbeeld