Gegevens splitsen met behulp van rijen splitsen

In dit artikel wordt beschreven hoe u de optie rijen splitsen gebruikt in de module split data van Azure machine learning Studio (klassiek). Deze optie is vooral handig wanneer u gegevens sets wilt verdelen die worden gebruikt voor training en testen, hetzij wille keurig, hetzij door bepaalde criteria.

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

De optie rijen splitsen ondersteunt zowel wille keurig als stratified-splitsingen. U kunt bijvoorbeeld een 70-30-splitsing opgeven, of een 10-90 splitsen met de doel variabele die gelijk wordt weer gegeven in beide gegevens sets.

Zie gegevens splitsen en partitioneren en splitsenvoor algemene informatie over het partitioneren van gegevens voor machine learning experimenten.

Andere opties in de module Split data ondersteunen verschillende manieren om de gegevens te delen:

Een gegevensset in twee groepen delen

  1. Voeg de module gegevens splitsen toe aan uw experiment in Studio (klassiek) en verbind de gegevensset die u wilt splitsen.

  2. Voor de Splits moduskiest u rijen splitsen.

  3. Het gedeelte van de rijen in de eerste uitvoer gegevensset. Gebruik deze optie om te bepalen hoeveel rijen de eerste (linkse) uitvoer gaan gebruiken. Alle andere rijen gaan naar de tweede uitvoer (rechts).

    De ratio vertegenwoordigt het percentage rijen dat wordt verzonden naar de eerste uitvoer gegevensset, dus u moet een decimaal getal tussen 0 en 1 invoeren.

    Als u bijvoorbeeld 0,75 typt als de waarde, zou de gegevensset moeten worden gesplitst met behulp van een 75:25-verhouding, met 75% van de rijen die worden verzonden naar de eerste uitvoer gegevensset en 25% naar de tweede uitvoer gegevensset wordt verzonden.

  4. Selecteer de optie wille keurig splitsen als u selectie van gegevens wilt wille keurig in de twee groepen. Dit is de voorkeurs optie bij het maken van gegevens sets voor training en testen.

  5. Wille keurige Seed: Typ een niet-negatief geheel getal om de Pseudorandom-volg orde van de exemplaren die moeten worden gebruikt, te initialiseren. Deze standaard seeding wordt gebruikt in alle modules die wille keurige getallen genereren.

    Als u een Seed opgeeft, worden de resultaten doorgaans reproduceerbaar. Als u de resultaten van een splits bewerking moet herhalen, moet u een Seed opgeven voor de generator van wille keurige getallen. Anders wordt de wille keurige Seed standaard ingesteld op 0, wat betekent dat de initiële seedwaarde wordt opgehaald uit de systeem klok. Als gevolg hiervan kan de verdeling van gegevens enigszins verschillen telkens wanneer u een splitsing uitvoert.

  6. Stratified splitsen: Stel deze optie in op True om ervoor te zorgen dat de twee uitvoer gegevens sets een representatief voor beeld bevatten van de waarden in de kolom Strata of de tabel stratificatie sleutel.

    Met stratified-steek proeven worden de gegevens zo verdeeld dat elke uitvoer gegevensset ongeveer hetzelfde percentage van elke doel waarde ophaalt. U kunt er bijvoorbeeld voor zorgen dat uw trainings-en test sets ongeveer worden gesaldeerd met betrekking tot de uitkomst of met betrekking tot een andere kolom, zoals gender.

  7. Voer het experiment uit of klik met de rechter muisknop op de module en selecteer geselecteerde uitvoeren.

Voorbeelden

De volgende voor beelden laten zien hoe u eenvoudige splitsingen kunt uitvoeren met de modus splitsen op rijen .

Splitsen in twee gelijke delen

Voeg de module Split data toe na de gegevensset zonder andere wijzigingen. Standaard splitst de module de gegevensset in twee gelijke delen. Voor gegevens met een oneven aantal rijen krijgt de tweede uitvoer het restant.

Splitsen in derden

Stel dat u een gegevensset wilt splitsen in twee delen, met een derde van de gegevens die worden gebruikt voor de training en het restant voor het testen of extra splitsen.

U doet dit door een Splits gegevens module toe te voegen en het gedeelte van de rijen in de eerste uitvoer in te stellen op 0,33. De tweede uitvoer bevat de overige twee derde.

Als u de tweede uitvoer wilt delen in gelijke delen, voegt u nog een exemplaar van de module Split data toe en gebruikt u deze keer de standaard waarde voor een 50-50-splitsing.

Technische opmerkingen

Deze sectie bevat implementatie details, tips en antwoorden op veelgestelde vragen.

Implementatie Details

  • Voor deze module moet de gegevensset ten minste twee rijen bevatten. anders wordt er een fout gegenereerd.

  • Als u de optie gebruikt om het gewenste aantal rijen op te geven, moet het opgegeven getal een positief geheel getal zijn en moet het getal kleiner zijn dan het totale aantal rijen in de gegevensset.

  • Alle percentage waarden moeten binnen het bereik van 0 en 1 liggen.

  • Als u een getal of percentage opgeeft als een getal met een drijvende komma kleiner dan een, en u het procent teken (%) niet gebruikt, wordt het getal geïnterpreteerd als een proportionele waarde.

Aanvullende vereisten voor stratified-steek proeven

  • De kolom Strata kan alleen nominale of categorische gegevens bevatten. Als de kolom doorlopende numerieke gegevens bevat, wordt er een fout bericht weer gegeven.

  • Een kolom met te veel unieke waarden is geen goede kandidaat voor stratificatie. U kunt eventueel enkele categorieën samen vouwen of waarden groeperen.

Zie ook

Voor Beeld en gesplitste partitie en voor beeld