Gegevens splitsen

Hiermee worden de rijen van een gegevensset gepartitioneerd in twee verschillende sets

Categorie: gegevens transformatie/voor beeld en splitsen

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit onderwerp wordt beschreven hoe u de module gegevens splitsen in azure machine learning Studio (klassiek) gebruikt om een gegevensset te verdelen in twee verschillende sets.

Deze module is vooral nuttig wanneer u gegevens moet scheiden in trainings-en test sets. U kunt de manier aanpassen waarop gegevens ook worden gedeeld. Sommige opties ondersteunen het wille keurig maken van gegevens; andere zijn aangepast aan een bepaald gegevens type of model type.

Gesplitste gegevens configureren

Tip

Voordat u de Splits modus kiest, moet u alle opties lezen om te bepalen welk type splitsing u nodig hebt. Als u de Splits modus wijzigt, kunnen alle andere opties opnieuw worden ingesteld.

  1. Voeg de module gegevens splitsen toe aan uw experiment in Studio. U kunt deze module vinden onder gegevens transformatiein de categorie voor Beeld en splitsen .

  2. Splits modus: Kies een van de volgende modi, afhankelijk van het type gegevens dat u hebt, en hoe u deze wilt delen. Elke Splits modus heeft verschillende opties. Klik op de volgende onderwerpen voor gedetailleerde instructies en voor beelden.

    • Rijen splitsen: gebruik deze optie als u de gegevens wilt splitsen in twee delen. U kunt opgeven welk percentage van de gegevens in elke splitsing moet worden geplaatst, maar standaard worden de gegevens gedeeld 50-50.

      U kunt ook de selectie van rijen in elke groep wille keurig opwaarderen en stratified-steek proeven gebruiken. In stratified-steek proeven moet u één kolom met gegevens selecteren waarvoor u wilt dat waarden gelijkmatig worden verdeeld over de twee resultaat gegevens sets.

    • Aanbeveling splitsen: Kies deze optie altijd als u gegevens voorbereidt voor gebruik in een aanbevolen systeem. Het helpt u bij het verdelen van gegevens sets in trainings-en test groepen, terwijl u ervoor zorgt dat belang rijke waarden, zoals gebruikers-of classificatie-items, gelijkmatig over de groepen worden verdeeld.

    • Gesplitste expressie: Kies deze optie als u de gegevensset wilt verdelen door één kolom te testen op een waarde.

      Als u bijvoorbeeld sentiment analyseert, kunt u op de aanwezigheid van een bepaalde product naam in een tekst veld controleren en vervolgens de gegevensset onderverdelen in rijen met de doel product naam en die zonder.

    • Relatieve expressie splitsen: gebruik deze optie wanneer u een voor waarde op een kolom getal wilt Toep assen. Het getal kan een datum/tijd-veld, een kolom met leeftijds-of dollar bedragen of zelfs een percentage zijn. Stel dat u uw gegevensset wilt delen, afhankelijk van de kosten van de items, het groeperen van personen op leeftijds bereiken of het scheiden van gegevens op basis van een kalender datum.

Vereisten

  • Gesplitste gegevens kunnen Maxi maal twee gegevens sets tegelijk maken en deze sets moeten exclusief zijn.

    Als u een complexe splitsing met meerdere voor waarden en uitvoer hebt, moet u daarom mogelijk meerdere Splits-gegevens modules koppelen.

    U kunt ook een aanvraag instructie en de module SQL- trans formatie Toep assen gebruiken.

  • Deze module verwijdert geen gegevens of verwijdert deze uit de gegevensset. de gegevens worden net zo verdeeld als de eerste en tweede uitvoer van de module.

  • Het splitsen van gegevens voor een aanbevolen systeem omvat een aantal aanvullende vereisten. In het algemeen kan de gegevensset alleen bestaan uit gebruikers-of beoordelings gegevens van gebruikers items. Daarom kan de module Splits data niet werken met gegevens sets die meer dan drie kolommen hebben, om Verwar ring met gegevens van het type functie te voor komen. Als uw gegevensset te veel kolommen bevat, kan deze fout optreden:

    Fout 0022: het aantal geselecteerde kolommen in de invoer-gegevensset is niet gelijk aan x

    Als tijdelijke oplossing kunt u select columns in dataset gebruiken om een aantal kolommen te verwijderen en de kolommen later toevoegen met behulp van kolommen toevoegen. Als uw gegevensset beschikt over veel functies die u in het model wilt gebruiken, verdeelt u de gegevensset met een andere optie en traint u het model met behulp van Train model in plaats van Train matchbox adviseerer.

Voorbeelden

Voor voor beelden van de manier waarop de module Split data wordt gebruikt, raadpleegt u de Azure AI Gallery:

  • Kruis validatie voor binaire classificatie: volwassen gegevensset: er wordt een sample frequentie van 20% toegepast om een kleinere, wille keurige gegevensset te maken. (De oorspronkelijke telling gegevensset had meer dan 30.000 rijen. de trainings gegevensset heeft ongeveer 6500). De gegevensset wordt opgeschoond voor ontbrekende waarden en vervolgens door gegeven aan vijf verschillende modellen voor training en kruis validatie.

Technische opmerkingen

De volgende vereisten zijn van toepassing op alle toepassingen van gesplitste gegevens:

  • De invoer gegevensset moet ten minste twee rijen bevatten, anders wordt er een fout gegenereerd.
  • Als u de optie gebruikt om het gewenste aantal rijen op te geven, moet het opgegeven getal een positief geheel getal zijn en moet het getal kleiner zijn dan het totale aantal rijen in de gegevensset.
  • Als u een getal opgeeft als percentage of als u een teken reeks gebruikt die het teken '% ' bevat, wordt de waarde geïnterpreteerd als een percentage. Alle percentage waarden moeten binnen het bereik (0, 100) vallen, exclusief de waarden 0 en 100.
  • Als u een getal of percentage opgeeft dat kleiner is dan een getal, en u het procent teken (%) niet gebruikt, wordt het getal geïnterpreteerd als een proportionele waarde.
  • Als u de optie voor een stratified-splitsing gebruikt, kunnen de uitvoer gegevens sets verder worden gedeeld door subgroepen door een Strata-kolom te selecteren.

Verwachte invoer

Naam Type Beschrijving
Gegevensset Gegevens tabel Te splitsen gegevensset

Module parameters

Naam Type Bereik Optioneel Beschrijving Standaard
Splits modus Splits modus Rijen splitsen, voor raden splitsen, reguliere expressie of relatieve expressie Vereist Rijen splitsen De methode voor het splitsen van de gegevensset kiezen

Outputs

Naam Type Beschrijving
Dataset1 resultaten Gegevens tabel Gegevensset die geselecteerde rijen bevat
Dataset2 resultaten Gegevens tabel Gegevensset die alle andere rijen bevat

Zie ook

Voor beeld en splitsing
Partitie en voor beeld
Module lijst a-Z