Gegevens transformatie-voor beeld en splitsing

In dit artikel worden de modules in Azure Machine Learning Studio (klassiek) beschreven die u kunt gebruiken voor het partitioneren of bemonsteren van gegevens.

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Splitsings-en sampling gegevens sets zijn beide belang rijke taken in machine learning. Het is bijvoorbeeld een gang bare manier om gegevens te verdelen in trainings-en test sets om u te helpen een model te evalueren in een evaluatie-gegevensset. Steek proeven zijn ook steeds belang rijker in het tijd perk van big data, om ervoor te zorgen dat er sprake is van een billijke verdeling van klassen in uw trainings gegevens. Met steek proeven kunt u er ook voor zorgen dat u niet meer gegevens verwerkt dan u nodig hebt.

U kunt Machine Learning Studio (klassieke) modules gebruiken om de manier waarop u gegevens sets wilt splitsen of te bemonsteren, aan te passen:

  • Trainings gegevens filteren op basis van een kenmerk in de gegevens.
  • Voer stratified-steek proeven uit om de klassen variabele gelijkmatig te verdelen over n aantal groepen.
  • Deel de bron gegevens op in een training en test gegevensset met behulp van een aangepaste verhouding.
  • Reguliere expressies Toep assen op de gegevens om ongeldige waarden uit te filteren.

De juiste bewerking kiezen: splitsen of steek proef

Machine Learning Studio (klassiek) biedt twee modules waarmee taken worden ingekapseld. De modules klinken op vergelijk bare wijze, maar ze hebben verschillende gebruik en bieden complementaire functionaliteit. Waarschijnlijk gebruikt u beide modules in een experiment om de juiste hoeveelheid en de juiste combi natie van gegevens te verkrijgen.

Vervolgens vergelijken we de module voor het splitsen van gegevens en de module partitie en voor beeld door te zien voor welke taken elke module veelvuldig wordt gebruikt.

Gebruik van de module Split data

  • Gegevens in twee groepen delen. Gebruik de module Split data . De module produceert precies twee Splits van de gegevens. U kunt de voor waarde opgeven waaronder de gegevens worden gesplitst en het gedeelte van de gegevens dat in elke subset moet worden geplaatst. Met Split-data worden altijd de subset van gegevens opgeslagen die niet aan de voor waarden voldoet.
  • Label waarden gelijk aan gegevens sets toewijzen. De optie voor het Stratify van een opgegeven kolom wordt door beide modules ondersteund. Als u echter twee gegevens sets wilt maken en meestal ge├»nteresseerd bent in de kolom Label, is de module Split data een snelle oplossing.

Voor beeld van het gebruik van de module Split data

Stel dat u een zeer grote gegevensset uit een CSV-bestand hebt geïmporteerd. De gegevensset bevat demografische gegevens van klanten. U wilt verschillende modellen voor klanten in verschillende landen maken, dus u besluit de gegevens te splitsen door de waarde van de kolom te gebruiken Country-Region . Hier volgen de stappen die u moet ondernemen om deze taak uit te voeren:

  1. Voeg de module Split data toe en geef vervolgens een expressie op voor het Country-Region veld. De rest van de gegevens is beschikbaar op de secundaire uitvoer.
  2. Voeg nog een exemplaar van de module Split data toe.
  3. Herhaal stap 1 en 2. Geef voor elke herhaling een ander land op in de expressie.

In de module Split data worden reguliere expressies, voor tekst gegevens en relatieve expressies, voor numerieke gegevens ondersteund.

De module Split data biedt ook geavanceerde functionaliteit die u kunt gebruiken om speciale gegevens sets te delen. Gebruik de functionaliteit voor het maken van aanbevelings modellen en voor het genereren van voor spellingen.

Gebruik van de partitie en de voorbeeld module

  • Steek proeven. Gebruik altijd de module Partition en sample . De module biedt meerdere aanpas bare bemonsterings methoden, waaronder verschillende opties voor stratified-steek proeven.
  • Cases toewijzen aan meerdere groepen. Gebruik de opties toewijzen aan vouwen of kiezen in de module partitie en voor beeld .
  • Retourneert slechts een subset van de gegevens. Gebruik de module Partition en sample . De module geeft u de opgegeven subset op de primaire uitvoer. De resterende gegevens zijn beschikbaar op een secundaire uitvoer.
  • Alleen de bovenste 2.000 rijen van een gegevensset ophalen. Gebruik de module Partition en sample . Selecteer de optie Head . Dit is met name handig wanneer u een nieuw experiment test en een korte proef versie van een werk stroom wilt uitvoeren.

Voor beeld van het gebruik van de partitie en de voorbeeld module

De partitie en de voorbeeld module kunnen meerdere partities van de gegevens genereren, niet alleen twee. Op hetzelfde moment kan het verschillende steekproef bewerkingen uitvoeren.

Stel bijvoorbeeld dat u slechts 10 procent van uw gegevens nodig hebt, terwijl u ervoor zorgt dat de distributie van het doel kenmerk hetzelfde is als in de bron gegevens. Hier volgen de stappen die u moet ondernemen om deze taak uit te voeren:

  1. Voeg de partitie en de voorbeeld module toe.
  2. Kies de sampling modus en geef vervolgens 10% op.
  3. Selecteer de bemonsterings optie stratified en kies vervolgens de kolom die het doel kenmerk bevat.

Als u niet alle gegevens hoeft te hand haven, gebruikt u de module Partition en sample . De resterende gegevens zijn nog steeds aanwezig in de werk ruimte, maar hoeven niet verder te worden verwerkt als onderdeel van het experiment.

  • Verhoog het aantal zeldzame gevallen in een voor beeld of herverdeling van de cases voor een doel waarde: gebruik de SMOTE -module.
  • Een driedimensionale verlaging uitvoeren door de combi natie van functies te zoeken die het beste de gegevens ruimte weergeeft: gebruik de module Principal component Analysis .
  • Compacte functies maken op basis van een analyse van functies en aantallen: gebruik de module Learning with counts .
  • Een weer gave of projectie maken met behulp van alleen de opgegeven kolommen; kolommen in een gegevensset verwijderen of verbergen: gebruik de modules kolommen selecteren in gegevensset en SQL-trans formatie Toep assen .
  • Complexere gegevens filters, groeperingen of trans formaties Toep assen: gebruik het script voor het uitvoeren van R en pas SQL-transformatie modules toe .

Lijst met modules

Deze categorie bevat de volgende modules:

  • Partitie en voor beeld: maakt meerdere partities van een gegevensset op basis van steek proeven.
  • Gegevens splitsen: Hiermee worden de rijen van een gegevensset gepartitioneerd in twee afzonderlijke sets.

Zie ook