Partitie en voorbeeld

Belangrijk

De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.

De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.

Hiermee maakt u meerdere partities van een gegevensset op basis van steekproeven

Categorie: Gegevenstransformatie/ Voorbeeld en splitsen

Notitie

Van toepassing op: Machine Learning Studio (klassiek)

Vergelijkbare modules met slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.

Moduleoverzicht

In dit artikel wordt beschreven hoe u de module Partition and Sample in Machine Learning Studio (klassiek) gebruikt om steekproeven uit te voeren op een gegevensset of om partities te maken op basis van uw gegevensset.

Sampling is een belangrijk hulpmiddel in machine learning omdat u hiermee de grootte van een gegevensset kunt verkleinen terwijl dezelfde verhouding van waarden behouden blijft. Deze module ondersteunt verschillende gerelateerde taken die belangrijk zijn in machine learning:

  • Uw gegevens opsplitsen in meerdere subsecties van dezelfde grootte.

    U kunt de partities gebruiken voor kruisvalidatie of om cases toe te wijzen aan willekeurige groepen.

  • Gegevens scheiden in groepen en vervolgens werken met gegevens uit een specifieke groep.

    Nadat u willekeurig cases aan verschillende groepen hebt toegewezen, moet u mogelijk de functies wijzigen die aan slechts één groep zijn gekoppeld.

  • Bemonstering.

    U kunt een percentage van de gegevens extraheren, willekeurige steekproeven toepassen of een kolom kiezen om de gegevensset in balans te brengen en gelaagde steekproeven uitvoeren op de waarden.

  • Een kleinere gegevensset maken om te testen.

    Als u veel gegevens hebt, wilt u mogelijk alleen de eerste n rijen gebruiken tijdens het instellen van het experiment en vervolgens overschakelen naar het gebruik van de volledige gegevensset wanneer u uw model bouwt. U kunt ook steekproeven gebruiken om een kleinere gegevensset te maken voor gebruik in ontwikkeling.

Partitie en voorbeeld configureren

Deze module ondersteunt meerdere methoden voor het verdelen van uw gegevens in partities of voor steekproeven. Kies eerst de methode en stel vervolgens aanvullende opties in die vereist zijn voor de methode .

  • Het hoogste aantal rijen op halen

TOP N-rijen uit een gegevensset op halen

Gebruik deze modus om alleen de eerste n rijen op te halen. Deze optie is handig als u een experiment wilt testen op een klein aantal rijen en de gegevens niet in balans hoeven te zijn of op welke manier dan ook een steekproef te nemen.

  1. Voeg de module Partition en Sample toe aan uw experiment in Studio (klassiek) en verbind de gegevensset.

  2. Partitie- of voorbeeldmodus: stel deze optie in op Head.

  3. Aantal rijen dat moet worden geselecteerd: typ het aantal rijen dat moet worden retourneren.

    Het aantal rijen dat u opgeeft, moet een niet-negatief geheel getal zijn. Als het aantal geselecteerde rijen groter is dan het aantal rijen in de gegevensset, wordt de hele gegevensset geretourneerd.

  4. Voer het experiment uit.

De module geeft één gegevensset weer die alleen het opgegeven aantal rijen bevat. De rijen worden altijd gelezen vanaf de bovenkant van de gegevensset.

Een voorbeeld van gegevens maken

Deze optie ondersteunt eenvoudige willekeurige steekproeven of gelaagde willekeurige steekproeven. Dit is handig als u een kleinere representatieve voorbeeldgegevensset wilt maken voor het testen.

  1. Voeg de module Partition en Sample toe aan uw experiment in Studio (klassiek) en verbind de gegevensset.

  2. Partitie- of voorbeeldmodus: stel deze in op Steekproeven.

  3. Steekproeffrequentie: typ een waarde tussen 0 en 1. Met deze waarde geeft u het percentage rijen uit de bronset op dat moet worden opgenomen in de uitvoerset.

    Als u bijvoorbeeld slechts de helft van de oorspronkelijke gegevensset wilt, typt 0.5 u om aan te geven dat de steekproeffrequentie 50% moet zijn.

    De rijen van de invoerset worden in willekeurige volgorde in de uitvoerset op basis van de opgegeven verhouding in willekeurige volgorde gezet.

  4. Willekeurige seed voor steekproeven: typ desgewenst een geheel getal dat u wilt gebruiken als een seed-waarde.

    Deze optie is belangrijk als u wilt dat de rijen elke keer op dezelfde manier worden verdeeld. De standaardwaarde is 0, wat betekent dat een begin seed wordt gegenereerd op basis van de systeemklok. Dit kan leiden tot iets andere resultaten telkens wanneer u het experiment uit te voeren.

  5. Gelaagde splitsing voor steekproeven: selecteer deze optie als het belangrijk is dat de rijen in de gegevensset gelijkmatig moeten worden verdeeld door een belangrijke kolom voordat er steekproeven worden genomen.

    Voor de kolom Stratification-sleutel voor steekproeven selecteert u één strata-kolom die u wilt gebruiken bij het delen van de gegevensset. De rijen in de gegevensset worden vervolgens als volgt verdeeld:

    1. Alle invoerrijen worden gegroepeerd (gelaagd) op basis van de waarden in de opgegeven strata-kolom.

    2. Rijen worden in willekeurige volgorde in elke groep opgeslagen.

    3. Elke groep wordt selectief toegevoegd aan de uitvoerset om te voldoen aan de opgegeven verhouding.

    Zie de sectie Technische notities voor meer informatie over gelaagde steekproeven.

  6. Voer het experiment uit.

    Met deze optie wordt in de module één gegevensset uitgevoerd die een representatieve steekproef van de gegevens bevat.

    Het resterende, niet-gesampelde gedeelte van de gegevensset is geen uitvoer. U kunt echter join maken voor de gegevenssets met behulp van de module Apply SQL Transformation om te bepalen welke rijen niet worden gebruikt.

Gegevens splitsen in partities

Gebruik deze optie als u de gegevensset wilt onderverdelen in subsets van de gegevens. Deze optie is ook handig als u een aangepast aantal vouwen wilt maken voor kruisvalidatie of om rijen in verschillende groepen te splitsen.

  1. Voeg de module Partition en Sample toe aan uw experiment in Studio (klassiek) en verbind de gegevensset.

  2. Selecteer voor Partitie- of voorbeeldmodus de optie Toewijzen aan vouwen.

  3. Vervanging gebruiken in de partitionering: selecteer deze optie als u wilt dat de voorbeeldrij weer in de pool met rijen wordt geplaatst voor mogelijk hergebruik. Als gevolg hiervan kan dezelfde rij worden toegewezen aan verschillende vouwen.

    Als u geen vervanging gebruikt (de standaardoptie), wordt de rij in de steekproef niet terug in de pool met rijen gezet voor mogelijk hergebruik. Als gevolg hiervan kan elke rij worden toegewezen aan slechts één voudige.

  4. Willekeurige splitsing: selecteer deze optie als u wilt dat rijen willekeurig worden toegewezen aan vouwen.

    Als u deze optie niet selecteert, worden rijen toegewezen aan vouwen met behulp van de round robin-methode.

  5. Willekeurige seed: typ eventueel een geheel getal dat u wilt gebruiken als de seed-waarde. Deze optie is belangrijk als u wilt dat de rijen elke keer op dezelfde manier worden verdeeld. Anders betekent de standaardwaarde 0 dat er een willekeurige beginseed wordt gebruikt.

  6. Geef de partitionermethode op: geef aan hoe gegevens aan elke partitie moeten worden verdeeld met behulp van deze opties:

    • Gelijkmatige partitie: gebruik deze optie om een gelijk aantal rijen in elke partitie te plaatsen. Als u het aantal uitvoerpartities wilt opgeven, typt u een geheel getal in het vak Geef het aantal vouwen op dat gelijkmatig moet worden gesplitst .

    • Partitie met aangepaste verhoudingen: gebruik deze optie om de grootte van elke partitie op te geven als een door komma's gescheiden lijst.

      Als u bijvoorbeeld drie partities wilt maken, met de eerste partitie met 50% van de gegevens en de resterende twee partities die elk 25% van de gegevens bevatten, klikt u op de lijst met verhoudingen gescheiden door komma's en typt u de volgende getallen: .5, .25, .25

      De som van alle partitiegrootten moet exact 1 zijn.

      • Als u getallen op invoeren die kleiner zijn dan 1, wordt er een extra partitie gemaakt voor de resterende rijen. Als u bijvoorbeeld de waarden .2 en .3 typt, wordt er een derde partitie gemaakt die de resterende 50 procent van alle rijen bevat.

      • Als u getallen op invoeren die meer dan 1 zijn, treedt er een fout op wanneer u het experiment uit te voeren.

  7. Gelaagde splitsing: selecteer deze optie als u wilt dat de rijen worden gelaagd wanneer ze worden gesplitst en kies vervolgens de strata-kolom.

    Zie de sectie Technische notities voor meer informatie over gelaagde steekproeven.

  8. Voer het experiment uit.

    Met deze optie worden met de module meerdere gegevenssets uitgevoerd, gepartities volgens de regels die u hebt opgegeven.

Gegevens uit een vooraf gedefinieerde partitie gebruiken

Deze optie wordt gebruikt wanneer u een gegevensset hebt onderverdeeld in meerdere partities en nu elke partitie op zijn beurt wilt laden voor verdere analyse of verwerking.

  1. Voeg de module Partition en Sample toe aan het experiment in Studio (klassiek).

  2. Verbinding maken aan de uitvoer van een eerder exemplaar van Partition en Sample. Dat exemplaar moet de optie Toewijzen aan vouwen hebben gebruikt om een aantal partities te genereren.

  3. Partitie- of voorbeeldmodus: selecteer Vouwen kiezen.

  4. Opgeven van welke vouwen moet worden genomen: selecteer een partitie die u wilt gebruiken door de index ervan te typen. Partitieindexen zijn op 1 gebaseerd. Als u de gegevensset bijvoorbeeld in drie delen opdeelt, zouden de partities de indexen 1, 2 en 3 hebben.

    Als u een ongeldige indexwaarde typt, teert er een ontwerpfout: 'Fout 0018: Gegevensset bevat ongeldige gegevens'.

    Naast het groeperen van de gegevensset op vouwen, kunt u de gegevensset in twee groepen ondervertalen: een gevouwen doel en alle andere. Om dit te doen, typt u de index van één keer gevouwen en selecteert u vervolgens de optie Pick complement of the selected fold om alles behalve de gegevens in de opgegeven gevouwen gevouwen te krijgen.

  5. Als u met meerdere partities werkt, moet u extra exemplaren van de partitie - en voorbeeldmodule toevoegen om elke partitie te verwerken.

    Laten we bijvoorbeeld zeggen dat patiënten die eerder zijn gepart partitioneerd, vijf keer zijn vouwen met behulp van leeftijd. Als u met elke afzonderlijke vouw wilt werken, hebt u vijf exemplaren van de partitie - en voorbeeldmodule nodig, en in elke module selecteert u een andere vouw.

    Tip

    In het voorbeeldexperiment Split Partition en Sample wordt deze techniek gedemonstreerd.

  6. Voer het experiment uit.

    Met deze optie wordt door de module één gegevensset uitgevoerd die alleen de rijen bevat die aan die vouw zijn toegewezen.

Notitie

U kunt de vouwaanduidingen niet rechtstreeks weergeven; ze zijn alleen aanwezig in de metagegevens.

Voorbeelden

Zie de volgende Azure AI Gallery voor voorbeelden van hoe deze module wordt Azure AI Gallery:

  • Kruisvalidatie voor binaire classificatie: Er wordt een steekproeffrequentie van 20% toegepast om een kleinere gegevensset met willekeurige steekproeven te maken. De oorspronkelijke volkstellingsgegevensset had meer dan 30.000 rijen; de voorbeeldgegevensset heeft ongeveer 6500.

  • Kruisvalidatie voor regressie: de gegevens worden willekeurig en gelijkmatig toegewezen aan vijf vouwen, zonder stratificatie, en de resultaten worden gebruikt voor kruisvalidatie.

  • Partitie en voorbeeld splitsen: demonstreert meerdere manieren om partitionering en steekproeven te gebruiken. Eerst wordt de optie Toewijzen aan vouwen gebruikt om rijen in de gegevensset toe te wijzen aan een van de drie groepen van gelijkmatige grootte. Vervolgens worden er nog drie exemplaren van Partition en Sample toegevoegd met behulp van de modus Vouwen kiezen om bewerkingen toe te passen op subsets van de gegevens

    • In de eerste keer gevouwen (index van 1) worden rijen willekeurig gesplitst.
    • In de tweede vouw (index van 2) worden rijen gesplitst op onderwijs.
    • In de derde voudige (index van 3) worden rijen gesplitst op leeftijd.

Technische opmerkingen

  • De kolom stratification moet categorisch zijn met discrete waarden. Als de kolom nog niet categorisch is en u een foutmelding krijgt, gebruikt u Metagegevens bewerken om de kolomeigenschappen te wijzigen.

  • De strata-kolom die u opgeeft, mag geen doorlopende gegevens bevatten: dat wil zeggen numerieke gegevens met drijvende-kommerwaarden in elke cel. Anders kan de module de gegevens niet verwerken en wordt een foutbericht weergegeven.

    De reden hiervoor is dat elke kolom die wordt gebruikt voor stratification, een eindige set mogelijke waarden moet hebben. Als de opgegeven strata-kolom drijvende-puntwaarden bevat en de kolom niet van het type categorisch is, bevat deze mogelijk een oneindig aantal waarden.

  • Als de strata-kolom Booleaanse waarden bevat en u wilt dat deze worden geïnterpreteerd als categorisch, moet u de module Metagegevens bewerken gebruiken om het label voor metagegevens te wijzigen.

  • Als uw strata-kolom tekenreeks- of numerieke gegevens bevat met te veel unieke waarden, is de kolom geen goede kandidaat voor gelaagde steekproeven.

Meer informatie over gelaagde steekproeven

Gelaagde steekproeven zorgen ervoor dat subsets van de gegevens een representatieve steekproef van de geselecteerde strata-kolom hebben. Deze techniek is bijvoorbeeld handig als u ervoor wilt zorgen dat uw trainingsgegevens dezelfde verdeling van leeftijdswaarden bevatten als de testgegevens of omgekeerd. Of misschien wilt u een kolom tussen mannen en vrouwen in een gezondheidszorgonderzoek gelaagd maken om ervoor te zorgen dat mannen en vrouwen gelijkmatig worden verdeeld wanneer de gegevens worden gepartitiefd. Stratification zorgt ervoor dat de verhoudingen van de geselecteerde waarden behouden blijven.

U geeft waarden op waarop de gegevens moeten worden gescheiden door één kolom te selecteren die als de strata-kolom moet fungeren.

Voor deze module is vereist dat de strata-kolom een categorische kolom is. Als u een kolom met waarden van gehele getallen wilt gebruiken voor de strata, is het een best practice categorische type aan deze kolom toe te wijzen. U kunt dit doen via het schema van de gegevens voordat u deze toevoegt aan Machine Learning Studio (klassiek), of u kunt de metagegevens van de kolom bijwerken met metagegevens bewerken.

Kolommen met doorlopende gegevens (dat wil zeggen numerieke gegevens met drijvende-kommerwaarden in elke cel) kunnen niet worden gebruikt als strata-kolommen. Als er een foutmelding wordt weergegeven, kunt u Groepsgegevens in bins gebruiken om de waarden in afzonderlijke bereikbereiken te bucketen en vervolgens Metagegevens bewerken gebruiken om te garanderen dat de kolom als categorisch wordt behandeld.

Verwachte invoer

Naam Type Description
Gegevensset Gegevenstabel Gegevensset die moet worden gesplitst

Moduleparameters

Name Bereik Type Standaard Beschrijving
Partitie- of voorbeeldmodus Lijst Samplingmethoden Steekproeven De partitie- of steekproefmodus selecteren
Vervanging gebruiken in de partitionering Alle Booleaans Niet waar Geef aan of de vouwen niet-aaneen moeten zijn (standaard - geen vervanging) of overlappend (waar - vervanging gebruiken)
Gerandomiseerde splitsing Alle Boolean-waarde True Aangeven of de splitsing willekeurig is
Willekeurige seed Alle Geheel getal 0 Een seed opgeven voor de generator voor willekeurige getallen
De partitionermethode opgeven Lijst Partitiemethoden Gelijkmatige partitie Selecteer Gelijkmatige partitie om te partitioneren in vouwen van gelijke grootte of Partitie met aangepaste verhoudingen om te partitioneren in vouwen van aangepaste grootte
Geef het aantal vouwen op dat gelijkmatig moet worden gesplitst in >= 1 Geheel getal 5 Selecteer een aantal partities om in op te splitsen
Gelaagde splitsing Lijst Waar/onwaar Niet waar Geef aan of de splitsing gelaagd is
Kolom stratification-sleutel Alle ColumnSelection Bevat de stratification-sleutel
Lijst met verhoudingen gescheiden door komma's Alle Tekenreeks Verhoudingen, gescheiden door komma's, op een lijst zetten
Gelaagde splitsing voor aangepaste vouwtoewijzing Alle Waar/onwaar Niet waar Geef aan of de splitsing wordt gelaagd voor aangepaste vouwtoewijzingen
Stratification key column for customized fold assignment (Kolom met stratification-sleutel voor aangepaste vouwtoewijzing) Alle ColumnSelection Bevat de stratification-sleutel voor aangepaste vouwtoewijzingen
Opgeven uit welke vouwen een steekproef moet worden genomen >= 1 Geheel getal 1 Bevat de index van de vouwen die moeten worden genomen
Een selectie van de geselecteerde vouwen kiezen Alle Booleaans Niet waar Selecteer het complement van de opgegeven vouwen
Steekproeffrequentie Alle Float 0,01 Een steekproeffrequentie kiezen
Willekeurige seed voor steekproeven Alle Geheel getal 0 Een seed opgeven voor de generator voor willekeurige getallen voor steekproeven
Gelaagde splitsing voor steekproeven Alle Waar/onwaar Niet waar Geef aan of de splitsing wordt gelaagd voor steekproeven
Kolom stratification-sleutel voor steekproeven Alle ColumnSelection Bevat een stratification-sleutel voor steekproeven
Aantal rijen dat moet worden geselecteerd >= 0 Geheel getal 10 Selecteer een maximum aantal records dat mag worden doorgelaten aan de volgende module

Uitvoerwaarden

Naam Type Description
oDataset Gegevenstabel Gegevensset die het resultaat is van de splitsing

Zie ook

Voorbeeld en splitsen
Gegevens splitsen
Metagegevens bewerken
Gegevens in opslaglocaties groeperen