Partitie en voorbeeld

Maakt meerdere partities van een gegevensset op basis van steek proeven

Categorie: gegevens transformatie/voor beeld en splitsen

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de module Partition en sample in azure machine learning Studio (klassiek) gebruikt om steek proeven uit te voeren op een gegevensset of om partities te maken op basis van uw gegevensset.

Steek proeven zijn een belang rijk hulp middel in machine learning omdat u hiermee de grootte van een gegevensset kunt reduceren en dezelfde verhouding van waarden behouden. Deze module biedt ondersteuning voor verschillende gerelateerde taken die belang rijk zijn in machine learning:

  • Gegevens delen in meerdere subsecties van dezelfde grootte.

    U kunt de partities voor kruis validatie gebruiken of aanvragen toewijzen aan wille keurige groepen.

  • Het scheiden van gegevens in groepen en het werken met gegevens uit een specifieke groep.

    Wanneer u wille keurig cases aan verschillende groepen toewijst, moet u mogelijk de functies wijzigen die aan slechts één groep zijn gekoppeld.

  • Proef.

    U kunt een percentage van de gegevens extra heren, wille keurige steek proeven Toep assen of een kolom kiezen die u wilt gebruiken om de gegevensset te verdelen en stratified-steek proeven uit te voeren op waarden.

  • Een kleinere gegevensset maken voor het testen.

    Als u veel gegevens hebt, wilt u mogelijk alleen de eerste n rijen gebruiken tijdens het instellen van het experiment en vervolgens overschakelen naar het gebruik van de volledige gegevensset wanneer u het model bouwt. U kunt ook steek proeven gebruiken om een kleinere gegevensset te maken voor gebruik in ontwikkeling.

De partitie en het voor beeld configureren

Deze module ondersteunt meerdere methoden voor het delen van uw gegevens in partities of voor steek proeven. Kies eerst de methode en stel vervolgens aanvullende opties in die vereist zijn voor de methode.

  • Het bovenste aantal rijen ophalen

BOVENSTE N rijen uit een gegevensset ophalen

Gebruik deze modus om alleen de eerste n rijen op te halen. Deze optie is handig als u een experiment wilt testen op een klein aantal rijen en u de gegevens niet nodig hebt om op enigerlei wijze te worden gebalanceerd of gesampled.

  1. Voeg de partitie-en voorbeeld module toe aan uw experiment in Studio (klassiek) en verbind de gegevensset.

  2. Partitie of voorbeeld modus: Stel deze optie in op kop.

  3. Aantal rijen dat moet worden geselecteerd: Typ het aantal rijen dat u wilt retour neren.

    Het aantal rijen dat u opgeeft, moet een niet-negatief geheel getal zijn. Als het aantal geselecteerde rijen groter is dan het aantal rijen in de gegevensset, wordt de hele gegevensset geretourneerd.

  4. Voer het experiment uit.

De module voert een enkele gegevensset uit met alleen het opgegeven aantal rijen. De rijen worden altijd gelezen vanaf de bovenkant van de gegevensset.

Een voor beeld van gegevens maken

Deze optie ondersteunt eenvoudige wille keurige steek proeven of stratified wille keurige steek proeven. Dit is handig als u een kleinere representatieve voorbeeld gegevensset wilt maken voor het testen.

  1. Voeg de partitie-en voorbeeld module toe aan uw experiment in Studio (klassiek) en verbind de gegevensset.

  2. Partitie of voorbeeld modus: Stel dit in op steek proeven.

  3. Sampling frequentie: Typ een waarde tussen 0 en 1. met deze waarde wordt het percentage rijen van de bron-gegevensset opgegeven dat moet worden opgenomen in de uitvoer gegevensset.

    Als u bijvoorbeeld slechts de helft van de oorspronkelijke gegevensset wilt, typt u 0.5 om aan te geven dat de sampling frequentie 50% moet zijn.

    De rijen van de invoer gegevensset worden in een wille keurige volg orde geplaatst en op basis van de opgegeven verhouding op selectief ingesteld in de uitvoer gegevensset.

  4. Wille keurig zaad voor steek proeven: Typ eventueel een geheel getal dat moet worden gebruikt als een Seed-waarde.

    Deze optie is belang rijk als u wilt dat de rijen op dezelfde manier worden gedeeld als elke keer. De standaard waarde is 0, wat betekent dat een begin Seed wordt gegenereerd op basis van de systeem klok. Dit kan leiden tot enigszins verschillende resultaten telkens wanneer u het experiment uitvoert.

  5. Stratified splitsen voor steek proeven: Selecteer deze optie als het belang rijk is dat de rijen in de gegevensset gelijkmatig moeten worden verdeeld over een bepaalde sleutel kolom vóór de steek proef.

    Voor een stratificatie sleutel kolom voor steek proevenselecteert u één Strata kolom die moet worden gebruikt bij het delen van de gegevensset. De rijen in de gegevensset worden vervolgens als volgt onderverdeeld:

    1. Alle invoer rijen worden gegroepeerd (stratified) door de waarden in de opgegeven kolom Strata.

    2. Rijen worden in elke groep in een andere volg orde geplaatst.

    3. Elke groep wordt selectief toegevoegd aan de uitvoer gegevensset om te voldoen aan de opgegeven verhouding.

    Zie de sectie met technische opmerkingen voor meer informatie over stratified-steek proeven.

  6. Voer het experiment uit.

    Met deze optie voert de module een enkele gegevensset uit die een representatieve steek proef van de gegevens bevat.

    Het resterende, niet-bemonsterde gedeelte van de gegevensset wordt niet uitgevoerd. U kunt echter samen voeging op de gegevens sets maken met behulp van de module SQL-trans formatie Toep assen om te bepalen welke rijen niet worden gebruikt.

Gegevens in partities splitsen

Gebruik deze optie als u de gegevensset wilt verdelen over subsets van de gegevens. Deze optie is ook handig als u een aangepast aantal vouwen wilt maken voor kruis validatie of als u rijen wilt splitsen in verschillende groepen.

  1. Voeg de partitie-en voorbeeld module toe aan uw experiment in Studio (klassiek) en verbind de gegevensset.

  2. Voor partitie of voorbeeld modusselecteert u toewijzen aan vouwen.

  3. Vervanging gebruiken in partitioneren: Selecteer deze optie als u wilt dat de geplaatste rij wordt weer gegeven in de pool met rijen voor een mogelijke hergebruik. Als gevolg hiervan kan dezelfde rij worden toegewezen aan verschillende vouwen.

    Als u geen vervanging gebruikt (de standaard optie), wordt de geplaatste rij niet weer gegeven in de pool met rijen voor een mogelijke hergebruik. Als gevolg hiervan kan elke rij slechts aan één vouw worden toegewezen.

  4. Wille keurige splitsing: Selecteer deze optie als u wilt dat rijen wille keurig worden toegewezen aan vouwen.

    Als u deze optie niet selecteert, worden de rijen aan de vouwen met de Round-Robin methode toegewezen.

  5. Wille keurig zaad: Typ eventueel een geheel getal dat moet worden gebruikt als de Seed-waarde. Deze optie is belang rijk als u wilt dat de rijen op dezelfde manier worden gedeeld als elke keer. Anders is de standaard waarde 0 betekent dat een wille keurige begin Seed wordt gebruikt.

  6. Geef de partitioner-methodeop: Geef aan hoe u wilt dat gegevens worden verdeeld over elke partitie, met behulp van de volgende opties:

    • Gelijkmatige partitie: gebruik deze optie om een gelijk aantal rijen in elke partitie te plaatsen. Als u het aantal uitvoer partities wilt opgeven, typt u een geheel getal in het aantal vouwen dat u wilt splitsen, gelijkmatig in het tekstvak.

    • Partitie met aangepaste verhoudingen: gebruik deze optie om de grootte van elke partitie op te geven als een lijst met door komma's gescheiden waarden.

      Als u bijvoorbeeld drie partities wilt maken, met de eerste partitie met 50% van de gegevens en de resterende twee partities elk 25% van de gegevens bevatten, klikt u op de lijst met verhoudingen gescheiden door komma's en typt u deze getallen: .5, .25, .25

      De som van alle partitie grootten moet precies 1 zijn.

      • Als u getallen opgeeft die Maxi maal 1zijn, wordt er een extra partitie gemaakt om de resterende rijen te bewaren. Als u bijvoorbeeld de waarden .2 en .3 typt, wordt er een derde partitie gemaakt die het resterende 50 procent van alle rijen bevat.

      • Als u getallen opgeeft die groter zijn dan 1, treedt er een fout op wanneer u het experiment uitvoert.

  7. Stratified splitsen: Selecteer deze optie als u wilt dat de rijen worden stratified wanneer deze worden gesplitst en kies vervolgens de kolom Strata.

    Zie de sectie met technische opmerkingen voor meer informatie over stratified-steek proeven.

  8. Voer het experiment uit.

    Met deze optie voert de module meerdere gegevens sets uit, gepartitioneerd met de regels die u hebt opgegeven.

Gegevens van een vooraf gedefinieerde partitie gebruiken

Deze optie wordt gebruikt wanneer u een gegevensset hebt onderverdeeld in meerdere partities en nu elke partitie op zijn beurt wilt laden voor verdere analyse of verwerking.

  1. Voeg de partitie-en voorbeeld module toe aan het experiment in Studio (klassiek).

  2. Verbind deze met de uitvoer van een eerder exemplaar van de partitie enhet voor beeld. Dat exemplaar moet de optie toewijzen aan vouwen hebben gebruikt om een aantal partities te genereren.

  3. Partitie of voorbeeld modus: Selecteer vouw vouwen.

  4. Geef op met welke vouw moet worden steek proef: Selecteer een te gebruiken partitie door de index ervan te typen. Partitie-indexen zijn op 1 gebaseerd. Als u de gegevensset bijvoorbeeld in drie delen hebt verdeeld, hebben de partities de indices 1, 2 en 3.

    Als u een ongeldige index waarde typt, wordt de volgende fout weer gegeven: ' fout 0018: gegevensset bevat ongeldige gegevens '.

    Naast het groeperen van de gegevensset door vouwen, kunt u de gegevensset in twee groepen scheiden: een doel vouwen en alle andere. Hiertoe typt u de index van één vouw en selecteert u vervolgens de optie, een aanvulling op de geselecteerde vouw, om alles op te halen, behalve de gegevens in de opgegeven vouwen.

  5. Als u met meerdere partities werkt, moet u extra exemplaren van de partitie en voorbeeld module toevoegen om elke partitie af te handelen.

    Stel dat u bijvoorbeeld eerder gepartitioneerde patiënten in vijf vouwen met leeftijd. Als u met elke afzonderlijke vouw wilt werken, hebt u vijf kopieën van de partitie en de voorbeeld module nodig en selecteert u een andere vouw.

    Tip

    In het voorbeeld experiment, de gesplitste partitie enhet voor beeld wordt deze techniek gedemonstreerd.

  6. Voer het experiment uit.

    Met deze optie voert de module een enkele gegevensset uit die alleen de rijen bevat die aan de vouwen zijn toegewezen.

Notitie

U kunt de gevouwen ontwerps niet rechtstreeks weer geven. ze zijn alleen aanwezig in de meta gegevens.

Voorbeelden

Voor voor beelden van hoe deze module wordt gebruikt, raadpleegt u de Azure AI Gallery:

  • Kruis validatie voor binaire classificatie: er wordt een sampling frequentie van 20% toegepast om een kleinere, wille keurige gegevensset te maken. De oorspronkelijke telling gegevensset had meer dan 30.000 rijen. de gegevensset van de steek proef heeft ongeveer 6500.

  • Kruis validatie voor regressie: de gegevens zijn wille keurig en gelijk aan vijf vouwen, zonder stratificatie, en de resultaten worden gebruikt voor kruis validatie.

  • Gesplitste partitie en voor beeld: illustreert meerdere manieren om partities en steek proeven te gebruiken. Eerst wordt de optie toewijzen aan vouwen gebruikt om rijen in de gegevensset toe te wijzen aan een van de drie even grote groepen. Vervolgens worden er drie exemplaren van de partitie en het voor beeld toegevoegd met behulp van de Vouw modus selecteren om bewerkingen toe te passen op subsets van de gegevens

    • In de eerste vouw (index van 1) worden rijen wille keurig gesplitst.
    • In de tweede vouw (index van 2) worden de rijen gesplitst op basis van onderwijs.
    • In de derde vouw (index van 3) worden de rijen gesplitst op leeftijd.

Technische opmerkingen

  • De stratificatie kolom moet categorische zijn met discrete waarden. Als de kolom nog niet categorische is en er een fout optreedt, gebruikt u meta gegevens bewerken om de kolom eigenschappen te wijzigen.

  • De kolom Strata die u opgeeft, mag geen doorlopende gegevens bevatten: dat wil zeggen numerieke gegevens met drijvende-komma waarden in elke cel. Anders kan de module de gegevens niet verwerken en wordt er een fout geretourneerd.

    De reden hiervoor is dat elke kolom die wordt gebruikt voor stratificatie, een eindige reeks mogelijke waarden moet hebben. Als de opgegeven kolom Strata wille keurig drijvende-komma waarden bevat en de kolom niet van het type categorische is, bevat deze mogelijk een oneindig aantal waarden.

  • Als de kolom Strata Booleaanse waarden bevat en u wilt dat ze worden geïnterpreteerd als categorische, moet u de module meta gegevens bewerken gebruiken om het label van de meta gegevens te wijzigen.

  • Als uw Strata-kolom teken reeks-of numerieke gegevens bevat met te veel unieke waarden, is de kolom geen goede kandidaat voor stratified-steek proeven.

Meer informatie over stratified-steek proeven

Stratified-steek proeven zorgen ervoor dat subsets van de gegevens een representatieve steek proef van de geselecteerde Strata-kolom hebben. Deze techniek is bijvoorbeeld handig als u er zeker van wilt zijn dat uw trainings gegevens dezelfde verdeling hebben van de leeftijds waarden die de test gegevens bevat of vice versa. Of u wilt een gender kolom Stratify in een onderzoek naar de gezondheids zorg om ervoor te zorgen dat mannetjes en wijfjes gelijkmatig worden gedistribueerd wanneer de gegevens zijn gepartitioneerd. Met stratificatie zorgt u ervoor dat de verhoudingen van de geselecteerde waarden behouden blijven.

U geeft waarden op voor het scheiden van de gegevens door één kolom te selecteren die als de kolom Stratamoet fungeren.

Voor deze module moet de kolom Strata een categorische-kolom zijn. Als u een kolom met gehele waarden voor de Strata wilt gebruiken, is het een best practice om een categorische-type aan deze kolom toe te wijzen. U kunt dit doen door het schema van de gegevens voordat u deze toevoegt aan Azure Machine Learning Studio (klassiek), of u kunt de meta gegevens van de kolom bijwerken met behulp van meta gegevens bewerken.

Kolommen met doorlopende gegevens (dat wil zeggen, numerieke gegevens met drijvende-komma waarden in elke cel) kunnen niet worden gebruikt als Strata-kolommen. Als er een fout optreedt, kunt u groeps gegevens in opslag locaties gebruiken om de waarden naar discrete bereiken te buckets en vervolgens meta gegevens bewerken gebruiken om te garanderen dat de kolom wordt verwerkt als categorische.

Verwachte invoer

Naam Type Beschrijving
Gegevensset Gegevens tabel Te splitsen gegevensset

Module parameters

Naam Bereik Type Standaard Beschrijving
Partitie of voorbeeld modus Lijst Bemonsterings methoden Steekproeven De partitie of bemonsterings modus selecteren
Vervanging gebruiken in partitioneren Alle Boolean-waarde Niet waar Geef aan of de vouwen moeten worden ontkoppeld (standaard-geen vervanging) of overlappende (True-Use-vervanging)
Wille keurige splitsing Alle Boolean-waarde True Aangeven of de splitsing wille keurig is
Wille keurige Seed Alle Geheel getal 0 Een Seed opgeven voor de generator voor wille keurige getallen
De partitioner-methode opgeven Lijst Partitie methoden Gelijkmatig verdelen Selecteer de partitie gelijkmatig bij het partitioneren in vouwen van gelijke grootte, of de partitie met aangepaste verhoudingen die moeten worden gepartitioneerd in vouwen van een aangepaste grootte
Aantal vouwen opgeven dat gelijkmatig moet worden gesplitst >= 1 Geheel getal 5 Selecteer een aantal partities dat u wilt splitsen
Stratified-splitsing Lijst True/False-type Niet waar Aangeven of de splitsing stratified is
Stratificatie sleutel kolom Alle ColumnSelection Bevat de stratificatie sleutel
Lijst met verhoudingen gescheiden door komma's Alle Tekenreeks Lijst met verhoudingen, gescheiden door komma's
Stratified gesplitst voor aangepaste vouw toewijzing Alle True/False-type Niet waar Aangeven of de splitsing stratified is voor aangepaste vouw toewijzingen
Stratificatie sleutel kolom voor aangepaste vouw toewijzing Alle ColumnSelection Bevat de stratificatie sleutel voor aangepaste vouw toewijzingen
Geef op met welke vouw moet worden steek proef >= 1 Geheel getal 1 Bevat de index van de vouwen waarvan de steek proef moet worden genomen
Complement keuze van geselecteerde Vouw Alle Boolean-waarde Niet waar Het complement met de opgegeven vouw selecteren
Sampling frequentie Alle Drijvendekommagetal 0,01 Een sampling frequentie kiezen
Wille keurig zaad voor steek proeven Alle Geheel getal 0 Een Seed opgeven voor de generator van wille keurige getallen voor steek proeven
Stratified splitsen voor steek proeven Alle Waar/onwaar Niet waar Aangeven of de splitsing stratified is voor steek proeven
Stratificatie sleutel kolom voor steek proeven Alle ColumnSelection Bevat de stratificatie sleutel voor steek proeven
Aantal rijen dat moet worden geselecteerd >= 0 Geheel getal 10 Selecteer een maximum aantal records dat kan worden door gegeven aan de volgende module

Outputs

Naam Type Beschrijving
oDataset Gegevens tabel Gegevensset die voortkomt uit de splitsing

Zie ook

Voor beeld en splitsing
Gegevens splitsen
Meta gegevens bewerken
Gegevens in opslaglocaties groeperen