Ontbrekende gegevens opschonen

Hiermee geeft u op hoe de waarden moeten worden verwerkt die ontbreken in een gegevensset

Categorie: gegevens transformatie/-bewerking

Notitie

Van toepassing op : machine learning Studio (klassiek)

Deze inhoud is alleen van toepassing op Studio (klassiek). Er zijn Vergelijk bare modules voor slepen en neerzetten toegevoegd aan Azure Machine Learning Designer. In dit artikel vindt u meer informatie over de twee versies.

Module overzicht

In dit artikel wordt beschreven hoe u de module clean Missing Data gebruikt in azure machine learning Studio (klassiek) om ontbrekende waarden te verwijderen, te vervangen of af te leiden.

Gegevens wetenschappers controleren vaak gegevens over ontbrekende waarden en voeren verschillende bewerkingen uit om de gegevens te herstellen of nieuwe waarden in te voegen. Het doel van dergelijke reinigings bewerkingen is om te voor komen dat er problemen ontstaan door ontbrekende gegevens die kunnen optreden bij het trainen van een model.

Deze module ondersteunt meerdere typen bewerkingen voor het opschonen van ontbrekende waarden, waaronder:

  • Ontbrekende waarden vervangen door een tijdelijke aanduiding, gemiddelde of andere waarde
  • Rijen en kolommen met ontbrekende waarden volledig verwijderen
  • Uitstel waarden op basis van statistische methoden

Tip

Nieuw in machine learning? In dit artikel vindt u een goede uitleg waarom u elk van de verschillende methoden gebruikt voor het vervangen van ontbrekende waarden: methoden voor het verwerken van ontbrekende waarden

Als u deze module gebruikt, wordt de bron-gegevensset niet gewijzigd. In plaats daarvan wordt er een nieuwe gegevensset in uw werk ruimte gemaakt die u in de volgende werk stroom kunt gebruiken. U kunt ook de nieuwe, gereinigde gegevensset opslaan voor hergebruik.

In deze module wordt ook een definitie uitgevoerd van de trans formatie die wordt gebruikt om de ontbrekende waarden op te schonen. U kunt deze trans formatie opnieuw gebruiken voor andere gegevens sets die hetzelfde schema hebben, met behulp van de module trans formatie Toep assen .

Schone ontbrekende gegevens gebruiken

Met deze module kunt u een reinigings bewerking definiëren. U kunt ook de opschoon bewerking opslaan, zodat u deze later kunt Toep assen op nieuwe gegevens. Raadpleeg de volgende koppelingen voor een beschrijving van het maken en opslaan van een reinigings proces:

Belangrijk

De reinigings methode die u voor het verwerken van ontbrekende waarden gebruikt, kan de resultaten aanzienlijk beïnvloeden. We raden u aan om met verschillende methoden te experimenteren. Houd rekening met zowel de reden voor het gebruik van een bepaalde methode als de kwaliteit van de resultaten.

Ontbrekende waarden vervangen

Telkens wanneer u de module clean Missing Data toepast op een set gegevens, wordt dezelfde reinigings bewerking toegepast op alle kolommen die u selecteert. Als u verschillende kolommen met verschillende methoden wilt opschonen, gebruikt u daarom afzonderlijke exemplaren van de module.

  1. Voeg de module clean Missing Data toe aan uw experiment en verbind de gegevensset met ontbrekende waarden.

  2. Als u kolommen wilt opschonen, kiest u de kolommen die de ontbrekende waarden bevatten die u wilt wijzigen. U kunt meerdere kolommen kiezen, maar u moet dezelfde vervangings methode gebruiken in alle geselecteerde kolommen. Normaal gesp roken moet u de teken reeks kolommen en numerieke kolommen afzonderlijk opschonen.

    Als u bijvoorbeeld wilt controleren op ontbrekende waarden in alle numerieke kolommen:

    1. Open de kolom kiezer en selecteer with Rules.

    2. Selecteer geen kolommenvoor beginnen met.

      U kunt ook beginnen met alle kolommen en vervolgens kolommen uitsluiten. In eerste instantie worden regels niet weer gegeven als u eerst op alle kolommenklikt, maar u kunt op geen kolommen klikken en vervolgens op alle kolommen klikken om met alle kolommen te beginnen en vervolgens kolommen uit te filteren op basis van de naam, het gegevens type of de kolommen index.

    3. Voor opnemenselecteert u in de vervolg keuzelijst het kolom Type en selecteert u vervolgens Numeriekof een specifiek numeriek type.

    Elke opschonings-of vervangings methode die u kiest, moet van toepassing zijn op alle kolommen in de selectie. Als de gegevens in een kolom incompatibel zijn met de opgegeven bewerking, retourneert de module een fout en wordt het experiment gestopt.

  3. Geef voor de minimale waardevan de vereiste voor de ondergrens het minimale aantal ontbrekende waarden op dat vereist is voor de bewerking die moet worden uitgevoerd.

    U gebruikt deze optie in combi natie met de Maxi maal ontbrekende waarde ratio om de voor waarden te definiëren waaronder een reinigings bewerking wordt uitgevoerd op de gegevensset. Als er te veel of te weinig rijen zijn met ontbrekende waarden, kan de bewerking niet worden uitgevoerd.

    Het getal dat u invoert, vertegenwoordigt de verhouding van ontbrekende waarden voor alle waarden in de kolom. Standaard is de minimale waarde voor de eigenschap quoted ontbreekt ingesteld op 0. Dit betekent dat ontbrekende waarden worden opgeschoond, zelfs als er slechts één ontbrekende waarde is. Zie een drempel instellen voor het opschonenvan een voor beeld van hoe u deze optie gebruikt.

    Waarschuwing

    Aan deze voor waarde moet elke kolom worden voldaan om de opgegeven bewerking toe te passen. Stel dat u drie kolommen hebt geselecteerd en vervolgens de minimale verhouding van ontbrekende waarden instelt op .2 (20%), maar er in slechts één kolom 20% waarden ontbreken. In dit geval is de opschoon bewerking alleen van toepassing op de kolom met meer dan 20% ontbrekende waarden. Daarom worden de andere kolommen niet gewijzigd.

    Als u twijfelt of ontbrekende waarden zijn gewijzigd, selecteert u de optie voor het genereren van een ontbrekende waarde indicator kolom. Er wordt een kolom toegevoegd aan de gegevensset om aan te geven of elke kolom voldoet aan de opgegeven criteria voor het minimum-en maximum aantal bereiken.

  4. Geef voor de maximale waardevoor de ontbrekende hoeveelheid een maximum aantal ontbrekende waarden op dat aanwezig kan zijn voor de bewerking die moet worden uitgevoerd.

    Het is bijvoorbeeld mogelijk dat u de vervanging van de waarde alleen wilt uitvoeren als 30% of minder van de rijen ontbrekende waarden bevat, maar laat de waarden ongewijzigd als er meer dan 30% rijen ontbrekende waarden bevatten.

    U definieert het getal als de verhouding van ontbrekende waarden voor alle waarden in de kolom. Standaard is de maximale waarde voor ontbrekende waarden ingesteld op 1. Dit betekent dat ontbrekende waarden worden opgeschoond, zelfs als 100% van de waarden in de kolom ontbreken.

    Notitie

    Wanneer u een drempel instelt met behulp van de opties minimale verhouding van de waarde ontbrekend of maximale waarde ontbreekt, kan de opschoning bewerking niet worden uitgevoerd als een van de geselecteerde kolommen niet aan de criteria voldoet.

  5. Voor de reinigings modusselecteert u een van de volgende opties voor het vervangen of verwijderen van ontbrekende waarden:

    • Vervangen door muizen: voor elke ontbrekende waarde wijst deze optie een nieuwe waarde toe, die wordt berekend met behulp van een methode die wordt beschreven in de statistische literatuur als ' multidimensionale toerekening met gekoppelde vergelijkingen ' of ' meerdere toerekenings opties door gekoppelde vergelijkingen '. Met een methode met meerderetoerekeningen wordt elke variabele met ontbrekende gegevens voorwaardelijk gemodelleerd met behulp van de andere variabelen in de gegevens voordat de ontbrekende waarden worden ingevuld. In een enkele toerekenings methode (zoals het vervangen van een ontbrekende waarde met een kolom) daarentegen wordt één enkele keer door gegeven voor het bepalen van de opvullings waarde.

      Alle toerekenings methoden veroorzaken een bepaalde fout of bias, maar meerdere toerekeningen verbeteren het proces dat de gegevens genereert en de kans op distributie van de gegevens.

      Zie ontbrekende gegevens voor een algemene inleiding op de methoden voor het afhandelen van ontbrekende waarden : de status van de Art. Schafer en Graham, 2002.

      Waarschuwing

      Deze optie kan niet worden toegepast op volledig lege kolommen. Dergelijke kolommen moeten worden verwijderd of worden door gegeven aan de uitvoer als dat zo is.

    • Aangepaste vervangings waarde: gebruik deze optie om een tijdelijke aanduiding voor waarden (zoals 0 of n.v.t.) op te geven die van toepassing is op alle ontbrekende waarde. De waarde die u opgeeft als vervanging moet compatibel zijn met het gegevens type van de kolom.

    • Vervangen door gemiddelde: berekent het gemiddelde van de kolom en gebruikt het gemiddelde als de vervangings waarde voor elke ontbrekende waarde in de kolom.

      Is alleen van toepassing op kolommen met gegevens typen integer, Double of Boolean. Zie de sectie technische opmerkingen voor meer informatie.

    • Vervangen door mediaan: berekent de kolom mediaan waarde en gebruikt de mediaan waarde als vervanging voor een ontbrekende waarde in de kolom.

      Is alleen van toepassing op kolommen met het gegevens type integer of double. Zie de sectie technische opmerkingen voor meer informatie.

    • Vervangen door modus: berekent de modus voor de kolom en gebruikt de modus als de vervangings waarde voor elke ontbrekende waarde in de kolom.

      Is van toepassing op kolommen met het gegevens type integer, double, Boolean of categorische. Zie de sectie technische opmerkingen voor meer informatie.

    • Hele rij verwijderen: Hiermee verwijdert u alle rijen in de gegevensset met een of meer ontbrekende waarden. Dit is handig als de ontbrekende waarde kan worden beschouwd als wille keurig ontbrekend.

    • Hele kolom verwijderen: Hiermee verwijdert u alle kolommen in de gegevensset met een of meer ontbrekende waarden volledig.

    • Vervangen met behulp van PROBABILISTIC PCA: vervangt de ontbrekende waarden met behulp van een lineair model dat de correlaties tussen de kolommen analyseert en een schatting maakt van een geringe benadering van de gegevens, waaruit de volledige gegevens worden gereconstrueerd. De onderliggende dimensionaliteit is een Probabilistic vorm van de functie voor het analyseren van Principal-onderdelen en implementeert een variant van het model dat is voorgesteld in het logboek van de Koninklijk statistische samenleving, series B 21 (3), 611 – 622 door te kantelen en lopers.

      Vergeleken met andere opties, zoals meerdere toerekeningen met behulp van gekoppelde vergelijkingen (muizen), heeft deze optie het voor deel dat de toepassing van voor spellingen voor elke kolom niet vereist is. In plaats daarvan wordt de covariantie voor de volledige gegevensset geraamd. Daarom kunnen er betere prestaties worden geboden voor gegevens sets die in veel kolommen ontbrekende waarden bevatten.

      De belangrijkste beperkingen van deze methode zijn dat categorische kolommen worden uitgebreid naar numerieke indica toren en dat er een zeer hoge covariantie matrix van de resulterende gegevens wordt berekend. Het is ook niet geoptimaliseerd voor verspreide representaties. Daarom worden gegevens sets met een groot aantal kolommen en/of grote categorische-domeinen (tien duizenden) niet ondersteund als gevolg van een verboden ruimte verbruik.

      Tip

      Houd er rekening mee dat de methode die u kiest, wordt toegepast op alle kolommen in de selectie. Als u een aantal ontbrekende waarden wilt vervangen door nullen in bepaalde kolommen, maar een tijdelijke aanduiding in andere kolommen wilt invoegen, moet u kolommen selecteren in gegevensset gebruiken om de gegevens van elkaar te scheiden en verschillende exemplaren van de module clean Missing Data gebruiken.

  6. De waarde voor het vervangen van de optie is beschikbaar als u de optie aangepaste vervangings waardehebt geselecteerd. Typ een nieuwe waarde die moet worden gebruikt als de vervangings waarde voor alle ontbrekende waarden in de kolom.

    Houd er rekening mee dat u deze optie alleen kunt gebruiken in kolommen die de gegevens typen integer, double, Boolean of date hebben. Voor datum kolommen kan de vervangings waarde ook worden ingevoerd als het aantal 100-nano seconden Ticks sinds 1/1/0001 12:00 uur

  7. Indicator kolom voor ontbrekende waarde genereren: Selecteer deze optie als u een bepaalde indicatie wilt uitvoeren van de vraag of de waarden in de kolom voldoen aan de criteria voor het schoonmaken van ontbrekende waarden. Deze optie is met name handig wanneer u een nieuwe reinigings bewerking instelt en er zeker van wilt zijn dat deze goed werkt.

  8. Voer het experiment uit of selecteer de module clean Missing Data en klik op geselecteerde uitvoeren.

Resultaten

De module retourneert twee uitvoer:

  • Opgeschoonde gegevensset: een gegevensset die bestaat uit de geselecteerde kolommen, waarbij ontbrekende waarden worden verwerkt zoals opgegeven, samen met een indicator kolom, als u die optie hebt geselecteerd.

    Kolommen die niet zijn geselecteerd voor het opschonen, zijn ook ' door gegeven '.

  • Reinigings transformatie: een gegevens transformatie die wordt gebruikt voor het opschonen, die in uw werk ruimte kan worden opgeslagen en later op nieuwe gegevens kan worden toegepast.

Een opgeslagen opschonings bewerking Toep assen op nieuwe gegevens

Als u vaak reinigings bewerkingen wilt herhalen, kunt u het beste uw recept opslaan voor het opschonen van gegevens als een trans formatie. Het opslaan van een reinigings transformatie is met name handig als u regel matig opnieuw moet importeren en vervolgens gegevens met hetzelfde schema wilt opschonen.

  1. Voeg de module trans formatie Toep assen toe aan uw experiment.

  2. Voeg de gegevensset die u wilt reinigen toe en verbind de gegevensset met de juiste invoer poort.

  3. Vouw de groep trans formaties uit in het linkerdeel venster van Studio (klassiek). Zoek de opgeslagen trans formatie en sleep deze naar het experiment.

  4. Verbind de opgeslagen trans formatie met de linker invoer poort van Apply trans formatie.

    Wanneer u een opgeslagen trans formatie toepast, kunt u de kolommen waarop de trans formatie wordt toegepast, niet selecteren. Dat komt doordat de trans formatie al is gedefinieerd en automatisch van toepassing is op de gegevens typen die in de oorspronkelijke bewerking zijn opgegeven.

    Stel dat u een trans formatie hebt gemaakt voor een subset met numerieke kolommen. U kunt deze trans formatie Toep assen op een gegevensset van gemengde kolom typen zonder een fout te verhogen, omdat de ontbrekende waarden alleen worden gewijzigd in de overeenkomende numerieke kolommen.

  5. Voer het experiment uit.

Voorbeelden

Zie voor beelden van hoe deze module wordt gebruikt in de Azure AI Gallery:

Technische opmerkingen

Deze sectie bevat implementatie details, evenals bekende problemen en veelgestelde vragen.

  • Er treedt een fout op als de optie gemiddelde of mediaan wordt gebruikt wanneer er reeks kolommen worden geselecteerd. Als u kolommen van verschillende gegevens typen wilt verwerken, maakt u twee exemplaren van het schonen van ontbrekende gegevens.

  • Als ontbrekende waarden worden vervangen door een gemiddelde waarde in kolommen met de waarden van de Booleaanse, integer, DateTime of time span, wordt de kolom eerst geconverteerd naar drijvende-komma getallen, wordt het gemiddelde berekend en vervolgens wordt het resultaat afgerond op de dichtstbijzijnde waarde van het oorspronkelijke gegevens type.

  • Wanneer u een vervangings waarde typt, moet de waarde compatibel zijn met het gegevens type in de geselecteerde kolom.

  • Waarden van NaN , Inf en –Inf zijn toegestaan voor kolommen waarvan het gegevens type Double is.

  • Wanneer u de muis methode gebruikt, wordt de vervangings waarde voor speld met behulp van het getrainde muizen model.

  • Als u clean Missing Data gebruikt, kunnen andere kolom typen opnieuw worden ingesteld op functie. Als uw gegevens andere typen kolommen bevatten, zoals labels, gebruikt u meta gegevens bewerken om de kolom typen te corrigeren.

Beperkingen bij het gebruik van opschonings transformaties

De volgende beperkingen zijn van toepassing wanneer u een opgeslagen trans formatie (op basis van schone ontbrekende gegevens) gebruikt voor nieuwe gegevens:

  • Een opgeslagen trans formatie kan geen indicator waarden genereren, zelfs als deze optie in de oorspronkelijke opschoon bewerking is gebruikt. Houd rekening met de indicator waarden die het nuttigst zijn bij het testen van een nieuwe trans formatie.

  • De trans formatie berekent geen nieuwe waarden op basis van de nieuwe gegevensset. Met andere woorden, als u clean Missing-gegevens hebt gebruikt voor gegevensset A en een gemiddelde waarde van 0,5 hebt gegenereerd, zou dezelfde waarde worden toegepast als het gemiddelde voor het vervangen van ontbrekende waarden in gegevensset b, ongeacht de werkelijke waarden in gegevensset b.

  • Het gegevens type van de kolommen in de nieuwe gegevensset moet overeenkomen met het gegevens type van de kolommen waarop de trans formatie oorspronkelijk is gemaakt. Er wordt een fout gegenereerd als er bewerkingen worden uitgevoerd op de kolom die het gegevens type impliciet wijzigt.

    Stel dat u bijvoorbeeld een gemiddelde maakt voor een gegevens kolom met gehele getallen [Kol1] en de trans formatie opslaat. Nu wilt u de opschoon transformatie Toep assen op een kopie van [Kol1] die is aangepast met een formule, zoals ([Kol1]/1,5). Om ervoor te zorgen dat het resultaat een geheel getal is, wordt het resultaat afronden, maar er wordt nog steeds een fout weer geven wanneer u de trans formatie toepast. Als u de waarde echter aanpast met een formule zoals ([kol 1] * 10), wordt er geen fout gegenereerd.

    Als u dergelijke problemen wilt voor komen, gebruikt u meta gegevens bewerken om het gegevens type expliciet opnieuw in te stellen op geheel getal. Over het algemeen wijzigt bewerkingen in module Math bewerking impliciet numerieke kolommen in double .

Drempel waarden instellen en interpreteren

Wanneer u een drempel waarde opgeeft voor het opschonen van bewerkingen met de opties minimale verhouding van de waarde ontbrekend of maximale waarde ontbreekt, kunnen de resultaten onverwacht of verwarrend zijn. Om te laten zien hoe de opties voor het maximum en het minimum aantal ontbrekende waarden werken, hebben we enkele voor beelden gegeven uit de gegevensset voor de voorbeeld prijs van auto's , die veel kolommen bevat met ontbrekende waarden.

In de volgende tabel ziet u het aantal ontbrekende waarden voor meerdere kolommen in die DataSet, samen met de verhouding van ontbrekende waarden die zijn berekend op de gegevensset. De verhouding van ontbrekende waarden (in de kolom uiterst rechts) is de waarde die wordt gebruikt bij het evalueren van de gegevensset ten opzichte van de opgegeven drempel waarden.

Stel dat u de minimale waarde voor de ontbrekende waarden hebt ingesteld op 0,019 en stel de maximale waarde voor ontbrekende waarden in op 0,020. Aan de hand van de volgende tabel met waarden voldoen sommige kolommen aan de drempel criteria en andere niet:

  • De kolommen bore en stroke voldoen aan de drempel criteria.
  • De kolommen normalized-losses en compression-ratio voldoen niet aan de drempel criteria.
Kolomnaam Aantal ontbrekende waarden Verhouding van ontbrekende waarden
Genormaliseerd-verliezen 41 0,2
Boorgat 4 0,019512195
Streek 4 0,019512195
Compressie ratio 0 0

Omdat sommige kolommen in de selectie niet voldoen aan de opgegeven criteria, is er geen reinigings bewerking uitgevoerd voor een kolom. Om erachter te komen wat er is gebeurd, retourneert de module de waarde False in de twee indicator kolommen bore_IsMissing en stroke_IsMissing .

Als u de drempel waarde echter weer wijzigt in de standaard waarden van 0 voor de verhouding van minimale ontbrekende waarden en 1 voor de maximale ontbrekende waarde, wordt een indicator kolom geretourneerd voor alle geselecteerde kolommen en wordt de opgegeven bewerking uitgevoerd.

Tip

Als u niet zeker weet of ontbrekende waarde opschonen werkt zoals verwacht, selecteert u de optie kolom ontbrekende waarde indicator genereren .

Bekende problemen

Als u de muis methode gebruikt om gegevens op te schonen en vervolgens een gegevensset met ontbrekende waarden te verwerken, wordt mogelijk de volgende fout weer gegeven: ' AFx bibliotheek uitzonde ring: model is niet getraind. (Fout 1000) "

Deze fout treedt alleen op als de methode muizen is geselecteerd en als de gegevensset van de training geen ontbrekende waarden bevat, maar de gegevensset van de test.

Verwachte invoer

Naam Type Beschrijving
Gegevensset Gegevens tabel Te reinigen gegevensset

Module parameters

Naam Bereik Type Standaard Beschrijving
Kolommen die moeten worden opgeschoond Alle ColumnSelection Alles Selecteer kolommen voor de bewerking ontbrekende waarden.
Minimale ontbrekende waarde [0,0; 1.0] Drijvendekommagetal 0,0 Een alleen-lezen kolom met een waarde van de verhouding ontbreekt boven de opgegeven waarde, uit een set geselecteerde kolommen.
Maximum waarde voor de verhouding ontbreekt [0,0; 1.0] Drijvendekommagetal 1.0 Alleen kolommen met een lagere waarde verhouding opschonen onder de opgegeven waarde uit een set van alle geselecteerde kolommen.
Reinigings modus Lijst Afhandelings beleid Aangepaste vervangings waarde Kies een algoritme dat moet worden gebruikt bij het opschonen van ontbrekende waarden.
Vervangende waarde Alle Tekenreeks 0,3 Typ een waarde om de plaats van ontbrekende waarden te nemen.

Deze waarde is optioneel.
Cols met alle ontbrekende waarden Alle ColumnsWithAllValuesMissing Verwijderen Hiermee wordt aangegeven of kolommen van alle ontbrekende waarden moeten worden bewaard in de uitvoer.
Indicator kolom voor ontbrekende waarde genereren Alle Boolean-waarde onjuist Een kolom genereren die aangeeft welke rijen zijn opgeschoond.
Aantal herhalingen [1; 10] Geheel getal 5 Geef het aantal iteraties op wanneer muizen worden gebruikt.
Aantal iteraties voor PCA-voor spelling [1; 50] Geheel getal 10 Geef het aantal iteraties op wanneer u een PCA-voor spelling gebruikt.

Outputs

Naam Type Beschrijving
Opgeschoonde gegevensset Gegevens tabel Opgeschoonde gegevensset
Trans formatie opschonen ITransform-interface Trans formatie die moet worden door gegeven aan de module trans formatie Toep assen om nieuwe gegevens op te schonen.

Uitzonderingen

Uitzondering Beschrijving
Fout 0002 Een uitzonde ring treedt op als een of meer para meters niet kunnen worden geparseerd of geconverteerd van het opgegeven type naar het type dat vereist is voor de doel methode.
Fout 0003 Een uitzonde ring treedt op als een of meer invoer gegevens sets null of leeg zijn.
Fout 0008 Een uitzonde ring treedt op als een para meter zich niet binnen het bereik bevindt.
Fout 0013 Er treedt een uitzonde ring op als de aan de module door gegeven Lean-host een ongeldig type heeft.
Fout 0018 Een uitzonde ring treedt op als de ingevoerde gegevensset ongeldig is.
Fout 0039 Als de bewerking mislukt, treedt er een uitzonde ring op.

Zie machine learning fout codesvoor een lijst met fouten die specifiek zijn voor Studio-modules (Classic).

Zie Machine Learning rest API fout codesvoor een lijst met API-uitzonde ringen.

Zie ook

Kenmerken
Gegevens transformatie
Module lijst a-Z