Gegevens voorbereiden voor verbeterde machine learning

Voorverwerking en opschoning van gegevens zijn belangrijke taken die moeten worden uitgevoerd voordat een gegevensset kan worden gebruikt voor modeltraining. Onbewerkte gegevens zijn vaak luidruchtig en onbetrouwbaar en ontbreken mogelijk waarden. Het gebruik van dergelijke gegevens voor modellering kan misleidende resultaten opleveren. Deze taken maken deel uit van het TDSP (Team Datawetenschap Process) en volgen doorgaans een eerste verkenning van een gegevensset die wordt gebruikt voor het detecteren en plannen van de vereiste voorverwerking. Wat is het Team Datawetenschap Process? voor meer informatie.

Taken voorverwerken en opschonen, zoals de gegevensverkenningstaak, kunnen worden uitgevoerd in een groot aantal omgevingen, zoals SQL of Hive of Azure Machine Learning-studio (klassiek). U kunt ook verschillende hulpprogramma's en talen gebruiken, zoals R of Python. Waar uw gegevens worden opgeslagen en hoe de indeling van invloed is op deze beslissingen. Omdat de TDSP iteratief van aard is, kunnen deze taken plaatsvinden op verschillende stappen in de werkstroom van het proces.

In dit artikel worden verschillende concepten en taken voor gegevensverwerking geïntroduceerd die kunnen worden uitgevoerd voor of na het opnemen van gegevens in Azure Machine Learning-studio (klassiek).

Voor een voorbeeld van gegevensverkenning en voorverwerking in Azure Machine Learning-studio (klassiek), bekijkt u de video, Gegevens vooraf verwerken.

Waarom gegevens vooraf verwerken en opschonen?

Echte gegevens worden verzameld uit verschillende bronnen en processen en kunnen onregelmatigheden bevatten of beschadigde gegevens die de kwaliteit van de gegevensset in gevaar brengen. De typische problemen met de kwaliteit van gegevens die zich voordoen, zijn:

  • Onvolledige gegevens: ontbrekende kenmerken of ontbrekende waarden bevatten
  • Ruisgegevens: bevat onjuiste records of uitbijters
  • Inconsistente gegevens: bevat conflicterende records of discrepanties

Kwaliteitsgegevens zijn een vereiste voor voorspellende kwaliteitsmodellen. Om garbage-in, garbage-out en verbetering van de gegevenskwaliteit en daarom modelprestaties te voorkomen, is het noodzakelijk om een gegevensstatusscherm uit te voeren om gegevensproblemen vroeg te herkennen. U moet beslissen over de bijbehorende gegevensverwerkings- en schoonmaakstappen.

Wat zijn enkele typische statuscontroles voor gegevens die worden gebruikt?

U kunt de algemene kwaliteit van gegevens controleren door het volgende te controleren:

  • Het aantal records.
  • Het aantal kenmerken (of functies).
  • De kenmerkgegevenstypen, zoals nominaal, rangschikken of doorlopend.
  • Het aantal ontbrekende waarden.
  • Voor goed opgemaakte gegevens.
    • Als de gegevens een TSV- of CSV-indeling hebben, controleert u of de kolomscheidingstekens en lijnscheidingstekens kolommen en regels correct scheiden.
    • Als de gegevens een HTML- of XML-indeling hebben, controleert u of de gegevens goed zijn gevormd op basis van hun respectieve standaarden.
    • Parseren kan ook nodig zijn om gestructureerde informatie te extraheren uit semi-gestructureerde of ongestructureerde gegevens.
  • Inconsistente gegevensrecords. Controleer of het bereik met waarden is toegestaan. Als de gegevens bijvoorbeeld gemiddelden van het cijferpunt voor studenten (GPO's) bevatten, controleert u of de GPO's zich in het aangewezen bereik bevinden, bijvoorbeeld 0 tot 4.

Wanneer u problemen met gegevens vindt, voert u verwerkingsstappen uit, bijvoorbeeld het opschonen van ontbrekende waarden, gegevensnormalisatie, discretisatie, tekstverwerking om ingesloten tekens te verwijderen of te vervangen die van invloed kunnen zijn op gegevensuitlijning, gemengde gegevenstypen in gemeenschappelijke velden en andere.

Azure Machine Learning verbruikt goed opgemaakte tabelgegevens. Als de gegevens al in tabelvorm zijn, kunt u gegevens vooraf verwerken met Azure Machine Learning-studio (klassiek). Als gegevens zich niet in tabelvorm bevinden, bijvoorbeeld als ze een XML-indeling hebben, moet u de gegevens mogelijk parseren om deze te converteren naar een tabelvorm.

Wat zijn enkele van de belangrijkste taken in het voorverwerken van gegevens?

  • Gegevens opschonen: vul ontbrekende waarden in, detecteer en verwijder ruisgegevens en uitbijters.
  • Gegevenstransformatie: gegevens normaliseren om dimensies en ruis te verminderen.
  • Gegevensreductie: voorbeeldgegevensrecords of -kenmerken voor eenvoudigere verwerking van gegevens.
  • Gegevensdisretisatie: continue kenmerken converteren naar categorische kenmerken voor gebruiksgemak met bepaalde machine learning-methoden.
  • Tekst opschonen: ingesloten tekens verwijderen die een onjuiste uitlijning van gegevens kunnen veroorzaken. Ze kunnen bijvoorbeeld ingesloten tabbladen zijn in een door tabs gescheiden gegevensbestand of ingesloten nieuwe regels waarmee records worden verbroken.

In de volgende secties worden enkele van deze stappen voor gegevensverwerking beschreven.

Hoe omgaan met ontbrekende waarden?

Als u ontbrekende waarden wilt verwerken, moet u eerst de reden voor de ontbrekende waarden identificeren. Gebruikelijke methoden voor het verwerken van ontbrekende waarden zijn:

  • Verwijderen: records met ontbrekende waarden verwijderen.
  • Dummy-vervanging: Vervang ontbrekende waarden door een dummywaarde, zoals onbekend voor categorische waarden of 0 voor numerieke waarden.
  • Gemiddelde vervanging: als de ontbrekende gegevens numeriek zijn, vervangt u de ontbrekende waarden door het gemiddelde.
  • Frequente vervanging: als de ontbrekende gegevens categorisch zijn, vervangt u de ontbrekende waarden door het meest voorkomende item.
  • Regressievervanging: gebruik een regressiemethode om ontbrekende waarden te vervangen door teruggedraaide waarden.

Gegevens normaliseren

Met gegevensnormalisatie worden numerieke waarden opnieuw geschaald naar een opgegeven bereik. Populaire methoden voor gegevensnormalisatie zijn onder andere:

  • Minimale normalisatie: Transformeer de gegevens lineair naar een bereik, zoals 0 tot 1, waarbij de minimumwaarde wordt geschaald naar 0 en de maximumwaarde wordt geschaald naar 1.
  • Z-scorenormalisatie: gegevens schalen op basis van gemiddelde en standaarddeviatie. Deel het verschil tussen de gegevens en het gemiddelde door de standaarddeviatie.
  • Decimaal schalen: schaal de gegevens door het decimaalteken van de kenmerkwaarde te verplaatsen.

Hoe kan ik gegevens discretiseren?

Gegevens kunnen worden discretized door continue waarden te converteren naar nominale kenmerken of intervallen. U kunt de volgende methoden gebruiken:

  • Binning met gelijke breedte: deel het bereik van alle mogelijke waarden van een kenmerk in N-groepen van dezelfde grootte en wijs de waarden toe die in een bin vallen met het bin-getal.
  • Binning met gelijke hoogte: verdeel het bereik van alle mogelijke waarden van een kenmerk in N-groepen , die elk hetzelfde aantal exemplaren bevatten. Wijs vervolgens de waarden toe die in een bin vallen met het bin-nummer.

Hoe kan ik gegevens verminderen?

Er zijn verschillende methoden om de gegevensgrootte te verkleinen voor eenvoudigere gegevensverwerking. Afhankelijk van de gegevensgrootte en het domein kunt u de volgende methoden toepassen:

  • Recordsampling: Voorbeeld van de gegevensrecords en kies alleen de representatieve subset uit de gegevens.
  • Kenmerksampling: Selecteer alleen een subset van de belangrijkste kenmerken uit de gegevens.
  • Aggregatie: Verdeel de gegevens in groepen en sla de getallen voor elke groep op. De dagelijkse omzetcijfers van een restaurantketen in de afgelopen 20 jaar kunnen bijvoorbeeld worden samengevoegd tot maandelijkse omzet om de grootte van de gegevens te verminderen.

Tekstgegevens opschonen

Tekstvelden in tabellaire gegevens kunnen tekens bevatten die van invloed zijn op kolomuitlijning of recordgrenzen. Ingesloten tabbladen in een door tabs gescheiden bestand veroorzaken bijvoorbeeld onjuiste uitlijning van kolommen en ingesloten nieuwe regeltekens breken recordregels af. Tijdens het schrijven of lezen van tekst kunt u tekstcodering correct verwerken om gegevensverlies te voorkomen, onbedoeld onleesbare tekens (zoals null's) introduceren of negatieve gevolgen hebben voor het parseren van tekst. Mogelijk moet u gegevens zorgvuldig parseren en bewerken. U kunt tekstvelden opschonen om ervoor te zorgen dat gestructureerde gegevens correct worden uitgelijnd en geëxtraheerd uit ongestructureerde of semi-gestructureerde gegevens.

Gegevensverkenning biedt een vroeg overzicht van gegevens. U kunt tijdens deze stap veel gegevensproblemen ontdekken en bijbehorende methoden toepassen om deze problemen op te lossen. Het is belangrijk om vragen te stellen, zoals wat de oorzaak van het probleem is en hoe het probleem is geïntroduceerd. Dit proces helpt u ook bij het bepalen van de stappen voor gegevensverwerking die moeten worden uitgevoerd om ze op te lossen. Als u prioriteit wilt geven aan de gegevensverwerking, kunt u de uiteindelijke use cases en persona's identificeren.

Verwijzingen

Data Mining: Concepts and Techniques, Third Edition, Morgan Kaufmann, 2011, Jiawei Han, Micheline Kamber en Jian Pei

Medewerkers

Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.

Hoofdauteur:

Als u niet-openbare LinkedIn-profielen wilt zien, meldt u zich aan bij LinkedIn.

Volgende stappen