Onderdeel Metagegevens bewerken

In dit artikel wordt een onderdeel beschreven dat is opgenomen in de Azure Machine Learning-ontwerpfunctie.

Gebruik het onderdeel Metagegevens bewerken om metagegevens te wijzigen die zijn gekoppeld aan kolommen in een gegevensset. De waarde en het gegevenstype van de gegevensset worden gewijzigd na gebruik van het onderdeel Metagegevens bewerken.

Typische wijzigingen in metagegevens zijn onder andere:

  • Booleaanse of numerieke kolommen behandelen als categorische waarden.

  • Hiermee wordt aangegeven welke kolom het klasselabel bevat of de waarden bevat die u wilt categoriseren of voorspellen.

  • Kolommen markeren als functies.

  • Datum-/tijdwaarden wijzigen in numerieke waarden of omgekeerd.

  • De naam van kolommen wijzigen.

Gebruik Metagegevens bewerken op elk gewenst moment om de definitie van een kolom te wijzigen, meestal om te voldoen aan de vereisten voor een downstreamonderdeel. Sommige onderdelen werken bijvoorbeeld alleen met specifieke gegevenstypen of vereisen vlaggen op de kolommen, zoals IsFeature of IsCategorical.

Nadat u de vereiste bewerking hebt uitgevoerd, kunt u de metagegevens opnieuw instellen op de oorspronkelijke staat.

Metagegevens bewerken configureren

  1. Voeg in Azure Machine Learning Designer het onderdeel Metagegevens bewerken toe aan uw pijplijn en verbind de gegevensset die u wilt bijwerken. U vindt het onderdeel in de categorie Gegevenstransformatie .

  2. Klik op Kolom bewerken in het rechterdeelvenster van het onderdeel en kies de kolom of set kolommen waarmee u wilt werken. U kunt kolommen afzonderlijk kiezen op naam of index, of u kunt een groep kolommen kiezen op type.

  3. Selecteer de optie Gegevenstype als u een ander gegevenstype wilt toewijzen aan de geselecteerde kolommen. Mogelijk moet u het gegevenstype voor bepaalde bewerkingen wijzigen. Als uw brongegevensset bijvoorbeeld getallen bevat die als tekst worden verwerkt, moet u deze wijzigen in een numeriek gegevenstype voordat u wiskundige bewerkingen gebruikt.

    • De ondersteunde gegevenstypen zijn Tekenreeks, Geheel getal, Dubbel, Booleaans en Datum/tijd.

    • Als u meerdere kolommen selecteert, moet u de wijzigingen in metagegevens toepassen op alle geselecteerde kolommen. Stel dat u twee of drie numerieke kolommen kiest. U kunt ze allemaal wijzigen in een tekenreeksgegevenstype en de naam ervan in één bewerking wijzigen. U kunt de ene kolom echter niet wijzigen in een tekenreeksgegevenstype en een andere kolom van een float in een geheel getal.

    • Als u geen nieuw gegevenstype opgeeft, blijven de metagegevens van de kolom ongewijzigd.

    • Het kolomtype en de waarden worden gewijzigd nadat u de bewerking Metagegevens bewerken hebt uitgevoerd. U kunt het oorspronkelijke gegevenstype op elk gewenst moment herstellen door metagegevens bewerken te gebruiken om het gegevenstype van de kolom opnieuw in te stellen.

    Notitie

    De datum/tijd-indeling volgt de ingebouwde datum/tijd-indeling van Python.
    Als u een bepaald type getal wijzigt in het type Datum/ tijd, laat u het veld Datum/tijdnotatie leeg. Het is momenteel niet mogelijk om de doelgegevensindeling op te geven.

  4. Selecteer de optie Categorisch om op te geven dat de waarden in de geselecteerde kolommen moeten worden behandeld als categorieën.

    U hebt bijvoorbeeld een kolom met de getallen 0, 1 en 2, maar weet dat de getallen eigenlijk 'Roker', 'Niet-roker' en 'Onbekend' betekenen. Als u de kolom in dat geval categorisch markeert, zorgt u ervoor dat de waarden alleen worden gebruikt om gegevens te groeperen en niet in numerieke berekeningen.

  5. Gebruik de optie Velden als u de manier wilt wijzigen waarop Azure Machine Learning de gegevens in een model gebruikt.

    • Functie: gebruik deze optie om een kolom te markeren als een functie in onderdelen die alleen op functiekolommen werken. Standaard worden alle kolommen in eerste instantie behandeld als functies.

    • Label: gebruik deze optie om het label te markeren. Dit wordt ook wel het voorspelbare kenmerk of de doelvariabele genoemd. Veel onderdelen vereisen dat er precies één labelkolom aanwezig is in de gegevensset.

      In veel gevallen kan Azure Machine Learning afleiden dat een kolom een klasselabel bevat. Door deze metagegevens in te stellen, kunt u ervoor zorgen dat de kolom correct wordt geïdentificeerd. Als u deze optie instelt, worden gegevenswaarden niet gewijzigd. Het verandert alleen de manier waarop sommige machine learning-algoritmen de gegevens verwerken.

    Tip

    Hebt u gegevens die niet in deze categorieën passen? Uw gegevensset kan bijvoorbeeld waarden bevatten zoals unieke id's die niet nuttig zijn als variabelen. Soms kunnen dergelijke id's problemen veroorzaken bij gebruik in een model.

    Gelukkig bewaart Azure Machine Learning al uw gegevens, zodat u dergelijke kolommen niet uit de gegevensset hoeft te verwijderen. Wanneer u bewerkingen moet uitvoeren op een speciale set kolommen, verwijdert u alle andere kolommen tijdelijk met behulp van het onderdeel Kolommen selecteren in gegevensset . Later kunt u de kolommen weer samenvoegen in de gegevensset met behulp van het onderdeel Kolommen toevoegen .

  6. Gebruik de volgende opties om eerdere selecties te wissen en metagegevens te herstellen naar de standaardwaarden.

    • Functie wissen: gebruik deze optie om de functievlag te verwijderen.

      Alle kolommen worden in eerste instantie behandeld als functies. Voor onderdelen die wiskundige bewerkingen uitvoeren, moet u mogelijk deze optie gebruiken om te voorkomen dat numerieke kolommen als variabelen worden behandeld.

    • Label wissen: gebruik deze optie om de metagegevens van het label uit de opgegeven kolom te verwijderen.

    • Score wissen: gebruik deze optie om de metagegevens van de score uit de opgegeven kolom te verwijderen.

      U kunt een kolom momenteel niet expliciet markeren als een score in Azure Machine Learning. Sommige bewerkingen hebben echter tot gevolg dat een kolom intern als score wordt gemarkeerd. Een aangepast R-onderdeel kan ook scorewaarden uitvoeren.

  7. Voer bij Nieuwe kolomnamen de nieuwe naam van de geselecteerde kolom of kolommen in.

    • Kolomnamen kunnen alleen tekens bevatten die worden ondersteund door UTF-8-codering. Lege tekenreeksen, null-waarden of namen die volledig uit spaties bestaan, zijn niet toegestaan.

    • Als u de naam van meerdere kolommen wilt wijzigen, voert u de namen in als een door komma's gescheiden lijst in volgorde van de kolomindexen.

    • De naam van alle geselecteerde kolommen moet worden gewijzigd. U kunt kolommen niet weglaten of overslaan.

  8. Verzend de pijplijn.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.