Het onderdeel Gegevens handmatig invoeren

In dit artikel wordt een onderdeel in de Azure Machine Learning-ontwerpfunctie beschreven.

Gebruik het onderdeel Gegevens handmatig invoeren om een kleine gegevensset te maken door waarden te typen. De gegevensset kan meerdere kolommen bevatten.

Dit onderdeel kan handig zijn in scenario's zoals:

  • Een kleine set waarden genereren voor testen.
  • Een korte lijst met labels maken.
  • Een lijst met kolomnamen typen om in een gegevensset in te voegen.

Een gegevensset maken

  1. Voeg het onderdeel Gegevens handmatig invoeren toe aan uw pijplijn. U vindt dit onderdeel in de categorie Gegevensinvoer en -uitvoer in Azure Machine Learning.

  2. Selecteer een van de volgende opties voor DataFormat. Deze opties bepalen hoe de gegevens die u opgeeft, moeten worden geparseerd. De vereisten voor elke indeling verschillen sterk, dus zorg ervoor dat u de gerelateerde onderwerpen leest.

    • ARFF: Bestandsindeling met kenmerkrelatie die wordt gebruikt door Weka.
    • CSV: indeling van door komma's gescheiden waarden. Zie Converteren naar CSV voor meer informatie.
    • SVMLight: indeling die wordt gebruikt door Vowpal Wabbit en andere machine learning-frameworks.
    • TSV: Door tabs gescheiden waardenindeling.

    Als u een indeling kiest en geen gegevens opgeeft die voldoen aan de indelingsspecificaties, treedt er een runtimefout op.

  3. Klik in het tekstvak Gegevens om gegevens in te voeren. De volgende indelingen vereisen speciale aandacht:

    • CSV: als u meerdere kolommen wilt maken, plakt u door komma's gescheiden tekst of typt u meerdere kolommen met komma's tussen velden.

      Als u de optie HasHeader selecteert, kunt u de eerste rij met waarden als kolomkop gebruiken.

      Als u deze optie uitschakelt, worden de kolomnamen (Col1, Col2, enzovoort) gebruikt. U kunt later kolomnamen toevoegen of wijzigen met behulp van Metagegevens bewerken.

    • TSV: als u meerdere kolommen wilt maken, plakt u door tabs gescheiden tekst of typt u meerdere kolommen met behulp van tabbladen tussen velden.

      Als u de optie HasHeader selecteert, kunt u de eerste rij met waarden als kolomkop gebruiken.

      Als u deze optie uitschakelt, worden de kolomnamen (Col1, Col2, enzovoort) gebruikt. U kunt later kolomnamen toevoegen of wijzigen met behulp van Metagegevens bewerken.

    • ARFF: plak in een bestaand ARFF-indelingsbestand. Als u waarden rechtstreeks typt, moet u de optionele header- en vereiste kenmerkvelden toevoegen aan het begin van de gegevens.

      De volgende veldnamen- en kenmerkrijen kunnen bijvoorbeeld worden toegevoegd aan een eenvoudige lijst. De kolomkop zou zijn SampleText. Houd er rekening mee dat het tekenreekstype niet wordt ondersteund.

      % Title: SampleText.ARFF  
      % Source: Enter Data component  
      @ATTRIBUTE SampleText NUMERIC  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: typ of plak waarden met behulp van de SVMLight-indeling.

      Het volgende voorbeeld vertegenwoordigt bijvoorbeeld de eerste paar regels van de gegevensset Bloeddonatie, in SVMLight-indeling:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      Wanneer u het onderdeel Gegevens handmatig invoeren uitvoert, worden deze regels als volgt geconverteerd naar een gegevensset met kolommen en indexwaarden:

      Kolom 1 Kolom 2 Kolom3 Col4 Labels
      0.00016 0.004 0.999961 0.00784 1
      0 0.004 0.999955 0.008615 1
  4. Selecteer de Enter-toets na elke rij om een nieuwe regel te starten.

    Als u Meerdere keren Invoeren selecteert om meerdere lege volgrijen toe te voegen, worden de lege rijen verwijderd of ingekort.

    Als u rijen met ontbrekende waarden maakt, kunt u deze later altijd uitfilteren.

  5. Verbind de uitvoerpoort met andere onderdelen en voer de pijplijn uit.

    Als u de gegevensset wilt weergeven, klikt u met de rechtermuisknop op het onderdeel en selecteert u Visualiseren.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.