Ange komponenten Data manuellt

Den här artikeln beskriver en komponent i Azure Machine Learning-designern.

Använd komponenten Ange data manuellt för att skapa en liten datamängd genom att skriva värden. Datauppsättningen kan ha flera kolumner.

Den här komponenten kan vara användbar i scenarier som:

  • Generera en liten uppsättning värden för testning.
  • Skapa en kort lista med etiketter.
  • Skriva en lista med kolumnnamn som ska infogas i en datauppsättning.

Skapa en datauppsättning

  1. Lägg till komponenten Ange data manuellt i pipelinen. Du hittar den här komponenten i kategorin Dataindata och utdata i Azure Machine Learning.

  2. För DataFormat väljer du något av följande alternativ. De här alternativen avgör hur de data som du anger ska parsas. Kraven för varje format skiljer sig mycket åt, så se till att läsa relaterade ämnen.

    • ARFF: Attribut-relation filformat som används av Weka.
    • CSV: Formatet kommaavgränsade värden. Mer information finns i Konvertera till CSV.
    • SVMLight: Format som används av Vowpal Wabbit och andra ramverk för maskininlärning.
    • TSV: Tabellavgränsat värdeformat.

    Om du väljer ett format och inte anger data som uppfyller formatspecifikationerna uppstår ett körningsfel.

  3. Klicka i textrutan Data för att börja ange data. Följande format kräver särskild uppmärksamhet:

    • CSV: Om du vill skapa flera kolumner klistrar du in kommaavgränsad text eller skriver flera kolumner med kommatecken mellan fält.

      Om du väljer alternativet HasHeader kan du använda den första raden med värden som kolumnrubrik.

      Om du avmarkerar det här alternativet används kolumnnamnen (Col1, Col2 och så vidare). Du kan lägga till eller ändra kolumnnamn senare med hjälp av Redigera metadata.

    • TSV: Om du vill skapa flera kolumner klistrar du in flikavgränsad text eller skriver flera kolumner med hjälp av flikar mellan fält.

      Om du väljer alternativet HasHeader kan du använda den första raden med värden som kolumnrubrik.

      Om du avmarkerar det här alternativet används kolumnnamnen (Col1, Col2 och så vidare). Du kan lägga till eller ändra kolumnnamn senare med hjälp av Redigera metadata.

    • ARFF: Klistra in en befintlig ARFF-formatfil. Om du skriver värden direkt måste du lägga till det valfria huvudet och obligatoriska attributfält i början av data.

      Följande rubrik- och attributrader kan till exempel läggas till i en enkel lista. Kolumnrubriken skulle vara SampleText. Observera att strängtypen inte stöds.

      % Title: SampleText.ARFF  
      % Source: Enter Data component  
      @ATTRIBUTE SampleText NUMERIC  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: Skriv eller klistra in värden med SVMLight-formatet.

      Följande exempel representerar till exempel de första raderna i datauppsättningen bloddonation i SVMLight-format:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      När du kör komponenten Ange data manuellt konverteras dessa rader till en datamängd med kolumner och indexvärden på följande sätt:

      Col1 Col2 Col3 Col4 Etiketter
      0.00016 0.004 0.999961 0.00784 1
      0 0.004 0.999955 0.008615 1
  4. Välj returnyckeln efter varje rad för att starta en ny rad.

    Om du väljer Ange flera gånger för att lägga till flera tomma avslutande rader tas de tomma raderna bort eller trimmas.

    Om du skapar rader med saknade värden kan du alltid filtrera bort dem senare.

  5. Anslut utdataporten till andra komponenter och kör pipelinen.

    Om du vill visa datauppsättningen högerklickar du på komponenten och väljer Visualisera.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.