Konvertera till datamängd

Den här artikeln beskriver hur du använder komponenten Konvertera till datauppsättning i Azure Machine Learning-designern för att konvertera data för en pipeline till designerns interna format.

Konvertering krävs inte i de flesta fall. Azure Machine Learning konverterar implicit data till sitt interna datauppsättningsformat när en åtgärd utförs på data.

Vi rekommenderar att du sparar data i datauppsättningsformatet om du har utfört någon form av normalisering eller rensning av en uppsättning data, och du vill se till att ändringarna används i andra pipelines.

Anteckning

Konvertera till Datamängd ändrar bara formatet på data. Den sparar inte en ny kopia av data på arbetsytan. Om du vill spara datauppsättningen dubbelklickar du på utdataporten, väljer Spara som datauppsättning och anger ett nytt namn.

Så här använder du Konvertera till datauppsättning

Vi rekommenderar att du använder komponenten Redigera metadata för att förbereda datauppsättningen innan du använder Konvertera till datauppsättning. Du kan lägga till eller ändra kolumnnamn, justera datatyper och göra andra ändringar efter behov.

  1. Lägg till komponenten Konvertera till datauppsättning i pipelinen. Du hittar den här komponenten i kategorin Datatransformering i designern.

  2. Anslut den till alla komponenter som matar ut en datauppsättning.

    Så länge data är tabellbaserade kan du konvertera dem till en datauppsättning. Detta inkluderar data som läses in via importdata, data som skapats via Ange data manuellt eller datauppsättningar som transformerats via Tillämpa transformering.

  3. I listrutan Åtgärd anger du om du vill rensa data innan du sparar datauppsättningen:

    • Ingen: Använd data som de är.

    • SetMissingValue: Ange ett specifikt värde till ett värde som saknas i datauppsättningen. Standardplatshållaren är frågetecknet (?), men du kan använda alternativet Anpassat värde som saknas för att ange ett annat värde. Om du till exempel anger Värdet Taxi for Custom missing (Taxi for Custom missing) ändras alla instanser av Taxi i datauppsättningen till det saknade värdet.

    • ReplaceValues: Använd det här alternativet för att ange ett enda exakt värde som ska ersättas med andra exakta värden. Du kan ersätta saknade värden eller anpassade värden genom att ange metoden Ersätt :

      • Saknas: Välj det här alternativet om du vill ersätta saknade värden i indatauppsättningen. För Nytt värde anger du det värde som de saknade värdena ska ersättas med.
      • Anpassad: Välj det här alternativet om du vill ersätta anpassade värden i indatauppsättningen. För Anpassat värde anger du det värde som du vill hitta. Om dina data till exempel innehåller strängen obs som används som platshållare för saknade värden anger obsdu . För Nytt värde anger du det nya värdet som den ursprungliga strängen ska ersättas med.

    Observera att åtgärden ReplaceValues endast gäller för exakta matchningar. Dessa strängar skulle till exempel inte påverkas: obs., obsolete.

  4. Skicka pipelinen.

Resultat

  • Om du vill spara den resulterande datamängden med ett nytt namn väljer du på ikonen Registrera datauppsättning under fliken Utdata på den högra panelen i komponenten.

Tekniska anteckningar

  • Alla komponenter som tar en datauppsättning som indata kan också ta data i CSV-filen eller TSV-filen. Innan någon komponentkod körs förbearbetas indata. Förbearbetning motsvarar körningen av komponenten Konvertera till datauppsättning på indata.

  • Du kan inte konvertera från SVMLight-formatet till en datauppsättning.

  • När du anger en anpassad ersättningsåtgärd gäller åtgärden search-and-replace för fullständiga värden. Partiella matchningar tillåts inte. Du kan till exempel ersätta en 3 med -1 eller med 33, men du kan inte ersätta en 3 med ett tvåsiffrigt tal, till exempel 35.

  • För anpassade ersättningsåtgärder misslyckas ersättningen tyst om du använder ett ersättningstecken som inte överensstämmer med kolumnens aktuella datatyp.

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.