Importera datakomponent

Den här artikeln beskriver en komponent i Azure Machine Learning-designern.

Använd den här komponenten för att läsa in data i en maskininlärningspipeline från befintliga molndatatjänster.

Anteckning

Alla funktioner som tillhandahålls av den här komponenten kan göras av datalager och datauppsättningar på landningssidan för arbetsytan. Vi rekommenderar att du använder datalager och datamängd som innehåller ytterligare funktioner som dataövervakning. Mer information finns i artikeln How to Access Data and How to Register Datasets (Så här gör du för att komma åt data och registrera datauppsättningar ). När du har registrerat en datauppsättning hittar du den i kategorin Datauppsättningar –>Mina datauppsättningar i designergränssnittet. Den här komponenten är reserverad för Studio(klassiska) användare för en välbekant upplevelse.

Komponenten Importera data stöder läsdata från följande källor:

  • URL via HTTP
  • Azure-molnlagringar via datalager)
    • Azure Blob-container
    • Azure-filresurs
    • Azure Data Lake
    • Azure Data Lake Gen2
    • Azure SQL Database
    • Azure PostgreSQL

Innan du använder molnlagring måste du registrera ett datalager i Azure Machine Learning-arbetsytan först. Mer information finns i Komma åt data.

När du har definierat de data som du vill ha och ansluter till källan, härleder Import Data datatypen för varje kolumn baserat på de värden som den innehåller och läser in data i din designerpipeline. Utdata från Importera data är en datauppsättning som kan användas med valfri designerpipeline.

Om källdata ändras kan du uppdatera datauppsättningen och lägga till nya data genom att köra importera data igen.

Varning

Om din arbetsyta finns i ett virtuellt nätverk måste du konfigurera dina datalager så att de använder designerns funktioner för datavisualisering. Mer information om hur du använder datalager och datauppsättningar i ett virtuellt nätverk finns i Använda Azure Machine Learning-studio i ett virtuellt Azure-nätverk.

Så här konfigurerar du importdata

  1. Lägg till komponenten Importera data i pipelinen. Du hittar den här komponenten i kategorin Dataindata och utdata i designern.

  2. Välj komponenten för att öppna det högra fönstret.

  3. Välj Datakälla och välj datakällans typ. Det kan vara HTTP eller datalager.

    Om du väljer datalager kan du välja befintliga datalager som redan är registrerade på din Azure Machine Learning-arbetsyta eller skapa ett nytt datalager. Definiera sedan sökvägen för data som ska importeras i datalagringen. Du kan enkelt bläddra i sökvägen genom att välja Sökväg.

    Skärmbild som visar länken Bläddra sökväg som öppnar dialogrutan Sökvägsval.

    Anteckning

    Importdatakomponenten är endast för tabelldata . Om du vill importera flera tabelldatafiler en gång krävs följande villkor, annars uppstår fel:

    1. Om du vill inkludera alla datafiler i mappen måste du ange folder_name/** för Sökväg.
    2. Alla datafiler måste vara kodade i unicode-8.
    3. Alla datafiler måste ha samma kolumnnummer och kolumnnamn.
    4. Resultatet av att importera flera datafiler sammanfogar alla rader från flera filer i ordning.
  4. Välj förhandsgranskningsschemat för att filtrera de kolumner som du vill inkludera. Du kan också definiera avancerade inställningar som Avgränsare i Parsningsalternativ.

    Skärmbild av schemaförhandsgranskningen med kolumn 3, 4, 5 och 6 markerade.

  5. Kryssrutan Återskapa utdata avgör om komponenten ska köras för att återskapa utdata vid körning.

    Den är som standard omarkerad, vilket innebär att om komponenten har körts med samma parametrar tidigare återanvänder systemet utdata från den senaste körningen för att minska körningstiden.

    Om den väljs kör systemet komponenten igen för att återskapa utdata. Välj det här alternativet när underliggande data i lagringen uppdateras, så kan det hjälpa dig att hämta de senaste data.

  6. Skicka pipelinen.

    När Import Data läser in data i designern härleder den datatypen för varje kolumn baserat på de värden som den innehåller, antingen numeriska eller kategoriska.

    Om en rubrik finns används rubriken för att namnge kolumnerna i utdatauppsättningen.

    Om det inte finns några befintliga kolumnrubriker i data genereras nya kolumnnamn med formatet col1, col2,... , coln*.

Resultat

När importen är klar högerklickar du på utdatauppsättningen och väljer Visualisera för att se om data har importerats.

Om du vill spara data för återanvändning, i stället för att importera en ny uppsättning data varje gång pipelinen körs, väljer du ikonen Registrera datauppsättning under fliken Utdata+loggar på den högra panelen i komponenten. Välj ett namn för datauppsättningen. Den sparade datauppsättningen bevarar data vid tidpunkten för sparandet. Datauppsättningen uppdateras inte när pipelinen körs igen, även om datauppsättningen i pipelinen ändras. Detta kan vara användbart för att ta ögonblicksbilder av data.

När du har importerat data kan det behövas några ytterligare förberedelser för modellering och analys:

  • Använd Redigera metadata för att ändra kolumnnamn, hantera en kolumn som en annan datatyp eller ange att vissa kolumner är etiketter eller funktioner.

  • Använd Välj kolumner i datauppsättning för att välja en delmängd av kolumner som ska transformeras eller användas i modellering. De transformerade eller borttagna kolumnerna kan enkelt återanslutas till den ursprungliga datauppsättningen med hjälp av komponenten Lägg till kolumner .

  • Använd Partition och Exempel för att dela upp datauppsättningen, utföra sampling eller hämta de översta n raderna.

Begränsningar

På grund av åtkomstbegränsningen för datalager tas den bort automatiskt när den distribueras till realtidsslutpunkten om din slutsatsdragningspipeline innehåller komponenten Importera data .

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Machine Learning.