Snabbstart: Skapa en datafabrik med hjälp av Azure Portal och Azure Data Factory Studio

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Den här snabbstarten beskriver hur du använder Azure Data Factory-användargränssnittet till att skapa och övervaka en datafabrik. Den pipeline du skapar i den här datafabriken kopierar data från en mapp till en annan mapp i Azure Blob Storage. Information om hur du transformerar data med hjälp av Azure Data Factory finns i Mappa dataflöde.

Anteckning

Om du inte har använt Azure Data Factory tidigare kan du läsa Introduktion till Azure Data Factory.

Förutsättningar

Azure-prenumeration

Om du inte har någon Azure-prenumeration kan du skapa ett kostnadsfritt konto innan du börjar.

Azure-roller

Om du vill skapa Data Factory-instanser måste det användarkonto du använder för att logga in på Azure vara medlem av rollerna deltagare eller ägare, eller vara administratör för Azure-prenumerationen. Om du vill visa de behörigheter som du har i prenumerationen går du till Azure Portal, väljer ditt användarnamn i det övre högra hörnet, väljer ikonen "..." för fler alternativ och väljer sedan Mina behörigheter. Om du har åtkomst till flera prenumerationer väljer du rätt prenumeration.

För att skapa och hantera underordnade resurser för Data Factory – inklusive datauppsättningar, länkade tjänster, pipelines, utlösare och integreringskörningar – gäller följande krav:

  • Om du vill skapa och hantera underordnade resurser i Azure Portal måste du tillhöra rollen Data Factory-deltagare på resursgruppsnivå eller högre.
  • För att skapa och hantera underordnade resurser med PowerShell eller SDK räcker det att du har rollen som deltagare på resursnivå eller högre.

För exempel på instruktioner om hur du lägger till en användare till en roll läser du artikeln Lägg till roller.

Mer information finns i följande artiklar:

Azure-lagringskonto

Du använder ett allmänt Azure Storage konto (särskilt Blob Storage) som både käll- och måldatalager i den här snabbstarten. Om du inte har ett allmänt Azure Storage konto kan du läsa Skapa ett lagringskonto för att skapa ett.

Hämta namnet på lagringskontot

Du behöver namnet på ditt Azure Storage konto för den här snabbstarten. Följande procedur innehåller steg för att hämta namnet på ditt lagringskonto:

  1. I en webbläsare går du till Azure Portal och loggar in med ditt Användarnamn och lösenord för Azure.
  2. På menyn Azure Portal väljer du Alla tjänster och sedan Storage>Storage konton. Du kan också söka efter och välja Storage konton från valfri sida.
  3. På sidan Storage konton filtrerar du efter ditt lagringskonto (om det behövs) och väljer sedan ditt lagringskonto.

Du kan också söka efter och välja Storage konton från valfri sida.

Skapa en blobcontainer

I det här avsnittet skapar du en blobcontainer med namnet adftutorial i Azure Blob Storage.

  1. På sidan lagringskonto väljer du ÖversiktContainers>.

  2. I verktygsfältet för< KontonamnContainers> - väljer du Container.

  3. I dialogrutan Ny container anger du adftutorial som namn och väljer OK. Sidan <KontonamnContainers> - uppdateras för att inkludera adftutorial i listan över containrar.

    List of containers

Lägga till en indatamapp och fil för blobcontainern

I det här avsnittet skapar du en mapp med namnet input i containern som du skapade och laddar sedan upp en exempelfil till indatamappen. Innan du börjar öppnar du en textredigerare som Anteckningar och skapar en fil med namnet emp.txt med följande innehåll:

John, Doe
Jane, Doe

Spara filen i mappen C:\ADFv2QuickStartPSH . (Om mappen inte redan finns skapar du den.) Gå sedan tillbaka till Azure Portal och följ dessa steg:

  1. På sidan <KontonamnContainers> - där du slutade väljer du adftutorial i den uppdaterade listan över containrar.

    1. Om du stängde fönstret eller gick till en annan sida loggar du in på Azure Portal igen.
    2. På menyn Azure Portal väljer du Alla tjänster och sedan Storage>Storage konton. Du kan också söka efter och välja Storage konton från valfri sida.
    3. Välj ditt lagringskonto och välj sedan Containersadftutorial>.
  2. I verktygsfältet för containersidan adftutorial väljer du Upload.

  3. sidan Upload blob väljer du rutan Filer och bläddrar sedan till och väljer emp.txt-filen.

  4. Expandera rubriken Avancerat . Sidan visas nu som den visas:

    Select Advanced link

  5. I rutan Upload till mapp anger du indata.

  6. Välj knappen Ladda upp. Du bör se filen emp.txt och uppladdningens status i listan.

  7. Välj ikonen Stäng (ett X) för att stänga Upload blobsidan.

Håll sidan adftutorial container öppen. Du kommer att använda den för att bekräfta utdata i slutet av snabbstarten.

Video

Om du tittar på den här videon får du hjälp med att förstå Data Factory-användargränssnittet:

Skapa en datafabrik

  1. Starta webbläsaren Microsoft Edge eller Google Chrome. Användargränssnittet för Data Factory stöds för närvarande bara i webbläsarna Microsoft Edge och Google Chrome.

  2. Gå till Azure-portalen.

  3. I menyn i Azure-portalen väljer du Skapa en resurs.

  4. Välj Integration och sedan Data Factory.

    Data Factory selection in the New pane.

  5. På sidan Skapa datafabrik går du till fliken Grunder och väljer din Azure-prenumeration där du vill skapa datafabriken.

  6. Gör något av följande för Resursgrupp:

    a. Välj en befintlig resursgrupp i listrutan.

    b. Välj Skapa ny och ange namnet på en ny resursgrupp.

    Mer information om resursgrupper finns i Använda resursgrupper för att hantera Azure-resurser.

  7. För Region väljer du platsen för datafabriken.

    I listan visas endast platser som Data Factory har stöd för och var dina Azure Data Factory-metadata kommer att lagras. De associerade datalager (till exempel Azure Storage och Azure SQL Database) och beräkningar (till exempel Azure HDInsight) som Data Factory använder kan köras i andra regioner.

  8. Som Namn anger du ADFTutorialDataFactory. Namnet på Azure-datafabriken måste vara globalt unikt. Om du ser följande fel ändrar du namnet på datafabriken (till exempel <dittnamnADFTutorialDataFactory>) och försöker skapa igen. Namngivningsregler för Data Factory-artefakter finns i artikeln Data Factory – namnregler.

    New data factory error message for duplicate name.

  9. För Version väljer du V2.

  10. Välj Nästa: Git-konfiguration och markera sedan kryssrutan Konfigurera Git senare .

  11. Välj Granska + skapa och välj Skapa när verifieringen har godkänts. När skapandet är klart väljer du Gå till resurs för att navigera till sidan Data Factory .

  12. Välj Öppna på panelen Öppna Azure Data Factory Studio för att starta programmet Azure Data Factory användargränssnitt (UI) på en separat webbläsarflik.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

    Anteckning

    Om du ser att webbläsaren har fastnat i "Auktorisera" avmarkerar du kryssrutan Blockera cookies från tredje part och webbplatsdata . Eller behåll det markerat, skapa ett undantag för login.microsoftonline.com och försök sedan öppna appen igen.

Skapa en länkad tjänst

I den här proceduren skapar du en länkad tjänst för att länka ditt Azure Storage-konto till datafabriken. Den länkade tjänsten har anslutningsinformationen som Data Factory-tjänsten använder vid körning för att ansluta till den.

  1. På sidan Azure Data Factory användargränssnitt öppnar du fliken Hantera i det vänstra fönstret.

  2. På sidan Länkade tjänster väljer du +Nytt för att skapa en ny länkad tjänst.

    New linked service.

  3. På sidan New Linked Service (Ny länkad tjänst) väljer du Azure Blob Storage och klickar på Fortsätt.

  4. Slutför följande steg på sidan Ny länkad tjänst (Azure Blob Storage):

    a. Som Namn anger du AzureStorageLinkedService.

    b. För Storage kontonamn väljer du namnet på ditt Azure Storage konto.

    c. Välj Testanslutning och bekräfta att Data Factory-tjänsten kan ansluta till lagringskontot.

    d. Välj Skapa för att spara den länkade tjänsten.

    Linked service.

Skapa datauppsättningar

I den här proceduren skapar du två datauppsättningar: InputDataset och OutputDataset. Dessa datauppsättningar är av typen AzureBlob. De refererar till den länkade Azure Storage-tjänst du skapade i föregående avsnitt.

Datauppsättningen för indata representerar källdata i indatamappen. I definitionen av datauppsättningen för indata anger du blobcontainern (adftutorial), mappen (input) och filen (emp.txt) som innehåller källdata.

Datauppsättningen för utdata representerar de data som kopieras till målet. I definitionen av datauppsättningen för utdata anger du blobcontainern (adftutorial), mappen (output) och filen som data ska kopieras till. Varje pipelinekörning har ett unikt ID tilldelat. Du kan komma åt detta ID via systemvariabeln RunId. Namnet på utdatafilen utvärderas dynamiskt baserat på pipelinens körnings-ID.

I inställningarna för den länkade tjänsten angav du det Azure Storage konto som innehåller källdata. I inställningarna för källdatauppsättningen anger du exakt var källdata finns (blobcontainer, mapp och fil). I inställningarna för mottagaruppsättningen anger du var du vill kopiera data (blobcontainer, mapp och fil).

  1. Välj fliken Författare i det vänstra fönstret.

  2. Klicka på knappen + (plus) och välj Datauppsättning.

    Menu for creating a dataset.

  3. På sidan Ny datauppsättning väljer du Azure Blob Storage och sedan Fortsätt.

  4. På sidan Välj format väljer du formattypen för dina data och väljer sedan Fortsätt. I det här fallet väljer du Binärt när du kopierar filer som de är utan att parsa innehållet.

    Select format.

  5. På sidan Ange egenskaper utför du följande steg:

    a. Under Namn anger du InputDataset.

    b. För Länkad tjänst väljer du AzureStorageLinkedService.

    c. För Filsökväg väljer du knappen Bläddra.

    d. I fönstret Välj en fil eller mapp bläddrar du till indatamappen i containern adftutorial , väljer filenemp.txt och väljer sedan OK.

    e. Välj OK.

    Set properties for InputDataset.

  6. Upprepa stegen för att skapa datauppsättningen för utdata:

    a. Klicka på knappen + (plus) och välj Datauppsättning.

    b. På sidan Ny datauppsättning väljer du Azure Blob Storage och sedan Fortsätt.

    c. På sidan Välj format väljer du formattypen för dina data och väljer sedan Fortsätt.

    d. På sidan Ange egenskaper anger du OutputDataset som namn. Välj AzureStorageLinkedService som länkad tjänst.

    e. Under Filsökväg anger du adftutorial/output. Om utdatamappen inte finns skapar kopieringsaktiviteten den vid körning.

    f. Välj OK.

    Set properties for OutputDataset.

Skapa en pipeline

I den här proceduren skapar och verifierar du en pipeline med en kopieringsaktivitet som använder uppsättningar för indata och utdata. Kopieringsaktiviteten kopierar data från filen som anges i inställningarna för datauppsättningen för indata till filen som anges i inställningarna för datauppsättningen för utdata. Om datauppsättningen för indata endast anger en mapp (inte filnamnet) kopierar kopieringsaktiviteten alla filer i källmappen till målet.

  1. Välj knappen + (plus) och välj sedan Pipeline.

  2. På panelen Allmänt under Egenskaper anger du CopyPipeline som Namn. Komprimera sedan panelen genom att klicka på ikonen Egenskaper i det övre högra hörnet.

  3. I verktygslådan Aktiviteter expanderar du Flytta & transformering. Dra aktiviteten Kopiera data från verktygslådan Aktiviteter till pipelinedesignytan. Du kan också söka efter aktiviteter i verktygslådan Aktiviteter. Ange CopyFromBlobToBlob som Namn.

    Creating a copy data activity.

  4. Växla till fliken Källa i inställningarna för kopieringsaktiviteten och välj InputDataset som Källdatauppsättning.

  5. Växla till fliken Mottagare i inställningarna för kopieringsaktiviteten och välj OutputDataset som Datauppsättning för mottagare.

  6. Verifiera pipelineinställningarna genom att klicka på Verifiera i verktygsfältet för pipelinen. Bekräfta att pipelinen har verifierats. Stäng valideringsutdata genom att välja knappen Validering i det övre högra hörnet.

    Validate a pipeline.

Felsöka pipeline

I det här steget felsöker du pipelinen innan du distribuerar den till Data Factory.

  1. Klicka på Felsök i Pipeline-verktygsfältet över arbetsytan för att starta en testkörning.

  2. Bekräfta att du ser status för pipelinekörningen på fliken Utdata i pipelineinställningarna längst ner.

    Pipeline run output

  3. Bekräfta att du ser en utdatafil i outputfolder för containern adftutorial. Om utdatamappen inte finns skapar Data Factory-tjänsten den automatiskt.

Utlös pipelinen manuellt

I den här proceduren distribuerar du entiteter (länkade tjänster, datauppsättningar, pipeliner) till Azure Data Factory. Sedan utlöser du en pipelinekörning manuellt.

  1. Innan du utlöser en pipeline måste du publicera entiteter i Data Factory. Om du vill publicera väljer du Publicera alla överst.

    Publish all.

  2. Om du vill utlösa pipelinen manuellt väljer du Lägg till utlösare i pipelinens verktygsfält och väljer sedan Utlös nu. På sidan Pipelinekörning väljer du OK.

Övervaka pipeline

  1. Växla till fliken Övervaka till vänster. Du kan uppdatera listan med knappen Uppdatera.

    Tab for monitoring pipeline runs

  2. Välj länken CopyPipeline . Du ser status för kopieringsaktiviteten som körs på den här sidan.

  3. Om du vill visa information om kopieringsåtgärden väljer du länken Information (glasögonbild). Mer information om egenskaperna finns i Copy Activity overview (Översikt över kopieringsaktivitet).

    Copy operation details.

  4. Bekräfta att du ser en ny fil i utdatamappen.

  5. Du kan växla tillbaka till vyn Pipelinekörningar från vyn Aktivitetskörningar genom att välja länken Alla pipelinekörningar .

Utlös pipelinen enligt ett schema

Den här proceduren är valfri i den här självstudien. Du kan skapa en schemautlösare för att schemalägga pipelinen så att den körs regelbundet (varje timme, varje dag och så vidare). I den här proceduren skapar du en utlösare som ska köras varje minut tills det slutdatum och den sluttid du anger.

  1. Växla till fliken Författare.

  2. Gå till din pipeline, välj Lägg till utlösare i pipelinens verktygsfält och välj sedan Ny/Redigera.

  3. På sidan Add Triggers (Lägg till utlösare) väljer du Choose trigger (Välj utlösare) och sedan Ny.

  4. På sidan Ny utlösare under Slut väljer du På datum, anger en sluttid några minuter efter den aktuella tiden och väljer sedan OK.

    Den tillkommer en kostnad för varje pipelinekörning, så ange sluttiden bara några minuter efter starttiden. Kontrollera att det är samma dag. Se dock till att det finns tillräckligt med tid för pipelinen att köras mellan publiceringstiden och sluttiden. Utlösaren träder endast i kraft när du har publicerat lösningen till Data Factory, och inte när du sparar utlösaren i användargränssnittet.

  5. På sidan Ny utlösare markerar du kryssrutan Aktiverad och väljer sedan OK.

    New Trigger setting.

  6. Granska varningsmeddelandet och välj OK.

  7. Välj Publicera alla för att publicera ändringar i Data Factory.

  8. Växla till fliken Övervaka till vänster. Om du vill uppdatera listan väljer du Refresh (Uppdatera). Du ser att pipelinen körs varje minut från publiceringstiden till sluttiden.

    Observera värdena i kolumnen TRIGGERED BY . Den manuella körningen av utlösaren var från steget (Trigger Now) (Utlös nu) du gjorde tidigare.

  9. Växla till vyn Utlösarkörningar .

  10. Bekräfta att en utdatafil har skapats för varje pipelinekörning fram till det angivet slutdatum och angiven sluttid i utdatamappen.

Nästa steg

Pipelinen i det här exemplet kopierar data från en plats till en annan i Azure Blob Storage. Gå igenom självstudiekurserna om du vill lära dig hur du använder Data Factory i fler scenarier.