Schnellstart: Erstellen einer Data Factory über das Azure-Portal und Azure Data Factory Studio

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Diese Schnellstartanleitung beschreibt, wie Sie mithilfe der Azure Data Factory-Benutzeroberfläche eine Data Factory erstellen und überwachen. Die in dieser Data Factory erstellte Pipeline kopiert Daten aus einem Ordner in einen anderen Ordner in Azure Blob Storage. Informationen zum Transformieren von Daten mithilfe von Azure Data Factory finden Sie unter Zuordnungsdatenflüsse in Azure Data Factory.

Hinweis

Wenn Sie mit Azure Data Factory nicht vertraut sind, lesen Sie vor der Durchführung dieses Schnellstarts die Informationen unter Einführung in Azure Data Factory.

Voraussetzungen

Azure-Abonnement

Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.

Azure-Rollen

Damit Sie Data Factory-Instanzen erstellen können, muss das Benutzerkonto, mit dem Sie sich bei Azure anmelden, ein Mitglied der Rolle Mitwirkender oder Besitzer oder ein Administrator des Azure-Abonnements sein. Wenn Sie die Berechtigungen anzeigen möchten, über die Sie im Abonnement verfügen, wechseln Sie zum Azure-Portal, wählen Sie in der oberen rechten Ecke Ihren Benutzernamen aus, wählen Sie Weitere Optionen (...) aus, und wählen Sie dann Meine Berechtigungen aus. Wenn Sie Zugriff auf mehrere Abonnements besitzen, wählen Sie das entsprechende Abonnement aus.

Für das Erstellen und Verwalten von untergeordneten Ressourcen für Data Factory – z.B. Datasets, verknüpfte Dienste, Pipelines, Trigger und Integration Runtimes – gelten die folgenden Anforderungen:

  • Für das Erstellen und Verwalten von untergeordneten Ressourcen im Azure-Portal müssen Sie auf Ressourcengruppenebene oder höher Mitglied der Rolle Mitwirkender von Data Factory sein.
  • Zum Erstellen und Verwalten von untergeordneten Ressourcen mit PowerShell oder dem SDK auf Ressourcenebene oder höher ist die Rolle Mitwirkender ausreichend.

Eine Beispielanleitung zum Hinzufügen eines Benutzers zu einer Rolle finden Sie im Artikel Hinzufügen oder Ändern von Azure-Administratorrollen, die das Abonnement oder die Dienste verwalten.

Weitere Informationen finden Sie in den folgenden Artikeln:

Azure-Speicherkonto

Sie verwenden in diesem Schnellstart ein allgemeines Azure Storage-Konto (Blobspeicher) als Datenspeicher vom Typ Quelle und vom Typ Ziel. Falls Sie noch nicht über ein allgemeines Azure Storage-Konto verfügen, lesen Sie zum Erstellen die Informationen unter Erstellen Sie ein Speicherkonto.

Abrufen des Speicherkontonamens

In dieser Schnellstartanleitung benötigen Sie den Namen Ihres Azure Storage-Kontos. Das folgende Verfahren enthält die Schritte zum Abrufen des Namens für Ihr Speicherkonto:

  1. Navigieren Sie in einem Webbrowser zum Azure-Portal, und melden Sie sich mit Ihrem Azure-Benutzernamen und dem zugehörigen Kennwort an.
  2. Wählen Sie im Menü des Azure-Portals die Option Alle Dienste und anschließend Storage>Speicherkonten aus. Alternativ können Sie auf einer beliebigen Seite nach Speicherkonten suchen und die entsprechende Option auswählen.
  3. Filtern Sie auf der Seite Speicherkonten nach Ihrem Speicherkonto (falls erforderlich), und wählen Sie dann Ihr Speicherkonto aus.

Alternativ können Sie auf einer beliebigen Seite nach Speicherkonten suchen und die entsprechende Option auswählen.

Erstellen eines Blobcontainers

In diesem Abschnitt erstellen Sie einen Blobcontainer mit dem Namen adftutorial in Azure Blob Storage.

  1. Wählen Sie auf der Seite „Speicherkonto“ die Optionen Übersicht>Container aus.

  2. Wählen Sie auf der Symbolleiste der Seite <Kontoname> - Container die Option Container aus.

  3. Geben Sie im Dialogfeld Neuer Container als Namen adftutorial ein, und klicken Sie auf OK. Die Seite <Kontoname> - Container wird aktualisiert, woraufhin die Liste der Container den Eintrag adftutorial enthält.

    List of containers

Hinzufügen eines Eingabeordners und einer Datei für den Blobcontainer

In diesem Abschnitt erstellen Sie einen Ordner mit dem Namen input in dem Container, den Sie erstellt haben, und laden eine Beispieldatei in den Eingabeordner hoch. Öffnen Sie zunächst einen Text-Editor wie Notepad, und erstellen Sie eine Datei mit dem Namen emp.txt und folgendem Inhalt:

John, Doe
Jane, Doe

Speichern Sie die Datei im Ordner C:\ADFv2QuickStartPSH. (Erstellen Sie den Ordner, falls er noch nicht vorhanden ist.) Kehren Sie dann zum Azure-Portal zurück, und führen Sie die folgenden Schritte aus:

  1. Wählen Sie auf der Seite <Kontoname> - Container, auf der Sie Ihre Arbeit unterbrochen haben, in der aktualisierten Liste der Container den Eintrag adftutorial aus.

    1. Falls Sie das Fenster geschlossen oder zu einer anderen Seite gewechselt haben, melden Sie sich erneut beim Azure-Portal an.
    2. Wählen Sie im Menü des Azure-Portals die Option Alle Dienste und anschließend Storage>Speicherkonten aus. Alternativ können Sie auf einer beliebigen Seite nach Speicherkonten suchen und die entsprechende Option auswählen.
    3. Wählen Sie Ihr Speicherkonto und anschließend Container>adftutorial aus.
  2. Wählen Sie auf der Symbolleiste der Seite des Containers adftutorial die Option Hochladen aus.

  3. Wählen Sie auf der Seite Blob hochladen das Feld Dateien aus. Navigieren Sie zur Datei emp.txt, und wählen Sie dann die Datei aus.

  4. Erweitern Sie die Überschrift Erweitert. Die Seite wird jetzt wie folgt angezeigt:

    Select Advanced link

  5. Geben Sie im Feld In Ordner hochladen den Namen input ein.

  6. Wählen Sie die Schaltfläche Hochladen. Daraufhin sollten in der Liste die Datei emp.txt und der Status des Uploads angezeigt werden.

  7. Wählen Sie das Symbol Schließen (das X) aus, um die Seite Blob hochladen zu schließen.

Lassen Sie die Seite des Containers adftutorial geöffnet. Sie überprüfen darauf am Ende dieser Schnellstartanleitung die Ausgabe.

Video

Dieses Video enthält Informationen zur Data Factory-Benutzeroberfläche:

Erstellen einer Data Factory

  1. Starten Sie den Webbrowser Microsoft Edge oder Google Chrome. Die Data Factory-Benutzeroberfläche wird zurzeit nur in den Webbrowsern Microsoft Edge und Google Chrome unterstützt.

  2. Öffnen Sie das Azure-Portal.

  3. Wählen Sie im Menü des Azure-Portals die Option Ressource erstellen aus.

  4. Wählen Sie Integration und dann Data Factory aus.

    Data Factory selection in the New pane.

  5. Wählen Sie auf der Seite Data Factory erstellen auf der Registerkarte Grundlagen Ihr Azure-Abonnement aus, in dem Sie die Data Factory erstellen möchten.

  6. Führen Sie unter Ressourcengruppe einen der folgenden Schritte aus:

    a. Wählen Sie in der Dropdownliste eine vorhandene Ressourcengruppe aus.

    b. Wählen Sie Neu erstellen aus, und geben Sie den Namen einer neuen Ressourcengruppe ein.

    Weitere Informationen zu Ressourcengruppen finden Sie unter Verwenden von Ressourcengruppen zum Verwalten von Azure-Ressourcen.

  7. Wählen Sie unter Region den Standort für die Data Factory aus.

    In der Liste werden nur Standorte angezeigt, die von Data Factory unterstützt werden und an denen Ihre Azure Data Factory-Metadaten gespeichert werden. Die von Data Factory verwendeten zugeordneten Datenspeicher (z. B. Azure Storage und Azure SQL-Datenbank) und Computedienste (z. B. Azure HDInsight) können in anderen Regionen ausgeführt werden.

  8. Geben Sie unter Name den Namen ADFTutorialDataFactory ein. Der Name der Azure Data Factory muss global eindeutigsein. Sollte der folgende Fehler auftreten, ändern Sie den Namen der Data Factory (beispielsweise in <IhrName>ADFTutorialDataFactory), und wiederholen Sie den Vorgang. Benennungsregeln für Data Factory-Artefakte finden Sie im Artikel Azure Data Factory – Benennungsregeln.

    New data factory error message for duplicate name.

  9. Wählen Sie V2 als Version aus.

  10. Klicken Sie auf Weiter: Git-Konfiguration, und aktivieren Sie das Kontrollkästchen Git später konfigurieren.

  11. Wählen Sie Überprüfen und erstellen und nach erfolgreicher Prüfung Erstellen aus. Wählen Sie nach der Erstellung Zu Ressource wechseln aus, um zur Seite Data Factory zu navigieren.

  12. Wählen Sie auf der Kachel Open Azure Data Factory Studio die Option Öffnen um die Anwendung des Data Factory Benutzerinterface (UI) in einer separaten Browserregistrierkarte zu starten.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

    Hinweis

    Falls der Webbrowser bei „Autorisierung läuft“ hängt, sollten Sie das Kontrollkästchen Cookies und Websitedaten von Drittanbietern blockieren deaktivieren. Alternativ können Sie die Aktivierung beibehalten, eine Ausnahme für login.microsoftonline.com erstellen und dann erneut versuchen, die App zu öffnen.

Erstellen eines verknüpften Diensts

In dieser Prozedur erstellen Sie einen verknüpften Dienst, der Ihr Azure Storage-Konto mit der Data Factory verbindet. Der verknüpfte Dienste enthält die Verbindungsinformationen, die der Data Factory-Dienst zur Laufzeit zur Verbindungsherstellung verwendet.

  1. Öffnen Sie auf der Seite „Azure Data Factory-Benutzeroberfläche“ im linken Bereich die Registerkarte Verwalten.

  2. Wählen Sie auf der Seite „Verknüpfte Dienste“ die Option +Neu aus, um einen neuen verknüpften Dienst zu erstellen.

    New linked service.

  3. Wählen Sie auf der Seite Neuer verknüpfter Dienst die Option Azure Blob Storage, und klicken Sie dann auf Weiter.

  4. Führen Sie auf der Seite „New Linked Service (Azure Blob Storage)“ (Neuer verknüpfter Dienst (Azure Blob Storage)) die folgenden Schritte aus:

    a. Geben Sie unter Name den Namen AzureStorageLinkedService ein.

    b. Wählen Sie unter Speicherkontoname den Namen Ihres Azure Storage-Kontos aus.

    c. Klicken Sie auf Verbindung testen, um zu überprüfen, ob der Data Factory-Dienst eine Verbindung mit dem Speicherkonto herstellen kann.

    d. Wählen Sie Erstellen aus, um den verknüpften Dienst zu speichern.

    Linked service.

Erstellen von Datasets

In diesem Verfahren erstellen Sie zwei Datasets: InputDataset und OutputDataset. Diese Datasets sind vom Typ AzureBlob. Sie verweisen auf den mit Azure Storage verknüpften Dienst, den Sie im vorherigen Abschnitt erstellt haben.

Das Eingabedataset stellt die Quelldaten im Eingabeordner dar. In der Definition des Eingabedatasets geben Sie den Blobcontainer (adftutorial), den Ordner (input) und die Datei (emp.txt) mit den Quelldaten an.

Das Ausgabedataset stellt die Daten dar, die zum Ziel kopiert werden. In der Definition des Ausgabedatasets geben Sie den Blobcontainer (adftutorial), den Ordner (output) und die Datei an, in die die Daten kopiert werden. Jeder Ausführung einer Pipeline wird eine eindeutige ID zugeordnet. Sie können auf diese ID mithilfe der Systemvariablen RunId zugreifen. Der Name der Ausgabedatei wird basierend auf der Ausführungs-ID der Pipeline dynamisch ausgewertet.

In den Einstellungen des verknüpften Diensts haben Sie das Azure Storage-Konto angegeben, das die Quelldaten enthält. In den Einstellungen des Quelldatasets geben Sie an, wo genau sich die Quelldaten befinden (Blobcontainer, Order und Datei). In den Einstellungen des Senkendatasets geben Sie an, wohin die Daten kopiert werden (Blobcontainer, Order und Datei).

  1. Wählen Sie im linken Bereich die Registerkarte Autor aus.

  2. Wählen Sie die Schaltfläche + (Plus) und dann Dataset aus.

    Menu for creating a dataset.

  3. Wählen Sie auf der Seite Neues Dataset die Option Azure Blob Storage und dann Weiter aus.

  4. Wählen Sie auf der Seite Format auswählen den Formattyp Ihrer Daten und dann Weiter aus. Wählen Sie in diesem Fall Binär aus, wenn Dateien unverändert kopiert werden, ohne dass der Inhalt analysiert wird.

    Select format.

  5. Führen Sie auf der Seite Einstellungen festlegen die folgenden Schritte aus:

    a. Geben Sie unter Name den Namen InputDataset ein.

    b. Wählen Sie unter Verknüpfter Dienst die Option AzureStorageLinkedService.

    c. Klicken Sie neben Dateipfad auf die Schaltfläche Durchsuchen.

    d. Navigieren Sie im Fenster Choose a file or folder (Datei oder Ordner auswählen) zum Ordner input im Container adftutorial, wählen Sie die Datei emp.txt aus, und wählen Sie anschließend OK aus.

    e. Klicken Sie auf OK.

    Set properties for InputDataset.

  6. Wiederholen Sie die Schritte zum Erstellen des Ausgabedatasets:

    a. Wählen Sie die Schaltfläche + (Plus) und dann Dataset aus.

    b. Wählen Sie auf der Seite Neues Dataset die Option Azure Blob Storage und dann Weiter aus.

    c. Wählen Sie auf der Seite Format auswählen den Formattyp Ihrer Daten und dann Weiter aus.

    d. Geben Sie auf der Seite Eigenschaften festlegen als Name OutputDataset ein. Wählen Sie AzureStorageLinkedService als verknüpften Dienst aus.

    e. Geben Sie unter Dateipfad den Pfad adftutorial/output ein. Wenn der Ordner output nicht vorhanden ist, wird er von der Copy-Aktivität zur Laufzeit erstellt.

    f. Klicken Sie auf OK.

    Set properties for OutputDataset.

Erstellen einer Pipeline

In diesem Schritt erstellen und überprüfen Sie eine Pipeline mit einer Copy-Aktivität, die das Eingabe- und Ausgabedataset verwendet. Die Copy-Aktivität kopiert Daten aus der in den Einstellungen des Eingabedatasets angegebenen Datei in die Datei, die in den Einstellungen des Ausgabedatasets angegeben ist. Wenn das Eingabedataset nur einen Ordner (nicht den Dateinamen) angibt, kopiert die Copy-Aktivität alle Dateien im Quellordner ans Ziel.

  1. Wählen Sie die Schaltfläche + (Plus) und dann Pipeline aus.

  2. Geben Sie im Bereich „Allgemein“ unter Eigenschaften die Eigenschaft CopyPipeline für Name an. Reduzieren Sie dann den Bereich, indem Sie in der oberen rechten Ecke auf das Symbol „Eigenschaften“ klicken.

  3. Erweitern Sie in der Toolbox Aktivitäten die Option Verschieben und transformieren. Ziehen Sie die Copy Data-Aktivität aus der Toolbox Aktivitäten auf die Oberfläche des Pipeline-Designers. Sie können in der Toolbox Aktivitäten auch nach Aktivitäten suchen. Geben Sie unter Name den Namen CopyFromBlobToBlob ein.

    Creating a copy data activity.

  4. Wechseln Sie in den Einstellungen der Copy-Aktivität zur Registerkarte Quelle, und wählen Sie für Quelldataset die Option InputDataset aus.

  5. Wechseln Sie in den Einstellungen der Copy-Aktivität zur Registerkarte Senke, und wählen Sie für Senkendataset die Option OutputDataset aus.

  6. Klicken Sie zum Überprüfen der Pipelineeinstellungen oberhalb der Canvas auf der Symbolleiste für die Pipeline auf Überprüfen. Vergewissern Sie sich, dass die Pipeline überprüft wurde. Wählen Sie zum Schließen der Überprüfungsausgabe oben rechts die Schaltfläche „Prüfung“ aus.

    Validate a pipeline.

Debuggen der Pipeline

In diesem Schritt debuggen Sie die Pipeline, bevor Sie sie in Data Factory bereitstellen.

  1. Klicken Sie oberhalb der Canvas auf der Symbolleiste für die Pipeline auf Debuggen, um einen Testlauf auszulösen.

  2. Überprüfen Sie, ob der Status der Pipelineausführung auf der Registerkarte Ausgabe der Pipelineeinstellungen unten angezeigt wird.

    Pipeline run output

  3. Vergewissern Sie sich, dass im Ordner output des Containers adftutorial eine Ausgabedatei angezeigt wird. Ist der Ausgabeordner nicht vorhanden, wird er vom Data Factory-Dienst automatisch erstellt.

Manuelles Auslösen der Pipeline

In diesem Verfahren stellen Sie Entitäten (verknüpfte Dienste, Datasets, Pipelines) in Azure Data Factory bereit. Anschließend lösen Sie manuell eine Pipelineausführung aus.

  1. Vor dem Auslösen einer Pipeline müssen Sie Entitäten in Data Factory veröffentlichen. Klicken Sie zum Veröffentlichen im oberen Bereich auf Alle veröffentlichen.

    Publish all.

  2. Klicken Sie zum manuellen Auslösen der Pipeline auf der Symbolleiste für die Pipeline auf Trigger hinzufügen und dann auf Trigger Now (Jetzt auslösen). Wählen Sie auf der Seite Pipelineausführung die Schaltfläche OK aus.

Überwachen der Pipeline

  1. Wechseln Sie im linken Bereich zur Registerkarte Überwachen. Aktualisieren Sie die Liste mithilfe der Schaltfläche Aktualisieren.

    Tab for monitoring pipeline runs

  2. Wählen Sie den Link CopyPipeline aus. Auf dieser Seite wird der Ausführungsstatus der Kopieraktivität angezeigt.

  3. Wenn Sie Details zum Kopiervorgang anzeigen möchten, wählen Sie den Link Details (Brillensymbol) aus. Einzelheiten zu den Eigenschaften finden Sie unter Kopieraktivität in Azure Data Factory.

    Copy operation details.

  4. Vergewissern Sie sich, dass im Ordner output eine neue Datei enthalten ist.

  5. Wenn Sie von der Ansicht Aktivitätsausführungen zur Ansicht Pipelineausführungen zurückkehren möchten, wählen Sie den Link Alle Pipelineausführungen aus.

Auslösen der Pipeline nach einem Zeitplan

Dieser Schritt ist in diesem Tutorial optional. Sie können einen Planer-Trigger erstellen, um eine regelmäßige Ausführung der Pipeline (stündlich, täglich usw.) festzulegen. In diesem Schritt erstellen Sie einen Trigger, der bis zur angegebenen Endzeit (Datum und Uhrzeit) minütlich ausgeführt wird.

  1. Wechseln Sie zur Registerkarte Autor.

  2. Navigieren Sie zu Ihrer Pipeline, und wählen Sie auf der Symbolleiste für die Pipeline Trigger hinzufügen und dann Neu/Bearbeiten aus.

  3. Klicken Sie auf der Seite Add Triggers (Trigger hinzufügen) auf Choose trigger (Trigger auswählen) und dann auf Neu.

  4. Wählen Sie auf der Seite Neuer Trigger unter Ende die Option An Datum aus, geben Sie eine Endzeit an, die einige Minuten nach der aktuellen Zeit liegt, und wählen Sie anschließend OK aus.

    Da für jede Pipelineausführung Gebühren anfallen, sollten zwischen Endzeit und Startzeit nur wenige Minuten liegen. Vergewissern Sie sich, dass der gleiche Tag festgelegt ist. Stellen Sie jedoch sicher, dass zwischen Veröffentlichungszeit und Endzeit ausreichend Zeit für die Pipelineausführung bleibt. Der Trigger wird erst wirksam, nachdem Sie die Lösung in Data Factory veröffentlicht haben, nicht beim Speichern des Triggers auf der Benutzeroberfläche.

  5. Aktivieren Sie auf der Seite Neuer Trigger das Kontrollkästchen Aktiviert, und wählen Sie anschließend OK aus.

    New Trigger setting.

  6. Lesen Sie die Warnmeldung, und wählen Sie OK aus.

  7. Wählen Sie Alle veröffentlichen aus, um Änderungen für die Data Factory zu veröffentlichen.

  8. Wechseln Sie im linken Bereich zur Registerkarte Überwachen. Klicken Sie zum Aktualisieren der Liste auf Aktualisieren. Sie sehen, dass die Pipeline zwischen Veröffentlichungszeit und Endzeit minütlich ausgeführt wird.

    Beachten Sie die Werte in der Spalte AUSGELÖST DURCH. Die manuelle Triggerausführung stammt aus dem zuvor ausgeführten Schritt (Trigger Now (Jetzt auslösen)).

  9. Wechseln Sie zur Ansicht Triggerausführungen.

  10. Vergewissern Sie sich, dass für jede Pipelineausführung bis zur angegebenen Endzeit eine Ausgabedatei im Ordner output erstellt wird.

Nächste Schritte

Die Pipeline in diesem Beispiel kopiert Daten in Azure Blob Storage von einem Speicherort in einen anderen. Arbeiten Sie die Tutorials durch, um zu erfahren, wie Sie Data Factory in anderen Szenarien verwenden können.