Tool „Daten kopieren“ in Azure Data Factory und Synapse Analytics

Artikel
10/20/2023

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

Das Tool „Daten kopieren“ vereinfacht und optimiert den Vorgang der Erfassung von Daten in einem Data Lake. Dies ist normalerweise ein erster Schritt in einem umfassenden Szenario für die Datenintegration. Sie sparen Zeit, insbesondere bei Verwendung des Diensts für die erstmalige Erfassung von Daten aus einer Datenquelle. Die Verwendung dieses Tools ist z.B. mit den folgenden Vorteilen verbunden:

Wenn Sie das Tool „Daten kopieren“ verwenden, müssen Sie die Dienstdefinitionen für verknüpfte Dienste, Datasets, Pipelines, Aktivitäten und Trigger nicht verstehen.
Der Fluss des Tools zum Kopieren von Daten ist für das Laden von Daten in einen Data Lake intuitiv. Das Tool erstellt automatisch alle erforderlichen Ressourcen zum Kopieren von Daten aus dem ausgewählten Quelldatenspeicher in den ausgewählten Ziel-/Senkendatenspeicher.
Das Tool zum Kopieren von Daten hilft Ihnen dabei, die Daten zu überprüfen, die zum Zeitpunkt der Erstellung des Dokuments erfasst werden, wodurch Sie mögliche Fehler bereits am Anfang vermeiden können.
Wenn Sie komplexe Geschäftslogik implementieren müssen, um Daten in einen Data Lake zu laden, können Sie die vom Tool „Daten kopieren“ erstellten Ressourcen mithilfe der Dokumenterstellung pro Aktivität auf der Benutzeroberfläche weiterhin bearbeiten.

In der folgenden Tabelle finden Sie Hinweise dazu, unter welchen Umständen Sie das Tool „Daten kopieren“ bzw. die Dokumenterstellung pro Aktivität auf der Benutzeroberfläche verwenden sollten:

Tool zum Kopieren von Daten	Dokumenterstellung pro Aktivität (Kopieraktivität)
Sie möchten einfach einen Datenladetask erstellen, ohne sich mit den Entitäten vertraut zu machen (verknüpfte Dienste, Datasets, Pipelines usw.).	Sie möchten komplexe und flexible Logik für das Laden von Daten in den Data Lake implementieren.
Sie möchten schnell eine große Anzahl von Datenartefakten in einen Data Lake laden.	Sie möchten die Kopieraktivität mit nachfolgenden Aktivitäten zur Bereinigung oder Verarbeitung von Daten verketten.

Klicken Sie zum Starten des Tools „Daten kopieren“ auf der Homepage der Data Factory oder auf der Synapse Studio-Benutzeroberfläche auf die Kachel Erfassen.

Azure Data Factory
Synapse Analytics

Screenshot that shows the home page - link to Copy Data tool.

Nach dem Starten des Tools zum Kopieren von Daten sehen Sie zwei Arten von Aufgaben: eine ist die Aufgabe integrierte Kopie und die andere ist die Aufgabe metadatenbasierte Kopie. Die integrierte Kopieraufgabe führt Sie dazu, innerhalb von fünf Minuten eine Pipeline zum Replizieren von Daten zu erstellen, ohne mehr über Entitäten zu erfahren. Die Aufgabe „metadatenbasierte Kopie“ erleichtert Ihnen das Erstellen parametrisierter Pipelines und externer Steuertabellen, um große Mengen von Objekten (z. B. Tausende von Tabellen) im großen Stil zu kopieren. Weitere Einzelheiten erhalten Sie unter metadatenbasiertes Kopieren von Daten.

Intuitiver Fluss zum Laden von Daten in einen Data Lake

Mit diesem Tool können Sie mit einem intuitiven Fluss problemlos Daten in wenigen Minuten aus einer Vielzahl von Quellen an verschiedene Ziele verschieben:

Konfigurieren Sie Einstellungen für die Quelle.
Konfigurieren Sie Einstellungen für das Ziel.
Konfigurieren Sie erweiterte Einstellungen für den Kopiervorgang, z.B. Spaltenzuordnung, Leistungseinstellungen und Fehlertoleranzeinstellungen.
Geben Sie einen Zeitplan für den Datenladetask an.
Überprüfen Sie die Zusammenfassung der zu erstellenden Entitäten.
Bearbeiten Sie die Pipeline, um die Einstellungen für die Kopieraktivität nach Bedarf zu aktualisieren.

Das Tool wurde von Beginn an für Big Data konzipiert und bietet Unterstützung für verschiedene Daten- und Objekttypen. Sie können es zum Verschieben von Hunderten von Ordnern, Dateien oder Tabellen verwenden. Das Tool unterstützt die automatische Datenvorschau, Schemaerfassung und automatische Zuordnung sowie das Filtern von Daten.

Copy Data tool

Automatische Datenvorschau

Sie können einen Teil der Daten aus dem ausgewählten Quelldatenspeicher als Vorschau anzeigen. Auf diese Weise können Sie die Daten überprüfen, die kopiert werden. Wenn die Datenquelle eine Textdatei ist, analysiert das Tool zum Kopieren von Daten darüber hinaus diese Datei und erkennt Trennzeichen für Zeilen und Spalten sowie das Schema automatisch.

File settings

Wählen Sie nach der Erkennung Datenvorschau aus:

Detected file settings and preview

Schemaerfassung und automatische Zuordnung

Das Schema der Datenquelle ist in vielen Fällen ggf. nicht mit dem Schema des Datenziels identisch. In diesem Szenario müssen die Spalten des Quellschemas den Spalten des Zielschemas zugeordnet werden.

Das Tool zum Kopieren von Daten überwacht und erlernt Ihr Verhalten beim Zuordnen von Spalten zwischen Quell- und Zielspeichern. Nachdem Sie mindestens eine Spalte aus dem Quelldatenspeicher ausgewählt und dem Zielschema zugeordnet haben, beginnt das Tool zum Kopieren von Daten das Muster für Spaltenpaare zu analysieren, die Sie auf beiden Seiten ausgewählt haben. Dann wendet es das gleiche Muster auf den Rest der Spalten an. Daher erkennen Sie bereits nach wenigen Klicks, dass alle Spalten auf die gewünschte Art und Weise dem Ziel zugeordnet wurden. Wenn Sie mit der Auswahl der Spaltenzuordnung durch das Tool zum Kopieren von Daten nicht zufrieden sind, können Sie diese ignorieren und mit der manuellen Zuordnung der Spalten fortfahren. In der Zwischenzeit erlernt und aktualisiert das Tool zum Kopieren von Daten ständig das Muster und erreicht schließlich das richtige Muster für die gewünschte Spaltenzuordnung.

Hinweis

Beim Kopieren von Daten aus SQL Server oder der Azure SQL-Datenbank in Azure Synapse Analytics unterstützt das Tool zum Kopieren von Daten die automatische Erstellung der Tabelle unter Verwendung des Quellschemas, wenn die Tabelle im Zielspeicher nicht vorhanden ist.

Filtern von Daten

Sie können Quelldaten filtern, wenn nur bestimmte Daten in den Senkendatenspeicher kopiert werden sollen. Durch Filtern wird das Datenvolumen der in den Senkendatenspeicher kopierten Daten verringert. Der Durchsatz des Kopiervorgangs steigt. Das Tool zum Kopieren von Daten bietet flexible Möglichkeiten, die Daten einer relationalen Datenbank mittels der SQL-Abfragesprache oder Dateien in einem Azure-Blobordner zu filtern.

Filtern von Daten in einer Datenbank

Der folgende Screenshot zeigt eine SQL-Abfrage zum Filtern der Daten.

Filter data in a database

Filtern von Daten in einem Azure-Blobordner

Sie können Variablen im Ordnerpfad verwenden, um Daten aus einem Ordner zu kopieren. Folgende Variablen werden unterstützt: {year} , {month} , {day} , {hour} und {minute} . Beispiel: Eingabeordner/{year}/{month}/{day}.

Angenommen, Sie haben Eingabeordner im folgenden Format:

2016/03/01/01
2016/03/01/02
2016/03/01/03
...

Klicken Sie auf die Schaltfläche Durchsuchen für Datei oder Ordner, navigieren Sie zu einem dieser Ordner (z. B. 2016->03->01->02), und klicken Sie auf Auswählen. Das Textfeld sollte jetzt „2016/03/01/02“ enthalten.

Ersetzen Sie nun 2016 durch {year} , 03 durch {month} , 01 durch {day} , 02 durch {hour} , und drücken Sie dann die TAB-TASTE. Wenn Sie Inkrementelles Laden: nach Zeit eingeteilte Ordner-/Dateinamen im Abschnitt Dateiladeverhalten auswählen und Zeitplan oder Rollierendes Fenster auf der Seite Eigenschaften auswählen, sollten Dropdownlisten angezeigt werden, um das Format für diese vier Variablen auszuwählen:

Filter file or folder

Die Tool zum Kopieren von Daten generiert Parameter mit Ausdrücken, Funktionen und Systemvariablen, die verwendet werden können, um {year}, {month}, {day}, {hour} und {minute} beim Erstellen der Pipeline darzustellen.

Planungsoptionen

Sie können den Kopiervorgang einmal oder nach einem Zeitplan (stündlich, täglich usw.) ausführen. Diese Optionen können für die Connectors in verschiedenen Umgebungen verwendet werden, z.B. in lokalen Umgebungen, in der Cloud und auf dem lokalen Desktop.

Ein einmaliger Kopiervorgang ermöglicht nur einmal das Verschieben von Daten aus einer Quelle in ein Ziel. Er gilt für Daten jeder Größe in jedem unterstützten Format. Das Kopieren nach einem Zeitplan ermöglicht Ihnen das Kopieren von Daten in einer angegebenen Serie. Sie können umfangreiche Einstellungen (wie Wiederholen, Timeout, Warnungen usw.) nutzen, um das Kopieren nach einem Zeitplan zu konfigurieren.

Scheduling options

Machen Sie sich mit diesen Tutorials vertraut, die das Tool zum Kopieren von Daten verwenden: