Transformieren oder Verarbeiten von Daten in Azure Data Factory and Azure Synapse Analytics

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

Wichtig

Der Support für Azure Machine Learning-Studio (klassisch) wird am 31. August 2024 beendet. Wir empfehlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie in Machine Learning-Studio (klassisch) keine neuen Ressourcen mehr erstellen (Arbeitsbereichs- und Webdienstplan). Sie können bereits vorhandene Experimente und Webdienste in Machine Learning-Studio (klassisch) noch bis zum 31. August 2024 weiterverwenden. Weitere Informationen finden Sie unter:

Die Dokumentation zu Machine Learning-Studio (klassisch) wird eingestellt und möglicherweise in der Zukunft nicht mehr aktualisiert.

Übersicht

Dieser Artikel enthält Informationen zu Datentransformationsaktivitäten in Azure Data Factory- und Synapse-Pipelines, mit denen Sie Ihre Rohdaten in Vorhersagen und Einblicke im gewünschten Umfang transformieren und verarbeiten können. Eine Transformationsaktivität erfolgt in einer Computing-Umgebung wie Azure Databricks oder Azure HDInsight. Sie finden hier Links zu Artikeln mit detaillierten Informationen zu jeder Transformationsaktivität.

Der Dienst unterstützt die folgenden Transformationsaktivitäten, die Pipelines entweder einzeln oder mit einer anderen Aktivität verkettet hinzugefügt werden können.

Natives Transformieren in Azure Data Factory und Azure Synapse Analytics mit Datenflüssen

Zuordnen von Datenflüssen

Mapping Data Flows (Zuordnungsdatenflüsse) sind visuell entworfene Datentransformationen in Azure Data Factory und Azure Synapse. Mit Data Flows können Data Engineers grafische Datentransformationslogik entwickeln, ohne Code schreiben zu müssen. Die daraus resultierenden Datenflüsse werden als Aktivitäten in Pipelines ausgeführt, für die horizontal hochskalierte Spark-Cluster verwendet werden. Datenflussaktivitäten können über die im Dienst vorhandenen Planungs-, Steuerungs-, Fluss- und Überwachungsfunktionen operationalisiert werden. Weitere Informationen finden Sie unter Mapping Data Flows (Zuordnungsdatenflüsse).

Data Wrangling

Power Query in Azure Data Factory ermöglicht Data Wrangling auf Cloudebene, das Ihnen die Möglichkeit zum iterativen Vorbereiten von Daten ohne Code für die Cloud bietet. Data Wrangling kann in Power Query Online integriert werden und stellt Power Query M-Funktionen für Data Wrangling in der Cloud über Spark-Ausführung bereit. Weitere Informationen finden Sie unter Data Wrangling in Azure Data Factory.

Hinweis

Power Query wird derzeit nur in Azure Data Factory und nicht in Azure Synapse unterstützt. Eine Liste der spezifischen Features, die in den einzelnen Diensten unterstützt werden, finden Sie unter Verfügbare Features in Azure Data Factory- & Azure Synapse Analytics-Pipelines.

Externe Transformationen

Optional können Sie Transformationen manuell kodieren und die externe Compute-Umgebung selbst verwalten.

HDInsight Hive-Aktivität

Die HDInsight Hive-Aktivität in einer Pipeline wendet Hive-Abfragen auf Ihren eigenen oder bedarfsgesteuerten Windows-/Linux-basierten HDInsight-Cluster an. Im Artikel Hive-Aktivität finden Sie Details zu dieser Aktivität.

HDInsight Pig-Aktivität

Die HDInsight Pig-Aktivität in einer Pipeline wendet Pig-Abfragen auf Ihren eigenen oder bedarfsgesteuerten Windows-/Linux-basierten HDInsight-Cluster an. Im Artikel Pig-Aktivität finden Sie Details zu dieser Aktivität.

HDInsight MapReduce-Aktivität

Die HDInsight MapReduce-Aktivität in einer Pipeline wendet MapReduce-Programme auf Ihren eigenen oder bedarfsgesteuerten Windows-/Linux-basierten HDInsight-Cluster an. Im Artikel MapReduce-Aktivität finden Sie Details zu dieser Aktivität.

HDInsight-Streamingaktivität

Die HDInsight-Streamingaktivität in einer Pipeline wendet Hadoop-Streamingprogramme auf Ihren eigenen oder bedarfsgesteuerten Windows-/Linux-basierten HDInsight-Cluster an. Unter HDInsight-Streamingaktivität finden Sie ausführliche Informationen zu dieser Aktivität.

HDInsight Spark-Aktivität

Die HDInsight Spark-Aktivität in einer Pipeline führt Spark-Programme in Ihrem eigenen HDInsight-Cluster aus. Weitere Informationen finden Sie unter Aufrufen von Spark-Programmen mit Azure Data Factory oder Azure Synapse Analytics.

Aktivitäten in ML Studio (klassisch)

Wichtig

Der Support für Azure Machine Learning-Studio (klassisch) wird am 31. August 2024 beendet. Wir empfehlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie in Machine Learning-Studio (klassisch) keine neuen Ressourcen mehr erstellen (Arbeitsbereichs- und Webdienstplan). Sie können bereits vorhandene Experimente und Webdienste in Machine Learning-Studio (klassisch) noch bis zum 31. August 2024 weiterverwenden. Weitere Informationen finden Sie unter:

Die Dokumentation zu Machine Learning-Studio (klassisch) wird eingestellt und möglicherweise in der Zukunft nicht mehr aktualisiert.

Der Dienst ermöglicht Ihnen die einfache Erstellung von Pipelines, die einen veröffentlichten Webdienst von ML Studio (klassisch) für Predictive Analytics nutzen. Mithilfe der Batchausführungsaktivität in einer Pipeline können Sie einen Studio (Classic)-Webdienst aufrufen, um Vorhersagen für die Daten im Batch zu treffen.

Im Laufe der Zeit müssen die Vorhersagemodelle in den Bewertungsexperimenten von Azure Machine Learning Studio (Classic) mit neuen Eingabedatasets neu trainiert werden. Wenn Sie mit dem erneuten Trainieren fertig sind, sollten Sie den Bewertungswebdienst mit dem neu trainierten Machine Learning-Modell aktualisieren. Verwenden Sie die Ressourcenaktualisierungsaktivität, um den Webdienst mit dem neu trainierten Modell zu aktualisieren.

Ausführliche Informationen zu diesen Aktivitäten in Studio (klassisch) finden Sie unter Use ML Studio (classic) activities (Verwenden der Aktivitäten von ML Studio (klassisch)).

Aktivität „Gespeicherte Prozedur“

Sie können die SQL Server-Aktivität „Gespeicherte Prozedur“ in einer Data Factory-Pipeline verwenden, um eine gespeicherte Prozedur in einem der folgenden Datenspeicher aufzurufen: Azure SQL-Datenbank, Azure Synapse Analytics, SQL Server-Datenbank in Ihrem Unternehmen oder auf einem virtuellen Azure-Computer. Unter Aktivität „Gespeicherte Prozedur“ finden Sie Details.

U-SQL-Aktivität für Data Lake Analytics

Die U-SQL-Aktivität für Data Lake Analytics wendet ein U-SQL-Skript auf einen Azure Data Lake Analytics-Cluster an. Unter U-SQL-Aktivität für Data Lake Analytics finden Sie Details.

Azure Synapse-Notebook-Aktivität

Die Azure Synapse-Notebook-Aktivität in einer Synapse-Pipeline führt ein Synapse-Notebook in Ihrem Azure Synapse-Arbeitsbereich aus. Informationen finden Sie unter Transformieren von Daten durch Ausführen eines Azure Synapse-Notebooks.

Databricks-Notebook-Aktivität

Die Azure Databricks-Notebook-Aktivität in einer Pipeline führt ein Databricks-Notebook in Ihrem Azure Databricks-Arbeitsbereich aus. Azure Databricks ist eine verwaltete Plattform für die Ausführung von Apache Spark. Informationen finden Sie unter Transformieren von Daten durch Ausführen eines Databricks-Notebooks.

Databricks-JAR-Aktivität

Die JAR-Aktivität in Azure Databricks in einer Pipeline führt eine Spark JAR-Datei in Ihrem Azure Databricks-Cluster aus. Azure Databricks ist eine verwaltete Plattform für die Ausführung von Apache Spark. Informationen finden Sie unter Transformieren von Daten durch Ausführen einer JAR-Aktivität in Azure Databricks.

Databricks-Python-Aktivität

Die Python-Aktivität in Azure Databricks in einer Pipeline führt eine Python-Datei in Ihrem Azure Databricks-Cluster aus. Azure Databricks ist eine verwaltete Plattform für die Ausführung von Apache Spark. Informationen finden Sie unter Transformieren von Daten durch Ausführen einer Python-Aktivität in Azure Databricks.

Benutzerdefinierte Aktivität

Wenn Sie Daten auf eine Weise transformieren/verarbeiten müssen, die von Data Factory nicht unterstützt wird, können Sie eine benutzerdefinierte Aktivität mit Ihrer eigenen Datenverarbeitungslogik erstellen und in der Pipeline verwenden. Sie können die benutzerdefinierte .NET-Aktivität so konfigurieren, dass sie entweder mithilfe eines Azure Batch-Diensts oder eines Azure HDInsight-Clusters ausgeführt wird. Unter Verwenden benutzerdefinierter Aktivitäten finden Sie Einzelheiten.

Sie können eine benutzerdefinierte Aktivität erstellen, um R-Skripts in Ihrem HDInsight-Cluster mit installiertem R auszuführen. Informationen hierzu finden Sie unter R-Skript mithilfe von Azure Data Factory- and Synapse-Pipelines ausführen.

Compute-Umgebungen

Sie erstellen einen verknüpften Dienst für die Computeumgebung und verwenden dann den verknüpften Dienst, wenn Sie eine Transformationsaktivität definieren. Es gibt zwei Arten von Computeumgebungen, die unterstützt werden.

  • Bei Bedarf: In diesem Fall wird die Compute-Umgebung vollständig vom Dienst verwaltet. Der Dienst erstellt diese Umgebung automatisch, bevor ein Auftrag zur Verarbeitung von Daten übermittelt wird. Sobald der Auftrag abgeschlossen wurde, wird die Umgebung entfernt. Sie können differenzierte Einstellungen für die bedarfsgesteuerte Computeumgebung zur Auftragsausführung, Clusterverwaltung sowie für Bootstrappingaktionen konfigurieren und steuern.
  • Bring Your Own: In diesem Fall können Sie Ihre eigene Compute-Umgebung (z. B. HDInsight-Cluster) als verknüpften Dienst registrieren. Die Compute-Umgebung wird von Ihnen verwaltet und vom Dienst zum Ausführen von Aktivitäten verwendet.

Unter dem Artikel Verknüpfte Computedienste finden Sie Informationen zu unterstützten Computediensten.

Ein Beispiel für die Verwendung einer Transformationsaktivität finden Sie im folgenden Tutorial: Transformieren von Daten mit Spark