Question 1

Was ist Azure Data Factory?

Accepted Answer

Data Factory ist ein vollständig verwalteter, cloudbasierter ETL-Datenintegrationsdienst, der das Verschieben und Transformieren von Daten automatisiert. Genau wie ein Betrieb, in dem Anlagen Rohmaterialien in Endprodukte umwandeln, organisiert Azure Data Factory vorhandene Dienste so, dass Rohdaten gesammelt und in nutzbare Informationen transformiert werden.

Sie können mithilfe von Azure Data Factory datengesteuerte Workflows zum Verschieben von Daten zwischen lokalen Datenspeichern und Clouddatenspeichern erstellen. Darüber hinaus können Sie Daten mit Datenflüssen verarbeiten und transformieren. ADF unterstützt außerdem mithilfe von Computediensten wie Azure HDInsight, Azure Databricks und SQL Server Integration Services (SSIS) Integration Runtime externe Computeengines für manuell programmierte Transformationen.

Mit Data Factory können Sie die Datenverarbeitung in einem Azure-basierten Clouddienst oder in Ihrer eigenen selbstgehosteten Compute-Umgebung wie SSIS, SQL Server oder Oracle ausführen. Nachdem Sie eine Pipeline erstellt haben, die die gewünschte Aktion ausführt, können Sie die regelmäßige Ausführung der Pipeline planen (beispielsweise stündlich, täglich oder wöchentlich), einen Plan mit Zeitfenstern aufstellen oder die Pipeline über ein Ereignis auslösen. Weitere Informationen finden Sie unter Einführung in Azure Data Factory.

Question 2

Überlegungen zu Compliance und Sicherheit

Accepted Answer

Azure Data Factory erfüllt eine Reihe von Compliancezertifizierungen, einschließlich SOC 1, 2, 3, HIPAA BAA und HITRUST. Eine vollständige (und ständig wachsende) Liste der Zertifizierungen finden Sie hier. Digitale Kopien für Überwachungsberichte und Compliancezertifizierungen finden Sie im Service Trust Center.

Ablaufsteuerungen und Skalierung

Zur Unterstützung der vielfältigen Integrationsabläufe und -muster eines modernen Data Warehouse ermöglicht Data Factory eine flexible Modellierung der Datenpipeline. Dies beinhaltet umfassende Paradigmen für die Programmierung der Ablaufsteuerung. Hierzu zählen etwa bedingte Ausführung, Verzweigung in Datenpipelines und die Möglichkeit zum expliziten Übergeben von Parametern für diese Abläufe (intern und übergreifend). Außerdem umfasst die Ablaufsteuerung die Transformation von Daten per Aktivitätsverteilung auf externe Ausführungsmodule und Datenflussfunktionen (beispielsweise bedarfsabhängige Datenverschiebungen) über die Kopieraktivität.

Mit Data Factory können Sie nun flexibel einen beliebigen Ablaufstil modellieren, der für die Datenintegration benötigt wird und entweder bedarfsabhängig oder nach einem bestimmten Zeitplan angewendet werden soll. Einige allgemeine Abläufe, die mit diesem Modell ermöglicht werden, sind:

Ablaufsteuerungen:
- Aktivitäten können innerhalb einer Pipeline zu einer Sequenz verkettet werden.
- Aktivitäten können innerhalb einer Pipeline verzweigt werden.
- Parameter:
  - Parameter können auf der Pipelineebene definiert und Argumente beim bedarfs- oder triggergesteuerten Aufrufen der Pipeline übergeben werden.
  - Aktivitäten können die an die Pipeline übergebenen Argumente nutzen.
- Übergeben von benutzerdefinierten Zuständen:
  - Aktivitätsausgaben (einschließlich des Zustands) können von einer Folgeaktivität in der Pipeline genutzt werden.
- Schleifencontainer:
  - Die ForEach-Aktivität durchläuft eine bestimmte Sammlung von Aktivitäten in einer Schleife.
Triggerbasierte Abläufe:
- Pipelines können nach Bedarf, nach der regulären Uhrzeit (Ortszeit) oder als Reaktion auf Event Grid-Themen ausgelöst werden.
Deltaabläufe:
- Sie können mithilfe von Parametern die Obergrenze für Deltakopien beim Verschieben von Dimensions- oder Referenztabellen aus einem relationalen Speicher (entweder lokal oder in der Cloud) definieren, um die Daten in den Lake zu laden.

Weitere Informationen finden Sie im Tutorial: Ablaufsteuerungen.

Nach Bedarf transformierte Daten mit Pipelines ohne Code

Die neue browserbasierte Toolumgebung ermöglicht die Erstellung und Bereitstellung von Pipelines ohne Code mit einer modernen, interaktiven webbasierten Benutzeroberfläche.

Für Entwickler visueller Daten und Datentechniker ist die Data Factory-Webbenutzeroberfläche die codefreie Entwurfsumgebung für die Pipelineerstellung. Sie ist vollständig in Visual Studio Codespace Git integriert und ermöglicht die Integration für CI/CD sowie die iterative Entwicklung mit Debugoptionen.

Umfassende plattformübergreifende SDKs für erfahrene Benutzer

Data Factory V2 bietet verschiedenste SDKs für die Erstellung, Verwaltung und Überwachung von Pipelines in Ihrer bevorzugten IDE:

Python SDK
PowerShell CLI
C# SDK

Benutzer können außerdem die dokumentierten REST-APIs verwenden, um mit Data Factory V2 zu interagieren.

Iteratives Entwickeln und Debuggen mit visuellen Tools

Die visuellen Tools von Azure Data Factory ermöglichen iteratives Entwickeln und Debuggen. Mit der Funktion Debuggen auf der Pipelinecanvas können Sie Pipelines erstellen und Testläufe durchführen, ohne eine einzige Codezeile zu schreiben. Die Ergebnisse der Testläufe können auf der Pipelinecanvas im Fenster Ausgabe angezeigt werden. Nach erfolgreicher Durchführung des Testlaufs können Sie der Pipeline weitere Aktivitäten hinzufügen und das iterative Debuggen fortsetzen. Bereits gestartete Testläufe können abgebrochen werden.

Sie müssen Ihre Änderungen nicht für den Data Factory-Dienst veröffentlichen, bevor Sie Debuggen auswählen. Dies ist hilfreich, wenn Sie sich vergewissern möchten, dass die neuen Elemente oder Änderungen wie erwartet funktionieren, bevor Sie Ihre Data Factory-Workflows in Entwicklungs-, Test- oder Produktionsumgebungen aktualisieren.

Möglichkeit zum Bereitstellen von SSIS-Paketen in Azure

Wenn Sie Ihre SSIS-Workloads verschieben möchten, können Sie eine Data Factory-Instanz erstellen und eine Azure-SSIS-Integration Runtime bereitstellen. Eine Azure-SSIS Integration Runtime ist ein vollständig verwalteter Cluster mit virtuellen Azure-Computern (Knoten), die speziell für die Ausführung von SSIS-Paketen in der Cloud bestimmt sind. Eine ausführliche Anleitung finden Sie im Tutorial Bereitstellen von SSIS-Paketen in Azure.

SDKs

Für erfahrene Benutzer, die auf der Suche nach einer befehlsorientierten Benutzerschnittstelle sind, bietet Data Factory ein breites Spektrum an SDKs zum Erstellen, Verwalten und Überwachen von Pipelines mit Ihrer bevorzugten IDE. Die Sprachunterstützung umfasst .NET, PowerShell, Python und REST.

Überwachung

Sie können Ihre Data Factorys per PowerShell, SDK oder mit den visuellen Überwachungstools auf der Benutzeroberfläche des Browsers überwachen. Sie können bedarfsabhängige, triggerbasierte und zeitgesteuerte benutzerdefinierte Datenflüsse auf effiziente und effektive Weise überwachen und verwalten. Brechen Sie vorhandene Aufgaben ab, nutzen Sie die Fehlerübersicht, zeigen Sie Detailinformationen an, um ausführliche Fehlermeldungen zu erhalten, und debuggen Sie alle Probleme an einem zentralen Ort, ohne den Kontext wechseln oder zwischen Bildschirmen navigieren zu müssen.

Neue Features für SSIS in Data Factory

Seit der ersten öffentlichen Vorschauversion im Jahr 2017 wurden mit Data Factory folgende Features für SSIS hinzugefügt:

Unterstützung von drei weiteren Konfigurationen/Varianten von Azure SQL-Datenbank zum Hosten der SSIS-Datenbank (SSISDB) mit Projekten/Paketen:
SQL-Datenbank mit VNET-Dienstendpunkten
Verwaltete SQL-Instanz
Pool für elastische Datenbanken
Unterstützung eines virtuellen Azure Resource Manager-Netzwerks auf der Grundlage eines klassischen virtuellen Netzwerks, das irgendwann als veraltet eingestuft wird. Dadurch können Sie Ihre Azure-SSIS Integration Runtime in ein virtuelles Netzwerk integrieren, das für SQL-Datenbank mit VNET-Dienstendpunkten, einer verwalteten Instanz und lokalem Datenzugriff konfiguriert ist. Weitere Informationen finden Sie unter Verknüpfen einer Azure-SSIS Integration Runtime mit einem virtuellen Netzwerk.
Unterstützung von Microsoft Entra-Authentifizierung und SQL-Authentifizierung für die Verbindungsherstellung mit der SSISDB, um die Microsoft Entra-Authentifizierung mit Ihrer von Data Factory verwalteten Identität für Azure-Ressourcen zu ermöglichen
Unterstützung der Verwendung Ihrer eigenen SQL Server-Lizenz zur Erzielung erheblicher Kosteneinsparungen über den Azure-Hybridvorteil
Unterstützung der Enterprise Edition der Azure-SSIS Integration Runtime mit erweiterten Features, Premium-Features, einer Schnittstelle für das benutzerdefinierte Setup, um zusätzliche Komponenten/Erweiterungen zu installieren, sowie mit einem Partnerökosystem. Weitere Informationen finden Sie unter Enterprise Edition, benutzerdefiniertes Setup und Erweiterbarkeit durch Drittanbieter für SSIS in ADF.
Tiefere Integration von SSIS in Data Factory, die Ihnen das Aufrufen bzw. Auslösen erstklassiger Aktivitäten zum Ausführen des SSIS-Pakets in Data Factory-Pipelines und die Planung per SSMS ermöglicht. Weitere Informationen finden Sie unter Modernisieren und Erweitern von ETL/ELT-Workflows mit SSIS-Aktivitäten in ADF-Pipelines.

Question 3

Was ist die Integration Runtime?

Accepted Answer

Die Integration Runtime ist die Computeinfrastruktur, mit der Azure Data Factory die folgenden Datenintegrationsfunktionen für verschiedene Netzwerkumgebungen bereitstellt:

Datenverschiebung: Zur Datenverschiebung werden die Daten von der Integration Runtime zwischen dem Quell- und Zieldatenspeicher verschoben, während gleichzeitig Unterstützung für integrierte Connectors, Formatkonvertierungen, Spaltenzuordnungen und leistungsfähige sowie skalierbare Datenübertragungen bereitgestellt wird.
Datenfluss – Wählen Sie die Option Datenfluss aus, um in einer verwalteten Azure-Computeumgebung einen Datenfluss auszuführen.
Verteilungsaktivitäten: Für die Transformation bietet die Integration Runtime Funktionen zur nativen Ausführung von SSIS-Paketen.
SSIS-Pakete ausführen: Die Integration Runtime führt SSIS-Pakete nativ in einer verwalteten Azure-Computeumgebung aus. Zudem unterstützt die Integration Runtime die Übermittlung und Überwachung von Transformationsaktivitäten, die in verschiedensten Computediensten wie Azure HDInsight, Azure Machine Learning, SQL-Datenbank und SQL Server ausgeführt werden.

Sie können zum Verschieben und Transformieren von Daten je nach Bedarf eine oder mehrere Integration Runtime-Instanzen bereitstellen. Die Integration Runtime kann in einem öffentlichen Azure-Netzwerk oder in einem privaten Netzwerk (lokal, Azure Virtual Network oder Virtual Private Cloud (VPC) von Amazon Web Services) ausgeführt werden. In Data Factory wird mit einer Aktivität eine durchzuführende Aktion definiert. Mit einem verknüpften Dienst wird ein Zieldatenspeicher oder ein Computedienst definiert. Eine Integrationslaufzeit stellt die Brücke zwischen der Aktivität und verknüpften Diensten dar. Sie wird vom verknüpften Dienst oder der Aktivität referenziert und stellt die Computeumgebung bereit, in der die Aktivität entweder ausgeführt wird oder aus der sie verteilt wird. Auf diese Weise kann die Aktivität in der Region durchgeführt werden, die dem Zieldatenspeicher bzw. dem Computedienst am nächsten liegt, und es kann die höchste Leistung erzielt werden, während gleichzeitig die Anforderungen an die Sicherheit und Konformität erfüllt werden.

Integration Runtimes sowie sämtliche Aktivitäten, Datasets oder Datenflüsse, die auf diese verweisen, können in der Benutzeroberfläche von Azure Data Factory über den Verwaltungshub erstellt werden. Weitere Informationen finden Sie unter Integrationslaufzeit in Azure Data Factory.

Question 4

Welcher Grenzwert besteht hinsichtlich der Anzahl von Integrationslaufzeiten?

Accepted Answer

Es gibt keine festen Grenzwerte hinsichtlich der Anzahl von Integration Runtime-Instanzen in einer Data Factory. Es gibt jedoch einen Grenzwert hinsichtlich der Anzahl von VM-Kernen, die von Integration Runtime pro Abonnement für die Ausführung von SSIS-Paketen verwendet werden können. Weitere Informationen finden Sie unter Data Factory-Grenzwerte.

Question 5

Wie lauten die Hauptkonzepte von Azure Data Factory?

Accepted Answer

Ein Azure-Abonnement kann über mindestens eine Azure Data Factory-Instanz (oder Data Factory) verfügen. Azure Data Factory enthält vier Hauptkomponenten, die zusammen als Plattform fungieren, auf der Sie datengesteuerte Workflows mit Schritten zum Verschieben und Transformieren von Daten zusammenstellen können.

Pipelines

Eine Data Factory kann eine oder mehrere Pipelines haben. Bei einer Pipeline handelt es sich um eine logische Gruppierung von Aktivitäten zur Durchführung einer Arbeitseinheit. Gemeinsam führen die Aktivitäten einer Pipeline eine Aufgabe durch. Eine Pipeline kann beispielsweise eine Gruppe von Aktivitäten enthalten, die Daten aus einem Azure-Blob erfasst, und anschließend eine Hive-Abfrage in einem HDInsight-Cluster ausführen, um die Daten zu partitionieren. Der Vorteil ist, dass Sie eine Pipeline zum Verwalten der Aktivitäten als Gruppe verwenden können, statt jede Aktivität einzeln zu verwalten. Sie können die Aktivitäten in einer Pipeline miteinander verketten, um sie sequenziell auszuführen. Sie können sie aber auch unabhängig voneinander parallel ausführen.

Datenflüsse

Bei Datenflüssen handelt es sich um Objekte, die Sie visuell in Data Factory erstellen und die Daten bedarfsorientiert für Spark-Back-End-Dienste transformieren. Sie müssen nicht mit der Programmierung oder mit Spark vertraut sein. Entwerfen Sie einfach Ihre Absicht für die Datentransformation mithilfe von Graphen (Mapping) oder Spreadsheets (Power Query-Aktivität).

activities

Aktivitäten stellen einen Verarbeitungsschritt in einer Pipeline dar. Beispielsweise können Sie eine Kopieraktivität verwenden, um Daten zwischen zwei Datenspeichern zu kopieren. Analog dazu können Sie eine Hive-Aktivität verwenden, die eine Hive-Abfrage für einen Azure HDInsight-Cluster ausführt, um Ihre Daten zu transformieren oder zu analysieren. Data Factory unterstützt drei Arten von Aktivitäten: Datenverschiebungsaktivitäten, Datentransformationsaktivitäten und Steuerungsaktivitäten.

Datasets

Datasets stellen Datenstrukturen in den Datenspeichern dar, die einfach auf die Daten zeigen bzw. verweisen, die Sie in Ihren Aktivitäten als Eingaben oder Ausgaben verwenden möchten.

Verknüpfte Dienste

Verknüpfte Dienste ähneln Verbindungszeichenfolgen, mit denen die Verbindungsinformationen definiert werden, die für Data Factory zum Herstellen einer Verbindung mit externen Ressourcen erforderlich sind. Das können Sie sich wie folgt vorstellen: Ein verknüpfter Dienst definiert die Verbindung mit der Datenquelle, und ein Dataset stellt die Struktur der Daten dar. So gibt etwa ein verknüpfter Azure Storage-Dienst die Verbindungszeichenfolge an, um eine Verbindung mit einem Azure Storage-Konto herzustellen. Und ein Azure-Blobdataset gibt den Blobcontainer und den Ordner an, der die Daten enthält.

Verknüpfte Dienste haben in Data Factory zwei Funktionen:

Sie stellen einen Datenspeicher dar, der beispielsweise eine SQL Server-Instanz, eine Oracle-Datenbankinstanz, eine Dateifreigabe oder ein Azure Blob Storage-Konto enthalten kann (er ist aber nicht darauf beschränkt). Eine Liste der unterstützten Datenspeicher finden Sie unter Kopieraktivität in Azure Data Factory.
Sie stellen eine Computeressource dar, die die Ausführung einer Aktivität hosten kann. So wird beispielsweise die HDInsight-Hive-Aktivität in einem HDInsight-Hadoop-Cluster ausgeführt. Eine Liste mit Transformationsaktivitäten und unterstützten Compute-Umgebungen finden Sie unter Transformieren von Daten in Azure Data Factory.

Trigger

Trigger stellen Verarbeitungseinheiten dar, die bestimmen, wann eine Pipelineausführung initiiert wird. Es gibt verschiedene Arten von Triggern für unterschiedliche Arten von Ereignissen.

Pipelineausführungen

Eine Pipelineausführung ist eine Instanz einer ausgeführten Pipeline. Zur Instanziierung einer Pipelineausführung werden in der Regel die Argumente an die in Pipelines definierten Parameter übergeben. Die Argumente können manuell oder im Rahmen der Triggerdefinition übergeben werden.

Parameter

Parameter sind Schlüssel-Wert-Paare in einer schreibgeschützten Konfiguration. Sie definieren Parameter in einer Pipeline, und Sie übergeben die Argumente für die definierten Parameter während der Ausführung über einen Ausführungskontext. Der Ausführungskontext wird durch einen Trigger oder über eine Pipeline erstellt, die Sie manuell ausführen. Die Parameterwerte werden von Aktivitäten in der Pipeline genutzt.

Ein Dataset ist ein stark typisierter Parameter und eine Entität, die Sie wiederverwenden oder auf die Sie verweisen können. Eine Aktivität kann auf Datasets verweisen und die Eigenschaften nutzen, die in der Datasetdefinition festgelegt sind.

Bei einem verknüpften Dienst handelt es sich ebenfalls um einen stark typisierten Parameter mit Verbindungsinformationen für einen Datenspeicher oder eine Compute-Umgebung. Er ist auch eine Entität, die Sie wiederverwenden oder auf die Sie verweisen können.

Ablaufsteuerungen

Ablaufsteuerungen orchestrieren Pipelineaktivitäten. Dies umfasst die Verkettung von Aktivitäten in einer Sequenz, Verzweigungen, auf Pipelineebene definierte Parameter sowie Argumente, die beim bedarfs- oder triggergesteuerten Aufrufen der Pipeline übergeben werden. Ablaufsteuerungen umfassen zudem das Übergeben von benutzerdefinierten Zuständen und Schleifencontainern (ForEach-Iteratoren).

Weitere Informationen zu den Data Factory-Konzepten finden Sie in den folgenden Artikeln:

Question 6

Wie sieht das Preismodell für Data Factory aus?

Accepted Answer

Preisinformationen zu Azure Data Factory finden Sie unter Data Factory – Preisübersicht.

Question 7

Wie kann ich hinsichtlich der Informationen zu Data Factory auf dem neuesten Stand bleiben?

Accepted Answer

Aktuelle Informationen zu Azure Data Factory finden Sie auf den folgenden Websites:

Question 8

Technischer Einblick

Accepted Answer

Wie kann ich eine Pipeline planen?

Sie können den Planer-Trigger oder Zeitfenster-Trigger verwenden, um eine Pipeline zu planen. Der Trigger verwendet einen Kalenderplan. Dadurch können Pipelines periodisch oder mit einem kalenderbasierten Wiederholungsmuster (etwa jeden Montag um 18:00 Uhr und jeden Donnerstag um 21:00 Uhr) geplant werden. Weitere Informationen finden Sie unter Pipelineausführung und -trigger.

Kann ich Parameter an eine Pipelineausführung übergeben?

Ja. Parameter sind ein wichtiges Konzept in Data Factory. Sie können Parameter auf Pipelineebene definieren und Argumente übergeben, während die Pipelineausführung bei Bedarf oder mithilfe eines Triggers gestartet wird.

Kann ich Standardwerte für die Pipelineparameter definieren?

Ja. Sie können Standardwerte für die Parameter in den Pipelines definieren.

Kann eine Aktivität in einer Pipeline Argumente verarbeiten, die an eine Pipelineausführung übergeben werden?

Ja. Jede Aktivität innerhalb der Pipeline kann den Parameterwert verwenden, der über das @parameter-Konstrukt an die Pipelineausführung übergeben wird.

Kann die Ausgabeeigenschaft einer Aktivität in einer anderen Aktivität verwendet werden?

Ja. Die Ausgabe einer Aktivität kann mit dem @activity-Konstrukt in einer nachfolgenden Aktivität verwendet werden.

Wie werden NULL-Werte ordnungsgemäß in der Ausgabe einer Aktivität behandelt?

NULL-Werte können mithilfe des @coalesce-Konstrukts in den Ausdrücken ordnungsgemäß behandelt werden.

Wie viele Pipelineaktivitäten können gleichzeitig ausgeführt werden?

Es sind maximal 50 gleichzeitige Pipelineaktivitäten zulässig. Die 51. Pipelineaktivität wird in die Warteschlange gestellt, bis ein Slot frei wird. Es sind maximal 800 gleichzeitige externe Aktivitäten zulässig, die anschließend auf dieselbe Weise in die Warteschlange gestellt werden.

Question 9

Zuordnen von Datenflüssen

Accepted Answer

Ich brauche Hilfe bei der Behandlung von Problemen mit meiner Datenflusslogik. Welche Informationen muss ich angeben, um Hilfe zu erhalten?

Wenn Microsoft Hilfe oder eine Problembehandlung für Datenflüsse bereitstellt, geben Sie bitte die ADF-Pipeline Support-Dateien an. Diese Zip-Datei beinhaltet das CodeBehind-Skript aus dem Datenflussdiagramm. Klicken Sie in der ADF-Benutzeroberfläche auf ... neben der Pipeline, und wählen Sie dann Unterstützungsdateien herunterladen aus.

Wie kann ich mit den anderen 90 Datasettypen in Data Factory auf Daten zugreifen?

Mit dem Feature „Zuordnungsdatenfluss“ können aktuell Azure SQL-Datenbank, Azure Synapse Analytics, durch Trennzeichen getrennte Textdateien aus Azure Blob Storage oder Azure Data Lake Storage Gen2 sowie Parquet-Dateien aus Blob Storage oder Data Lake Storage Gen2 nativ für Quelle und Senke verwendet werden.

Verwenden Sie die Kopieraktivität, um Daten aus einem der anderen Connectors bereitzustellen, und führen Sie dann eine Datenflussaktivität aus, um Daten nach der Bereitstellung zu transformieren. So führt Ihre Pipeline beispielsweise zuerst einen Kopiervorgang nach Blob Storage aus, und anschließend verwendet eine Datenflussaktivität ein Dataset in der Quelle, um diese Daten zu transformieren.

Ist die selbstgehostete Integration Runtime für Datenflüsse verfügbar?

Die selbstgehostete IR ist ein ADF-Pipelinekonstrukt, das Sie mit der Kopieraktivität zum Abrufen oder Verschieben von Daten in und aus lokalen oder VM-basierten Datenquellen und -senken verwenden können. Die virtuellen Computer, die Sie für eine selbstgehostete IR verwenden, können auch innerhalb desselben VNET wie Ihre geschützten Datenspeicher platziert werden, um über ADF auf diese Datenspeicher zugreifen zu können. Mit Datenflüssen erzielen Sie dieselben Endergebnisse, wenn Sie stattdessen die Azure IR mit verwaltetem VNET verwenden.

Bedient die Datenfluss-Computerengine mehrere Mandanten?

Cluster werden nie gemeinsam genutzt. Wir garantieren die Isolation für jede Auftragsausführung in Produktionsläufen. Bei einem Debugszenario erhält eine einzige Person einen Cluster, und alle Debuggingfehler werden in diesen Cluster verschoben, der von dem betreffenden Benutzer gestartet wird.

Gibt es eine Möglichkeit, Attribute in Cosmos DB in derselben Reihenfolge zu schreiben, in der sie in der Senke im ADF-Datenfluss angegeben sind?

Bei Cosmos DB ist das zugrunde liegende Format jedes Dokuments ein JSON-Objekt. Hierbei handelt es sich um einen ungeordneten Satz von Name-Wert-Paaren, sodass die Reihenfolge nicht reserviert werden kann.

Warum kann ein Benutzer die Datenvorschau in den Datenflüssen nicht verwenden?

Sie sollten die Berechtigungen für die benutzerdefinierte Rolle überprüfen. An der Vorschau von Dataflowdaten sind mehrere Aktionen beteiligt. Zunächst überprüfen Sie den Netzwerkdatenverkehr während des Debuggens in Ihrem Browser. Führen Sie alle Aktionen aus. Ausführliche Informationen finden Sie unter Vorgänge für Azure-Ressourcenanbieter.

Kann ich in ADF den Wert für eine neue Spalte anhand einer vorhandenen Spalte aus der Zuordnung berechnen?

Sie können eine Ableitungstransformation im Zuordnungsdatenfluss verwenden, um eine neue Spalte für die gewünschte Logik zu erstellen. Beim Erstellen einer abgeleiteten Spalte können Sie entweder eine neue Spalte generieren oder eine vorhandene Spalte aktualisieren. Geben Sie im Textfeld Spalte die Spalte ein, die Sie erstellen. Wenn Sie eine vorhandene Spalte in Ihrem Schema überschreiben möchten, können Sie die Dropdownliste für Spalten verwenden. Um den Ausdruck der abgeleiteten Spalte zu erstellen, wählen Sie das Textfeld „Ausdruck eingeben“ aus. Sie können entweder mit dem Eingeben des Ausdrucks beginnen oder den Ausdrucks-Generator öffnen, um die Logik zu erstellen.

Warum tritt bei der Vorschau des Zuordnungsdatenflusses ein Fehler mit Gatewaytimeout auf?

Versuchen Sie, einen größeren Cluster zu verwenden, und setzen Sie die Zeilengrenzwerte in den Debugeinstellungen auf einen kleineren Wert, um die Größe der Debugausgabe zu reduzieren.

Wie wird der Spaltenname im Datenfluss parametrisiert?

Der Spaltenname kann ähnlich wie andere Eigenschaften parametrisiert werden. Wie in abgeleiteten Spalten können Kund*innen $ColumnNameParam = toString(byName($myColumnNameParamInData)) verwenden. Diese Parameter können von der Pipelineausführung an Datenflüsse übergeben werden.

Die Datenflussempfehlung zu TLL und Kosten

Hilfreiche Informationen finden Sie in diesem Dokument zur Problembehandlung: Anleitung zur Leistung und Optimierung der Mapping Data Flow-Funktion – Gültigkeitsdauer.

Question 10

Power Query Data Wrangling

Accepted Answer

Welche Regionen werden für den Wrangling-Datenfluss unterstützt?

Data Factory ist in diesen Regionen verfügbar. Das Power Query-Feature ist in allen Datenflussregionen verfügbar. Wenn das Feature in Ihrer Region nicht verfügbar ist, wenden Sie sich an den Support.

Worin besteht der Unterschied zwischen der Zuordnungsdatenfluss-Funktion und der Power Query-Aktivität (Data Wrangling)?

Mit Zuordnungsdatenflüssen können Sie Daten nach Maß transformieren, ohne Code schreiben zu müssen. Sie können einen Datentransformationsauftrag auf der Datenflusscanvas entwerfen, indem Sie eine Reihe von Transformationen erstellen. Beginnen Sie mit einer beliebigen Anzahl von Quelltransformationen, gefolgt von Datentransformationsschritten. Vervollständigen Sie Ihren Datenfluss mit einer Senke, damit Ihre Ergebnisse an ein Ziel gelangen. Der Zuordnungsdatenfluss eignet sich besonders für das Zuordnen und Transformieren von Daten mit bekannten und unbekannten Schemas in den Senken und Quellen.

Power-Query Data Wrangling ermöglicht Ihnen das Vorbereiten und Durchsuchen agiler Daten mithilfe des Power Query Online-Mashup-Editors in jeder Größenordnung per Spark-Ausführung. Mit dem Anstieg von Data Lakes ist es manchmal erforderlich, ein Dataset zu durchsuchen oder ein Dataset im Lake zu erstellen. Sie nehmen keine Zuordnung zu einem bekannten Ziel vor.

Unterstützte SQL-Typen

Das Power-Query Data Wrangling unterstützt die folgenden Datentypen in SQL. Bei Verwendung eines nicht unterstützten Datentyps wird ein Validierungsfehler angezeigt.

short
double
real
float
char
nchar
varchar
NVARCHAR
integer
INT
bit
boolean
SMALLINT
TINYINT
BIGINT
long
text
date
datetime
datetime2
smalldatetime
timestamp
UNIQUEIDENTIFIER
Xml

Azure Data Factory: Häufig gestellte Fragen