Azure Data Factory – Häufig gestellte Fragen

Hinweis

Dieser Artikel gilt für Version 1 von Data Factory. Bei Verwendung der aktuellen Version des Data Factory-Diensts finden Sie weitere Informationen unter frequently asked question - Data Factory (Häufig gestellte Fragen: Data Factory).

Hinweis

In diesem Artikel wird das Azure Az PowerShell-Modul verwendet. Dieses PowerShell-Modul wird für die Interaktion mit Azure empfohlen. Informationen zu den ersten Schritten mit dem Az PowerShell-Modul finden Sie unter Installieren von Azure PowerShell. Informationen zum Migrieren zum Az PowerShell-Modul finden Sie unter Migrieren von Azure PowerShell von AzureRM zum Az-Modul.

Allgemeine Fragen

Was ist Azure Data Factory?

Data Factory ist ein cloudbasierter Datenintegrationsdienst, der das Verschieben und Transformieren von Daten automatisiert. Genau wie ein Betrieb, in dem Anlagen Rohmaterialien verarbeiten und in Endprodukte umwandeln, organisiert Data Factory vorhandene Dienste so, dass Rohdaten gesammelt und in nutzbare Informationen transformiert werden.

Data Factory ermöglicht das Erstellen von datengesteuerten Workflows zum Verschieben von Daten zwischen lokalen und cloudbasierten Datenspeichern sowie zum Verarbeiten/Transformieren von Daten mithilfe von Computediensten wie Azure HDInsight und Azure Data Lake Analytics. Nachdem Sie eine Pipeline erstellt haben, die die gewünschte Aktion ausführt, können Sie die regelmäßige Ausführung der Pipeline planen (stündlich, täglich, wöchentlich usw.).

Weitere Informationen finden Sie unter Übersicht und wichtige Konzepte.

Wo finde ich Preisinformationen zu Azure Data Factory?

Preisinformationen zu Azure Data Factory finden Sie auf der Seite Data Factory – Preisübersicht.

F: Was sind die ersten Schritte mit Azure Data Factory?

In welchen Regionen ist Data Factory verfügbar?

Data Factory ist in den Regionen USA, Westen sowie in Europa, Norden verfügbar. Die von Data Factory verwendeten Rechen- und Speicherdienste können in anderen Regionen verfügbar sein. Siehe Unterstützte Regionen.

Welche Grenzwerte sind hinsichtlich der Anzahl der Data Factorys/Pipelines/Aktivitäten/Datasets gegeben?

Weitere Informationen finden Sie im Abschnitt Einschränkungen von Azure Data Factory unter dem Artikel Begrenzungen, Kontingente und Einschränkungen von Azure-Abonnements und -Diensten .

Was sieht die Erstellung-/Entwicklungsumgebung im Azure Data Factory-Dienst aus?

Sie können Data Factorys mithilfe eines der folgenden Werkzeuge/SDKs erstellen:

Können Data Factorys umbenannt werden?

Nein. Wie bei anderen Azure-Ressourcen auch kann der Name einer Azure Data Factory nicht geändert werden.

Kann ich eine Data Factory aus einem Azure-Abonnement in ein anderes verschieben?

Ja. Verwenden Sie die Schaltfläche Verschieben auf Ihrem Data Factory-Blatt, wie im folgenden Diagramm dargestellt:

Move data factory

Welche Compute-Umgebungen werden von Data Factory unterstützt?

Die folgende Tabelle enthält eine Liste von Compute-Umgebungen, die von Data Factory unterstützt werden, und die Aktivitäten, die darin ausgeführt werden können.

Compute-Umgebung activities
Bedarfsgesteuerter HDInsight-Cluster oder Eigener HDInsight-Cluster DotNet, Hive, Pig, MapReduce, Hadoop Streaming
Azure Batch DotNet
ML Studio (klassisch) Aktivitäten in Studio (klassisch): Batchausführung und Ressourcenaktualisierung
Azure Data Lake Analytics Data Lake Analytics U-SQL
Azure SQL, Azure Synapse Analytics, SQL Server Gespeicherte Prozedur

Wie unterscheidet sich Azure Data Factory von SQL Server Integration Services (SSIS)?

Siehe die Präsentation Azure Data Factory vs. SSIS (in englischer Sprache) von einem unserer MVPs (Most Valued Professionals): Reza Rad. Einige der kürzlich in Data Factory vorgenommenen Änderungen werden möglicherweise in der Präsentation nicht aufgeführt. Azure Data Factory werden fortlaufend weitere Funktionen hinzugefügt. Azure Data Factory werden fortlaufend weitere Funktionen hinzugefügt. Diese Aktualisierungen werden irgendwann im Laufe dieses Jahres in den Vergleich der Datenintegrationstechnologien von Microsoft aufgenommen.

Aktivitäten – Häufig gestellte Fragen

Welche verschiedenen Arten von Aktivitäten können in einer Data Factory-Pipeline verwendet werden?

Wann wird eine Aktivität ausgeführt?

Die Konfigurationseinstellung availability in der Ausgabedatentabelle bestimmt, wann die Aktivität erfolgt. Wenn Eingabedatasets angegeben sind, prüft die Aktivität, ob alle Eingabedatenabhängigkeiten erfüllt sind (den Status Bereit aufweisen), bevor die Ausführung beginnt.

Kopieraktivität – Häufig gestellte Fragen

Ist es besser, eine Pipeline mit mehreren Aktivitäten oder eine separate Pipeline für jede Aktivität einzurichten?

Pipelines dienen zum Bündeln verwandter Aktivitäten. Sie können die Aktivitäten in einer Pipeline halten, wenn die Datasets, die diese verbinden, nicht von anderen Aktivitäten außerhalb der Pipeline genutzt werden. Auf diese Weise müssen Sie Pipelineaktivitäten nicht verknüpfen, damit diese sich aneinander ausrichten. Darüber hinaus kann die Datenintegrität in den Tabellen, die für die Pipeline intern sind, beim Aktualisieren der Pipeline besser beibehalten werden. Bei einer Pipelineaktualisierung werden alle Aktivitäten in der Pipeline beendet, entfernt und neu erstellt. Aus Erstellungssicht kann es auch einfacher sein, den Datenfluss innerhalb der zugehörigen Aktivitäten in einer JSON-Datei für die Pipeline nachzuverfolgen.

Welche Datenspeicher werden unterstützt?

Die Kopieraktivität in Data Factory kopiert die Daten aus einem Quelldatenspeicher in einen Senkendatenspeicher. Data Factory unterstützt die folgenden Datenspeicher. Daten aus beliebigen Quellen können in beliebige Senken geschrieben werden. Klicken Sie auf einen Datenspeicher, um zu erfahren, wie Daten in diesen/aus diesem Speicher kopiert werden.

Category Datenspeicher Als Quelle unterstützt Als Senke unterstützt
Azure Azure Blob Storage
  Azure Cosmos DB (SQL-API)
  Azure Data Lake Storage Gen1
  Azure SQL-Datenbank
  Azure Synapse Analytics
  Azure Cognitive Search-Index
  Azure Table Storage
Datenbanken Amazon Redshift
  DB2*
  MySQL*
  Oracle*
  PostgreSQL*
  SAP Business Warehouse*
  SAP HANA*
  SQL Server*
  Sybase*
  Teradata*
NoSQL Cassandra*
  MongoDB*
File Amazon S3
  Dateisystem*
  FTP
  HDFS*
  SFTP
Andere Generisches HTTP
  Generisches OData
  Generisches ODBC*
  Salesforce
  Webtabelle (HTML-Tabelle)

Hinweis

Datenspeicher mit * können lokal oder in Azure IaaS verfügbar sein. Für ihre Verwendung müssen Sie das Datenverwaltungsgateway auf einem lokalen oder einem Azure IaaS-Computer installieren.

Welche Dateiformate werden unterstützt?

Azure Data Factory unterstützt die folgenden Dateiformattypen:

Wo wird der Kopiervorgang ausgeführt?

Ausführliche Informationen finden Sie im Abschnitt Global verfügbare Datenverschiebung . Kurz gesagt: Wenn ein lokaler Datenspeicher beteiligt ist, wird der Kopiervorgang vom Datenverwaltungsgateway in Ihrer lokalen Umgebung ausgeführt. Wenn Daten zwischen zwei Cloudspeichern bewegt werden, wird der Kopiervorgang in der Region ausgeführt, die dem Standort der Senke in der gleichen geografischen Region am nächsten liegt.

HDInsight-Aktivität – Häufig gestellte Fragen

In welchen Regionen wird HDInsight unterstützt?

Weitere Informationen finden Sie im Abschnitt zur geografischen Verfügbarkeit des folgenden Artikels oder unter HDInsight – Preisübersicht.

Welche Region wird von einem bedarfsgesteuerten HDInsight-Cluster verwendet?

Der bedarfsgesteuerte HDInsight-Cluster wird in derselben Region erstellt, in der sich der Speicher befindet, den Sie für die Verwendung mit dem Cluster angegeben haben.

Wie können weitere Speicherkonten mit Ihrem HDInsight-Cluster verknüpft werden?

Wenn Sie Ihren eigenen HDInsight-Cluster (BYOC - Bring Your Own Cluster) verwenden, lesen Sie die folgenden Themen:

Wenn Sie einen bedarfsgesteuerten Cluster verwenden, der vom Data Factory-Dienst erstellt wird, geben Sie zusätzliche Speicherkonten für den verknüpften HDInsight-Dienst an, damit der Data Factory-Dienst diese in Ihrem Auftrag registrieren kann. Verwenden Sie in der JSON-Definition des bedarfsgesteuerten verknüpften Diensts die additionalLinkedServiceNames -Eigenschaft, um alternative Speicherkonten anzugeben, wie im folgenden JSON-Codeausschnitt gezeigt:

{
    "name": "MyHDInsightOnDemandLinkedService",
    "properties":
    {
        "type": "HDInsightOnDemandLinkedService",
        "typeProperties": {
            "version": "3.5",
            "clusterSize": 1,
            "timeToLive": "00:05:00",
            "osType": "Linux",
            "linkedServiceName": "LinkedService-SampleData",
            "additionalLinkedServiceNames": [ "otherLinkedServiceName1", "otherLinkedServiceName2" ]
        }
    }
}

Im obigen Beispiel stellen "otherLinkedServiceName1" und "otherLinkedServiceName2" verknüpfte Dienste dar, deren Definitionen Anmeldeinformationen enthalten, die der HDInsight-Cluster für den Zugriff auf alternative Speicherkonten benötigt.

Slices – Häufig gestellte Fragen

Wieso weisen meine Eingabeslices nicht den Status „Bereit“ auf?

Ein weit verbreiteter Fehler besteht darin, die external-Eigenschaft im Eingabedataset nicht auf true festzulegen, wenn die Eingabedaten für die Data Factory extern sind (also nicht von der Data Factory erstellt wurden).

Im folgenden Beispiel müssen Sie nur für dataset1 den Wert external auf „true“ festlegen.

DataFactory1 Pipeline 1: dataset1 > activity1 > dataset2 > activity2 > dataset3 Pipeline 2: dataset3 > activity3 > dataset4

Wenn Sie über eine andere Data Factory mit einer Pipeline, die Dataset4 nimmt, verfügen (erstellt von Pipeline 2 in Data Factory 1), markieren Sie Dataset4 als externes Dataset, da das Dataset von einer anderen Data Factory (DataFactory1, nicht DataFactory2) erstellt wird.

DataFactory2
Pipeline 1: dataset4 > activity4 > dataset5

Wenn die Eigenschaft „external“ richtig festgelegt wurde, überprüfen Sie, ob die Eingabedaten an dem Speicherort existieren, der in der Definition des Eingabedatasets angegeben wurde.

Wie kann ein Slice zu einer anderen Zeit als Mitternacht ausgeführt werden, wenn der Slice täglich erstellt wird?

Verwenden Sie die offset -Eigenschaft, um die Zeit anzugeben, zu der der Slice erstellt werden soll. Weitere Informationen zu dieser Eigenschaft finden Sie im Abschnitt Dataset: Availability . Hier ist ein kurzes Beispiel:

"availability":
{
    "frequency": "Day",
    "interval": 1,
    "offset": "06:00:00"
}

Tägliche Slices starten anstatt zur Standardzeit (Mitternacht) um 6:00 Uhr .

Wie kann ich einen Slice erneut ausführen?

Sie können einen Slice auf eine der folgenden Arten erneut ausführen:

  • Verwenden Sie die App „Überwachen und Verwalten“, um ein Aktivitätsfenster oder einen Slice erneut auszuführen. Anweisungen finden Sie unter Wiederholen ausgewählter Aktivitätsfenster .

  • Klicken Sie im Azure-Portal auf der Befehlsleiste für den Slice auf dem Blatt DATENSLICE auf Ausführen.

  • Führen Sie das Cmdlet Set-AzDataFactorySliceStatus aus, wobei der Status des Slice auf Waiting festgelegt ist.

    Set-AzDataFactorySliceStatus -Status Waiting -ResourceGroupName $ResourceGroup -DataFactoryName $df -TableName $table -StartDateTime "02/26/2015 19:00:00" -EndDateTime "02/26/2015 20:00:00"
    

    Unter Set-AzDataFactorySliceStatus finden Sie ausführliche Informationen zum Cmdlet.

Wie lange hat die Verarbeitung eines Slices gedauert?

Verwenden Sie den Aktivitätsfenster-Explorer in der App „Überwachen und Verwalten“, um zu erfahren, wie lange die Verarbeitung eines Datenslice gedauert hat. Weitere Informationen finden Sie unter Aktivitätsfenster-Explorer .

Sie können auch wie folgt im Azure-Portal vorgehen:

  1. Klicken Sie auf der Kachel Datasets auf das Blatt DATA FACTORY für Ihre Data Factory.
  2. Klicken Sie auf dem Blatt Datasets auf das gewünschte Dataset.
  3. Wählen Sie auf dem Blatt TABELLE in der Liste Zuletzt verwendete Slices den gewünschten Slice aus.
  4. Klicken Sie auf dem Blatt DATENSLICE in der Liste Aktivitätsausführungen auf die Aktivitätsausführung.
  5. Klicken Sie auf der Kachel Eigenschaften auf das Blatt DETAILS ZUR AKTIVITÄTSAUSFÜHRUNG.
  6. Daraufhin sollte das Feld Dauer mit einem Wert angezeigt werden. Dieser Wert ist die Verarbeitungszeit des Slices.

Wie wird ein ausgeführter Slice beendet?

Wenn Sie die Ausführung der Pipeline beenden müssen, können Sie das Cmdlet Suspend-AzDataFactoryPipeline verwenden. Derzeit werden laufende Sliceausführungen bei Anhalten der Pipeline nicht beendet. Sobald die laufenden Ausführungen abgeschlossen sind, wird kein zusätzlicher Slice ausgewählt.

Wenn Sie alle Ausführungen wirklich sofort beenden möchten, ist die einzige Möglichkeit das Löschen und erneute Erstellen der Pipeline. Wenn Sie die Pipeline löschen, müssen Sie keine Tabellen und verknüpften Dienste löschen, die von der Pipeline verwendet werden.