Verschieben von Daten mit der KopieraktivitätMove data by using Copy Activity

Hinweis

Dieser Artikel gilt für Version 1 von Data Factory. Wenn Sie die aktuelle Version des Data Factory-Diensts verwenden, finden Sie weitere Informationen unter Kopieraktivität in V2.

ÜbersichtOverview

In Azure Data Factory können Sie die Kopieraktivität verwenden, um Daten zwischen verschiedenen lokalen und Clouddatenspeichern zu kopieren.In Azure Data Factory, you can use Copy Activity to copy data between on-premises and cloud data stores. Nach dem Kopieren können die Daten weiter transformiert und analysiert werden.After the data is copied, it can be further transformed and analyzed. Sie können die Kopieraktivität auch zum Veröffentlichen von Transformations- und Analyseergebnissen für die Verwendung für Business Intelligence (BI) und in Anwendungen verwenden.You can also use Copy Activity to publish transformation and analysis results for business intelligence (BI) and application consumption.

Rolle der Kopieraktivität

Der Kopieraktivität liegt ein sicherer, zuverlässiger, skalierbarer und global verfügbarer Dienstzugrunde.Copy Activity is powered by a secure, reliable, scalable, and globally available service. Dieser Artikel enthält Details zum Verschieben von Daten in Data Factory und zur Kopieraktivität.This article provides details on data movement in Data Factory and Copy Activity.

Zunächst erfahren Sie, wie die Datenmigration zwischen zwei Clouddatenspeichern und zwischen einem lokalen Datenspeicher und einem Clouddatenspeicher abläuft.First, let's see how data migration occurs between two cloud data stores, and between an on-premises data store and a cloud data store.

Hinweis

Allgemeine Informationen zu Aktivitäten finden Sie unter Grundlegendes zu Pipelines und Aktivitäten.

Kopieren von Daten zwischen zwei ClouddatenspeichernCopy data between two cloud data stores

Wenn sich sowohl Quell- als auch der Senkendatenspeicher in der Cloud befinden, durchläuft die Kopieraktivität die folgenden Phasen, um die Daten aus der Quelle in die Senke zu kopieren.When both source and sink data stores are in the cloud, Copy Activity goes through the following stages to copy data from the source to the sink. Folgendes gilt für den Dienst, auf dem die Kopieraktivität basiert:The service that powers Copy Activity:

  1. Er liest Daten aus dem Quelldatenspeicher.Reads data from the source data store.
  2. Er führt die Serialisierung/Deserialisierung, Komprimierung/Dekomprimierung, Spaltenzuordnung und Typumwandlung durch.Performs serialization/deserialization, compression/decompression, column mapping, and type conversion. Diese Vorgänge erfolgen basierend auf den Konfigurationen von Eingabedataset, Ausgabedataset und Kopieraktivität.It does these operations based on the configurations of the input dataset, output dataset, and Copy Activity.
  3. Er schreibt Daten in den Zieldatenspeicher.Writes data to the destination data store.

Der Dienst wählt automatisch die optimale Region zum Durchführen der Datenverschiebung aus.The service automatically chooses the optimal region to perform the data movement. Diese Region ist üblicherweise diejenige, die sich am nächsten am Senkendatenspeicher befindet.This region is usually the one closest to the sink data store.

Cloud-zu-Cloud-Kopie

Kopieren von Daten zwischen einem lokalen Datenspeicher und einem ClouddatenspeicherCopy data between an on-premises data store and a cloud data store

Um Daten sicher zwischen einem lokalen Datenspeicher und einem Clouddatenspeicher zu verschieben, installieren Sie auf dem lokalen Computer ein Datenverwaltungsgateway.To securely move data between an on-premises data store and a cloud data store, install Data Management Gateway on your on-premises machine. Ein Datenverwaltungsgateway ist ein Agent, der eine hybride Datenverschiebung und -verarbeitung ermöglicht.Data Management Gateway is an agent that enables hybrid data movement and processing. Sie können das Gateway auf dem gleichen Computer installieren, auf dem sich der Datenspeicher selbst befindet, oder auf einem separaten Computer, der Zugriff auf den Datenspeicher hat.You can install it on the same machine as the data store itself, or on a separate machine that has access to the data store.

In diesem Szenario führt das Datenverwaltungsgateway die Serialisierung/Deserialisierung, Komprimierung/Dekomprimierung, Spaltenzuordnung und Typumwandlung aus.In this scenario, Data Management Gateway performs the serialization/deserialization, compression/decompression, column mapping, and type conversion. Die Daten fließen nicht über den Azure Data Factory-Dienst.Data does not flow through the Azure Data Factory service. Das Datenverwaltungsgateway schreibt die Daten stattdessen direkt in den Zielspeicher.Instead, Data Management Gateway directly writes the data to the destination store.

Kopie zwischen lokalem und Cloudspeicher

Unter Verschieben von Daten zwischen lokalen Datenspeichern und Clouddatenspeichern finden Sie eine Einführung und eine exemplarische Vorgehensweise zu diesem Thema.See Move data between on-premises and cloud data stores for an introduction and walkthrough. Ausführliche Informationen zu diesem Agent finden Sie unter Datenverwaltungsgateway .See Data Management Gateway for detailed information about this agent.

Sie können mithilfe des Datenverwaltungsgateways auch Daten von bzw. in unterstützte Datenspeicher verschieben, die auf virtuellen Azure IaaS-Computern gehostet werden.You can also move data from/to supported data stores that are hosted on Azure IaaS virtual machines (VMs) by using Data Management Gateway. In diesem Fall können Sie das Datenverwaltungsgateway auf dem gleichen virtuellen Computer installieren, auf dem sich der Datenspeicher selbst befindet, oder auf einem separaten virtuellen Computer, der Zugriff auf den Datenspeicher hat.In this case, you can install Data Management Gateway on the same VM as the data store itself, or on a separate VM that has access to the data store.

Unterstützte Datenspeicher und FormateSupported data stores and formats

Die Kopieraktivität in Data Factory kopiert die Daten aus einem Quelldatenspeicher in einen Senkendatenspeicher.Copy Activity in Data Factory copies data from a source data store to a sink data store. Data Factory unterstützt die folgenden Datenspeicher.Data Factory supports the following data stores. Daten aus beliebigen Quellen können in beliebige Senken geschrieben werden.Data from any source can be written to any sink. Klicken Sie auf einen Datenspeicher, um zu erfahren, wie Daten in diesen/aus diesem Speicher kopiert werden.Click a data store to learn how to copy data to and from that store.

Hinweis

Wenn Sie Daten in einen/aus einem Datenspeicher verschieben müssen, der von der Kopieraktivität nicht unterstützt wird, verwenden Sie die benutzerdefinierte Aktivität in Data Factory mit Ihrer eigenen Logik zum Kopieren/Verschieben von Daten. Informationen zum Erstellen und Verwenden einer benutzerdefinierten Aktivität finden Sie unter Verwenden von benutzerdefinierten Aktivitäten in einer Azure Data Factory-Pipeline.

Category (Kategorie)Category DatenspeicherData store Als Quelle unterstütztSupported as a source Als Senke unterstütztSupported as a sink
AzureAzure Azure Blob StorageAzure Blob storage
  Azure Cosmos DB (SQL-API)Azure Cosmos DB (SQL API)
  Azure Data Lake Storage Gen1Azure Data Lake Storage Gen1
  Azure SQL-DatenbankAzure SQL Database
  Azure SQL Data WarehouseAzure SQL Data Warehouse
  Azure Search-IndexAzure Search Index
  Azure Table StorageAzure Table storage
DatenbankenDatabases Amazon RedshiftAmazon Redshift
  DB2*DB2*
  MySQL*MySQL*
  Oracle*Oracle*
  PostgreSQL*PostgreSQL*
  SAP Business Warehouse*SAP Business Warehouse*
  SAP HANA*SAP HANA*
  SQL Server*SQL Server*
  Sybase*Sybase*
  Teradata*Teradata*
NoSQLNoSQL Cassandra*Cassandra*
  MongoDB*MongoDB*
DateiFile Amazon S3Amazon S3
  Dateisystem*File System*
  FTPFTP
  HDFS*HDFS*
  SFTPSFTP
AndereOthers Generisches HTTPGeneric HTTP
  Generisches ODataGeneric OData
  Generisches ODBC*Generic ODBC*
  SalesforceSalesforce
  Webtabelle (HTML-Tabelle)Web Table (table from HTML)

Hinweis

Datenspeicher mit * können lokal oder in Azure IaaS verfügbar sein. Für ihre Verwendung müssen Sie das Datenverwaltungsgateway auf einem lokalen oder einem Azure IaaS-Computer installieren.

Unterstützte DateiformateSupported file formats

Sie können mit der Kopieraktivität Dateien unverändert zwischen zwei dateibasierten Datenspeichern kopieren und den Formatabschnitt in den Definitionen von Eingabe- und Ausgabedatasets überspringen.You can use Copy Activity to copy files as-is between two file-based data stores, you can skip the format section in both the input and output dataset definitions. Die Daten werden effizient ohne jegliche Serialisierung oder Deserialisierung kopiert.The data is copied efficiently without any serialization/deserialization.

Die Kopieraktivität liest auch aus Dateien der angegebenen Formate bzw. schreibt in diese Dateien: Text, JSON, Avro, ORC und Parquet sowie die Komprimierungscodecs GZip, Deflate, BZip2 und ZipDeflate werden unterstützt.Copy Activity also reads from and writes to files in specified formats: Text, JSON, Avro, ORC, and Parquet, and compression codec GZip, Deflate, BZip2, and ZipDeflate are supported. Weitere Informationen finden Sie unter Unterstützte Datei- und Komprimierungsformate.See Supported file and compression formats with details.

Sie können z.B. folgende Kopieraktivitäten ausführen:For example, you can do the following copy activities:

  • Kopieren von Daten in einer lokalen SQL Server-Instanz und Schreiben in Azure Data Lake Store im ORC-FormatCopy data in on-premises SQL Server and write to Azure Data Lake Store in ORC format.
  • Kopieren von Dateien im Textformat (CSV) aus dem lokalen Dateisystem und Schreiben in einen Azure-Blob im Avro-FormatCopy files in text (CSV) format from on-premises File System and write to Azure Blob in Avro format.
  • Kopieren von ZIP-Dateien aus dem lokalen Dateisystem und Dekomprimieren in Azure Data Lake StoreCopy zipped files from on-premises File System and decompress then land to Azure Data Lake Store.
  • Kopieren von Daten im GZip-komprimierten Textformat (CSV) aus einem Azure-Blob und Schreiben in Azure SQL-DatenbankCopy data in GZip compressed text (CSV) format from Azure Blob and write to Azure SQL Database.

Global verfügbare DatenverschiebungGlobally available data movement

Azure Data Factory ist nur in den USA (Westen), USA (Osten) und Nordeuropa verfügbar.Azure Data Factory is available only in the West US, East US, and North Europe regions. Jedoch ist der Dienst, der die Kopieraktivität unterstützt, in den folgenden Regionen und Ländern global verfügbar.However, the service that powers Copy Activity is available globally in the following regions and geographies. Die global verfügbare Topologie gewährleistet effiziente Datenverschiebungen, die regionsübergreifende Hops in der Regel vermeiden.The globally available topology ensures efficient data movement that usually avoids cross-region hops. Unter Dienste nach Region erfahren Sie, in welchen Regionen Data Factory und die Datenverschiebung verfügbar sind.See Services by region for availability of Data Factory and Data Movement in a region.

Kopieren von Daten zwischen ClouddatenspeichernCopy data between cloud data stores

Wenn sich Quell- und Senkendatenspeicher in der Cloud befinden, verwendet Data Factory zum Verschieben der Daten eine Dienstbereitstellung in der Region, die dem Gebiet der Senke am nächsten liegt.When both source and sink data stores are in the cloud, Data Factory uses a service deployment in the region that is closest to the sink in the same geography to move the data. Informationen zur Zuordnung erhalten Sie in der folgenden Tabelle:Refer to the following table for mapping:

Gebiet des ZieldatenspeichersGeography of the destination data stores Region des ZieldatenspeichersRegion of the destination data store Verwendete Region für die DatenverschiebungRegion used for data movement
USAUnited States USA (Ost)East US USA (Ost)East US
  USA, Osten 2East US 2 USA (Ost) 2East US 2
  USA (Mitte)Central US USA (Mitte)Central US
  USA Nord MitteNorth Central US USA Nord MitteNorth Central US
  USA Süd MitteSouth Central US USA Süd MitteSouth Central US
  USA, Westen-MitteWest Central US USA, Westen-MitteWest Central US
  USA (Westen)West US USA (Westen)West US
  USA, Westen 2West US 2 USA, Westen 2West US 2
KanadaCanada Kanada, OstenCanada East Kanada, MitteCanada Central
  Kanada, MitteCanada Central Kanada, MitteCanada Central
BrasilienBrazil Brasilien SüdBrazil South Brasilien SüdBrazil South
EuropaEurope NordeuropaNorth Europe NordeuropaNorth Europe
  Europa, WestenWest Europe Europa, WestenWest Europe
Vereinigtes KönigreichUnited Kingdom UK, WestenUK West UK, SüdenUK South
  UK, SüdenUK South UK, SüdenUK South
Asien-PazifikAsia Pacific SüdostasienSoutheast Asia Asien, SüdostenSoutheast Asia
  Asien, OstenEast Asia Asien, SüdostenSoutheast Asia
AustralienAustralia Australien (Osten)Australia East Australien (Osten)Australia East
  Australien, SüdostenAustralia Southeast Australien, SüdostenAustralia Southeast
IndienIndia Indien, MitteCentral India Indien, MitteCentral India
  Indien, WestenWest India Indien, MitteCentral India
  Indien (Süden)South India Indien, MitteCentral India
JapanJapan Japan, OstenJapan East Japan, OstenJapan East
  Japan, WestenJapan West Japan, OstenJapan East
KoreaKorea Korea, MitteKorea Central Korea, MitteKorea Central
  Korea, SüdenKorea South Korea, MitteKorea Central

Alternativ können Sie unter den Typeigenschaften der Kopieraktivität (typeProperties) mithilfe der executionLocation-Eigenschaft explizit die Region des Data Factory-Diensts angeben, die für den Kopiervorgang verwendet werden soll.Alternatively, you can explicitly indicate the region of Data Factory service to be used to perform the copy by specifying executionLocation property under Copy Activity typeProperties. Die unterstützten Werte für diese Eigenschaft finden Sie weiter oben in der Spalte Verwendete Region für die Datenverschiebung.Supported values for this property are listed in above Region used for data movement column. Hinweis: Beim Kopieren werden Ihre Daten über diese Region geleitet.Note your data goes through that region over the wire during copy. Wenn Sie beispielsweise einen Kopiervorgang zwischen Azure-Speichern in Korea durchführen möchten, können Sie "executionLocation": "Japan East" angeben, um die Daten über Japan zu leiten (siehe JSON-Beispiel zur Referenz).For example, to copy between Azure stores in Korea, you can specify "executionLocation": "Japan East" to route through Japan region (see sample JSON as reference).

Hinweis

Falls die Region des Zieldatenspeichers in der obigen Liste nicht enthalten ist oder nicht gefunden wird, tritt standardmäßig ein Fehler auf, und die Daten werden nicht über eine Alternativregion geleitet (es sei denn, executionLocation wurde angegeben). Die Liste mit den unterstützten Regionen wird im Laufe der Zeit erweitert.

Kopieren von Daten zwischen einem lokalen Datenspeicher und einem ClouddatenspeicherCopy data between an on-premises data store and a cloud data store

Wenn Daten zwischen lokalen Datenspeichern (oder virtuellen Azure-Computern/IaaS) und Cloudspeichern kopiert werden, wird die Datenverschiebung vom Datenverwaltungsgateway auf einem lokalen oder einem virtuellen Computer durchgeführt.When data is being copied between on-premises (or Azure virtual machines/IaaS) and cloud stores, Data Management Gateway performs data movement on an on-premises machine or virtual machine. Die Daten fließen nicht durch den Dienst in der Cloud, es sei denn, Sie verwenden die Funktion des gestaffelten Kopierens .The data does not flow through the service in the cloud, unless you use the staged copy capability. In diesem Fall fließen die Daten durch Azure Blob Storage mit Staging, bevor sie in den Senkendatenspeicher geschrieben werden.In this case, data flows through the staging Azure Blob storage before it is written into the sink data store.

Erstellen einer Pipeline mit einer KopieraktivitätCreate a pipeline with Copy Activity

Sie können eine Pipeline mit einer Kopieraktivität auf verschiedene Arten erstellen:You can create a pipeline with Copy Activity in a couple of ways:

Mithilfe des Assistenten zum KopierenBy using the Copy Wizard

Der Data Factory-Kopier-Assistent unterstützt Sie beim Erstellen einer Pipeline mit einer Kopieraktivität.The Data Factory Copy Wizard helps you to create a pipeline with Copy Activity. Diese Pipeline ermöglicht das Kopieren von Daten aus unterstützten Quellen an Ziele ohne das Schreiben von JSON-Definitionen für verknüpfte Dienste, Datasets und Pipelines.This pipeline allows you to copy data from supported sources to destinations without writing JSON definitions for linked services, datasets, and pipelines. Unter Assistent zum Kopieren in Data Factory finden Sie Einzelheiten zum Assistenten.See Data Factory Copy Wizard for details about the wizard.

Mithilfe von JSON-SkriptsBy using JSON scripts

Sie können den Data Factory-Editor im Azure-Portal, Visual Studio oder Azure PowerShell verwenden, um eine JSON-Definition für eine Pipeline (mit Kopieraktivität) zu erstellen.You can use Data Factory Editor in the Azure portal, Visual Studio, or Azure PowerShell to create a JSON definition for a pipeline (by using Copy Activity). Anschließend können Sie diese bereitstellen, um die Pipeline in Data Factory zu erstellen.Then, you can deploy it to create the pipeline in Data Factory. Eine Schritt-für-Schritt-Anleitung finden Sie im Tutorial: Verwenden der Kopieraktivität in einer Azure Data Factory-Pipeline finden Sie ein Tutorial mit Schritt-für-Schritt-Anleitungen.See Tutorial: Use Copy Activity in an Azure Data Factory pipeline for a tutorial with step-by-step instructions.

JSON-Eigenschaften wie Name, Beschreibung, Eingabe- und Ausgabetabellen und Richtlinien sind für alle Arten von Aktivitäten verfügbar.JSON properties (such as name, description, input and output tables, and policies) are available for all types of activities. Die Eigenschaften, die im Abschnitt typeProperties der Aktivität verfügbar sind, variieren je nach Aktivitätstyp.Properties that are available in the typeProperties section of the activity vary with each activity type.

Bei der Kopieraktivität variiert der Abschnitt typeProperties je nach Art der Quellen und Senken.For Copy Activity, the typeProperties section varies depending on the types of sources and sinks. Klicken Sie im Abschnitt mit unterstützten Quellen und Senken auf eine Quelle bzw. Senke, um Informationen zu den Typeigenschaften zu erhalten, die von der Kopieraktivität für diesen Datenspeicher unterstützt werden.Click a source/sink in the Supported sources and sinks section to learn about type properties that Copy Activity supports for that data store.

Dies ist eine Beispiel-JSON-Definition:Here's a sample JSON definition:

{
  "name": "ADFTutorialPipeline",
  "properties": {
    "description": "Copy data from Azure blob to Azure SQL table",
    "activities": [
      {
        "name": "CopyFromBlobToSQL",
        "type": "Copy",
        "inputs": [
          {
            "name": "InputBlobTable"
          }
        ],
        "outputs": [
          {
            "name": "OutputSQLTable"
          }
        ],
        "typeProperties": {
          "source": {
            "type": "BlobSource"
          },
          "sink": {
            "type": "SqlSink"
          },
          "executionLocation": "Japan East"          
        },
        "Policy": {
          "concurrency": 1,
          "executionPriorityOrder": "NewestFirst",
          "retry": 0,
          "timeout": "01:00:00"
        }
      }
    ],
    "start": "2016-07-12T00:00:00Z",
    "end": "2016-07-13T00:00:00Z"
  }
}

Der im Ausgabedataset definierte Zeitplan legt fest, wann die Aktivität ausgeführt wird (z.B. täglich, Häufigkeit: Tag, Intervall: 1).The schedule that is defined in the output dataset determines when the activity runs (for example: daily, frequency as day, and interval as 1). Die Aktivität kopiert Daten aus einem Eingabedataset (Quelle) in ein Ausgabedataset (Senke).The activity copies data from an input dataset (source) to an output dataset (sink).

Sie können mehr als ein Eingabedataset für die Kopieraktivität angeben.You can specify more than one input dataset to Copy Activity. Diese werden verwendet, um die Abhängigkeiten zu überprüfen, bevor die Aktivität ausgeführt wird.They are used to verify the dependencies before the activity is run. Es werden allerdings nur die Daten aus dem ersten Dataset in das Zieldataset kopiert.However, only the data from the first dataset is copied to the destination dataset. Weitere Informationen finden Sie unter Planung und Ausführung.For more information, see Scheduling and execution.

Leistung und OptimierungPerformance and tuning

Der Artikel Handbuch zur Leistung und Optimierung der Kopieraktivitätbeschreibt wichtige Faktoren, die sich auf die Leistung der Datenverschiebung (Kopieraktivität) in Azure Data Factory auswirken.See the Copy Activity performance and tuning guide, which describes key factors that affect the performance of data movement (Copy Activity) in Azure Data Factory. Außerdem wird die beobachtete Leistung bei internen Tests aufgeführt und es werden verschiedene Methoden zur Optimierung der Leistung der Kopieraktivität erläutert.It also lists the observed performance during internal testing and discusses various ways to optimize the performance of Copy Activity.

FehlertoleranzFault tolerance

Standardmäßig werden von der Kopieraktivität keine Daten mehr kopiert, und es wird ein Fehler zurückgegeben, wenn inkompatible Daten zwischen Quelle und Senke auftreten. Sie können das Überspringen und Protokollieren inkompatibler Zeilen explizit konfigurieren und nur die kompatiblen Daten kopieren, damit der Kopiervorgang erfolgreich ist.By default, copy activity will stop copying data and return failure when encounter incompatible data between source and sink; while you can explicitly configure to skip and log the incompatible rows and only copy those compatible data to make the copy succeeded. Weitere Details finden Sie unter Copy Activity fault tolerance - skip incompatible rows (Fehlertoleranz der Kopieraktivität – Überspringen inkompatibler Zeilen).See the Copy Activity fault tolerance on more details.

SicherheitshinweiseSecurity considerations

Lesen Sie die Sicherheitsüberlegungen, in denen die Sicherheitsinfrastruktur beschrieben ist, die von Datenverschiebungsdiensten in Azure Data Factory verwendet wird, um Ihre Daten zu schützen.See the Security considerations, which describes security infrastructure that data movement services in Azure Data Factory use to secure your data.

Planen und sequenzielles KopierenScheduling and sequential copy

Ausführliche Informationen zur Planung und Ausführung in Data Factory finden Sie unter Planung und Ausführung .See Scheduling and execution for detailed information about how scheduling and execution works in Data Factory. Es ist möglich, mehrere Kopiervorgänge nacheinander sequenziell/sortiert auszuführen.It is possible to run multiple copy operations one after another in a sequential/ordered manner. Weitere Informationen finden Sie im Abschnitt Sequenzielles Kopieren.See the Copy sequentially section.

TypkonvertierungenType conversions

Verschiedene Datenspeicher weisen unterschiedliche systemeigene Typsysteme auf.Different data stores have different native type systems. Die Kopieraktivität führt automatische Typumwandlungen von Quelltypen in Senkentypen mithilfe des folgenden aus zwei Schritten bestehenden Ansatzes durch:Copy Activity performs automatic type conversions from source types to sink types with the following two-step approach:

  1. Konvertieren von nativen Quelltypen in einen .NET-Typ.Convert from native source types to a .NET type.
  2. Konvertieren eines .NET-Typs in einen nativen Senkentyp.Convert from a .NET type to a native sink type.

Die Zuordnung zwischen einem nativen Typ und einem .NET-Typ für den Datenspeicher finden Sie im entsprechenden Artikel zum Datenspeicher.The mapping from a native type system to a .NET type for a data store is in the respective data store article. (Klicken Sie auf den in der Tabelle „Unterstützte Datenspeicher“ angegebenen Link.)(Click the specific link in the Supported data stores table). Über diese Zuordnungen können Sie beim Erstellen von Tabellen die geeigneten Typen bestimmen, damit die Kopieraktivität die richtigen Umwandlungen ausführt.You can use these mappings to determine appropriate types while creating your tables, so that Copy Activity performs the right conversions.

Nächste SchritteNext steps