Übertragen von Daten in und aus Azure

Daten können auf verschiedene Arten in und aus Azure übertragen werden. Für welche Option Sie sich entscheiden, hängt ganz von Ihren Anforderungen ab.

Physische Übertragung

In folgenden Fällen empfiehlt sich die Verwendung physischer Hardware für die Übertragung von Daten in Azure:

  • Ihr Netzwerk ist langsam oder unzuverlässig.
  • Zusätzliche Netzwerkbandbreite ist zu teuer.
  • Sicherheits- oder Organisationsrichtlinien lassen keine ausgehenden Verbindungen zu, wenn es um vertrauliche Daten geht.

Wenn es Ihnen hauptsächlich auf die Übertragungsgeschwindigkeit Ihrer Daten ankommt, sollten Sie testen, ob die Netzwerkübertragung langsamer ist als der physische Transport.

Für den physischen Transport von Daten in Azure stehen zwei Hauptoptionen zur Verfügung:

Der Azure Import/Export-Dienst

Der Azure Import/Export-Dienst ermöglicht die sichere Übertragung großer Datenmengen in Azure Blob Storage oder Azure Files durch den Versand interner SATA-HDDs oder -SDDs an ein Azure-Datencenter. Mit diesem Dienst können Sie auch Daten aus Azure Storage auf Festplattenlaufwerke übertragen und sich die Laufwerke zusenden lassen, um sie lokal zu laden.

Azure Data Box

Azure Data Box ist eine von Microsoft bereitgestellte Appliance, die ganz ähnlich funktioniert wie der Import/Export-Dienst. Mit Data Box schickt Microsoft Ihnen eine proprietäre, sichere und manipulationsgeschützte Übertragungsappliance und kümmert sich um die gesamte Logistik, die Sie im Portal nachverfolgen können. Ein Vorteil von Data Box ist die hohe Benutzerfreundlichkeit. Sie müssen nicht mehrere Festplatten kaufen, vorbereiten und die Dateien auf die einzelnen Festplatten übertragen. Data Box wird von zahlreichen branchenführenden Azure-Partnern unterstützt, um in ihren Produkten den nahtlosen Offlinetransport in die Cloud zu erleichtern.

Befehlszeilentools und APIs

Erwägen Sie die Verwendung dieser Optionen, wenn Sie eine skript- und programmgesteuerte Datenübertragung benötigen:

  • Die Azure-Befehlszeilenschnittstelle (Azure CLI) ist ein plattformübergreifendes Tool, mit dem Sie Azure-Dienste verwalten und Daten in Storage hochladen können.

  • AzCopy. Verwenden Sie AzCopy an einer Befehlszeile unter Windows oder Linux, um Daten ganz einfach und mit optimaler Leistung aus bzw. in Blob Storage, Azure File Storage und Azure Table Storage zu kopieren. AzCopy unterstützt Nebenläufigkeit und Parallelität sowie die Fortsetzung unterbrochener Kopiervorgänge. Sie können auch AzCopy zum Kopieren von Daten aus AWS in Azure nutzen. Für den programmgesteuerten Zugriff nutzt AzCopy die Microsoft Azure Storage Data Movement-Bibliothek als Kernframework. Diese wird als .NET Core-Bibliothek bereitgestellt.

  • Bei Verwendung von PowerShell ist das PowerShell-Cmdlet „Start-AzureStorageBlobCopy“ eine Option für Windows-Administratoren mit PowerShell-Erfahrung.

  • AdlCopy ermöglicht das Kopieren von Daten aus Blob Storage in Azure Data Lake Storage. Diese Option kann auch zum Kopieren von Daten zwischen zwei Data Lake Storage-Konten verwendet werden. Sie kann jedoch nicht verwendet werden, um Daten aus Data Lake Storage in Blob Storage zu kopieren.

  • Distcp wird verwendet, um Daten aus einem HDInsight-Clusterspeicher (WASB) in ein Data Lake Storage-Konto zu kopieren.

  • Sqoop ist ein Apache-Projekt und Teil des Hadoop-Ökosystems. Es ist auf allen HDInsight-Clustern vorinstalliert. Mit Sqoop können Sie Daten zwischen einem HDInsight-Cluster und relationalen Datenbanken wie SQL, Oracle und MySQL übertragen. Bei Sqoop handelt es sich um eine Sammlung verwandter Tools, die auch Import- und Exporttools umfasst. Sqoop kann mit HDInsight-Clustern verwendet werden – entweder unter Verwendung von Blob Storage oder unter Verwendung von angefügtem Data Lake Storage-Speicher.

  • PolyBase ist eine Technologie, die über die T-SQL-Sprache auf Daten außerhalb einer Datenbank zugreift. In SQL Server 2016 können Sie mit PolyBase Abfragen für externe Daten in Hadoop ausführen oder Daten aus Blob Storage importieren/exportieren. In Azure Synapse Analytics können Sie Daten aus Blob Storage und Data Lake Storage importieren bzw. exportieren. PolyBase ist derzeit die schnellste Methode, um Daten in Azure Synapse Analytics zu importieren.

  • Verwenden Sie die Hadoop-Befehlszeile, wenn Sie Daten haben, die sich auf einem Hauptknoten eines HDInsight-Clusters befinden. Sie können diese Daten mithilfe des Befehls hadoop -copyFromLocal in den angefügten Speicher Ihres Clusters (beispielsweise Blob Storage oder Data Lake Storage) kopieren. Um den Hadoop-Befehl verwenden zu können, müssen Sie zunächst eine Verbindung mit dem Hauptknoten herstellen. Anschließend können Sie eine Datei in den Speicher hochladen.

Grafische Benutzeroberfläche

Erwägen Sie die folgenden Optionen, wenn Sie nur wenige Dateien oder Datenobjekte übertragen und den Vorgang nicht automatisieren müssen.

  • Der Azure Storage-Explorer ist ein plattformübergreifendes Tool zur Verwaltung der Inhalte Ihrer Azure-Speicherkonten. Mit diesem Tool können Sie Blobs, Dateien, Warteschlangen, Tabellen und Azure Cosmos DB-Entitäten hochladen, herunterladen und verwalten. Verwenden Sie es zusammen mit Blob Storage, um Blobs und Ordner zu verwalten und Blobs zwischen Ihrem lokalen Dateisystem und Blob Storage oder zwischen Speicherkonten hoch- und herunterzuladen.

  • Azure-Portal. Blob Storage und Data Lake Storage bieten eine webbasierte Oberfläche zum Erkunden von Dateien sowie zum Hochladen neuer Dateien. Diese Option empfiehlt sich, wenn Sie Ihre Dateien schnell erkunden möchten, ohne Tools zu installieren oder Befehle auszuführen, oder wenn Sie nur wenige neue Dateien hochladen möchten.

Datensynchronisierung und Pipelines

  • Der verwaltete Dienst Azure Data Factory eignet sich am besten zur regelmäßigen Übertragung von Dateien zwischen vielen Azure-Diensten oder lokalen Diensten (oder zwischen einer Kombination aus beidem). Mit Data Factory können Sie datengesteuerte Workflows (sogenannte Pipelines) erstellen und planen, die Daten aus unterschiedlichen Datenspeichern erfassen. Data Factory kann die Daten mithilfe von Computediensten wie Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics und Azure Machine Learning verarbeiten und transformieren. Sie können datengesteuerte Workflows zur Orchestrierung und Automatisierung der Verschiebung und Transformation von Daten erstellen.

  • Pipelines und Aktivitäten in Data Factory und Azure Synapse Analytics dienen zum Erstellen lückenloser datengesteuerter Workflows für Ihre Szenarien zum Verschieben und Verarbeiten von Daten. Darüber hinaus dient die Integration Runtime von Azure Data Factory zum Bereitstellen von Datenintegrationsfunktionen für verschiedene Netzwerkumgebungen.

  • Azure Data Box Gateway dient zum Übertragen von Daten in und aus Azure. Hierbei handelt es sich allerdings nicht um eine Festplatte, sondern um eine virtuelle Appliance. Virtuelle Computer in Ihrem lokalen Netzwerk schreiben Daten über die Protokolle NFS und SMB in Data Box Gateway. Das Gerät überträgt dann Ihre Daten in Azure.

Wichtige Auswahlkriterien

Die folgenden Fragen unterstützen Sie bei der Ermittlung eines geeigneten Systems für Ihre Datenübertragungsszenarien:

  • Müssen Sie sehr große Datenmengen übertragen, was über eine Internetverbindung zu lange dauern würde oder unzuverlässig bzw. zu teuer wäre? Falls ja, empfiehlt sich die physische Übertragung.

  • Bevorzugen Sie skriptgesteuerte (und somit wiederverwendbare) Datenübertragungsaufgaben? Falls ja, entscheiden Sie sich für eine der Befehlszeilenoptionen oder für Data Factory.

  • Müssen Sie eine große Datenmenge über eine Netzwerkverbindung übertragen? Falls ja, sollten Sie eine für Big Data optimierte Option wählen.

  • Müssen Sie Daten in eine relationale Datenbank oder aus einer relationalen Datenbank übertragen? Falls ja, entscheiden Sie sich für eine Option, die mindestens eine relationale Datenbank unterstützt. Einige dieser Optionen erfordern auch einen Hadoop-Cluster.

  • Benötigen Sie eine automatisierte Datenpipeline oder Workfloworchestrierung? Falls ja, empfiehlt sich die Verwendung von Data Factory.

Funktionsmatrix

In den folgenden Tabellen sind die Hauptunterschiede der Funktionen zusammengefasst:

Physische Übertragung

Funktion Import/Export-Dienst Data Box
Formfaktor Interne SATA-HDDs oder -SDDs Einzelne sichere und manipulationsgeschützte Hardwareappliance
Von Microsoft verwaltete Versandlogistik Nein Ja
Integration in Partnerprodukte Nein Ja
Angepasste Appliance Nein Ja

Befehlszeilentools

Hadoop/HDInsight:

Funktion Distcp Sqoop Hadoop-Befehlszeilenschnittstelle
Für Big Data optimiert Ja Yes Ja
Kopieren in relationale Datenbank Nein Ja Nein
Kopieren aus relationaler Datenbank Nein Ja Nein
Kopieren in Blob Storage Ja Yes Ja
Kopieren aus Blob Storage Ja Ja Nein
Kopieren in Data Lake Storage Ja Yes Ja
Kopieren aus Data Lake Storage Ja Ja Nein

Sonstige:

Funktion Azure-Befehlszeilenschnittstelle AzCopy PowerShell AdlCopy PolyBase
Kompatible Plattformen Linux, OS X, Windows Linux, Windows Windows Linux, OS X, Windows SQL Server, Azure Synapse Analytics
Für Big Data optimiert Nein Ja Nein Ja1 Ja2
Kopieren in relationale Datenbank Nein No No Nein Ja
Kopieren aus relationaler Datenbank Nein No No Nein Ja
Kopieren in Blob Storage Ja Yes Ja Nein Ja
Kopieren aus Blob Storage Ja Yes Yes Yes Ja
Kopieren in Data Lake Storage Nein Ja Yes Yes Ja
Kopieren aus Data Lake Storage Nein Nein Ja Yes Ja

[1] AdlCopy ist bei Verwendung mit einem Data Lake Analytics-Konto für die Übertragung von Big Data optimiert.

[2] Für PolyBase kann die Leistung verbessert werden, indem die Berechnung mithilfe von Push an Hadoop übertragen und durch die Verwendung von PolyBase-Erweiterungsgruppen die parallele Datenübertragung zwischen SQL Server-Instanzen und Hadoop-Knoten ermöglicht wird.

Grafische Oberflächen, Datensynchronisierung und Datenpipelines

Funktion Azure Storage-Explorer Azure-Portal* Data Factory Data Box Gateway
Für Big Data optimiert Nein Nein Ja Ja
Kopieren in relationale Datenbank Nein Nein Ja Nein
Kopieren aus relationaler Datenbank Nein Nein Ja Nein
Kopieren in Blob Storage Ja Nein Ja Ja
Kopieren aus Blob Storage Ja Nein Ja Nein
Kopieren in Data Lake Storage Nein Nein Ja Nein
Kopieren aus Data Lake Storage Nein Nein Ja Nein
Hochladen in Blob Storage Ja Yes Yes Ja
Hochladen in Data Lake Storage Ja Yes Yes Ja
Orchestrieren von Datenübertragungen Nein Nein Ja Nein
Benutzerdefinierte Datentransformationen Nein Nein Ja Nein
Preismodell Kostenlos Kostenlos Nutzungsbasierte Bezahlung Zahlen pro Einheit

* Azure-Portal meint in diesem Fall die webbasierten Erkundungstools für Blob Storage und Data Lake Storage.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautor:

Nächste Schritte