Gegevens overdragen van en naar Azure

Er zijn verschillende opties voor het overdragen van gegevens van en naar Azure, afhankelijk van uw behoeften.

Fysieke overdracht

Het gebruik van fysieke hardware om gegevens over te dragen naar Azure is een goede optie wanneer:

  • Uw netwerk is traag of onbetrouwbaar.
  • Het verkrijgen van extra netwerkbandbreedte is kostenefficïtief.
  • Beveiligings- of organisatiebeleid staat geen uitgaande verbindingen toe bij het verwerken van gevoelige gegevens.

Als uw belangrijkste zorg is hoe lang het duurt om uw gegevens over te dragen, kunt u een test uitvoeren om te controleren of de netwerkoverdracht daadwerkelijk langzamer is dan fysiek transport.

Er zijn twee hoofdopties voor het fysiek transporteren van gegevens naar Azure:

  • Azure Import/Export. Met de Azure Import/Export-service kunt u veilig grote hoeveelheden gegevens overdragen naar Azure Blob Storage of Azure Files door interne SATA HDD's of SDD's naar een Azure-datacenter te verzenden. U kunt deze service ook gebruiken om gegevens over te dragen van Azure Storage naar harde schijven en deze naar u te laten verzenden om on-premises te laden.

  • Azure Data Box. Azure Data Box is een door Microsoft geleverd apparaat dat lijkt op de Azure Import/Export service. Microsoft verzendt u een bedrijfseigen, veilige en manipulatiebestendige overdrachtsapparaat en verwerkt de end-to-end logistiek, die u via de portal kunt volgen. Een voordeel van de Azure Data Box service is gebruiksgemak. U hoeft geen verschillende harde schijven aan te schaffen, ze voor te bereiden en bestanden naar elke schijf over te dragen. Azure Data Box wordt ondersteund door een aantal toonaangevende Azure-partners om het eenvoudiger te maken om offline transport vanuit hun producten naadloos naar de cloud te gebruiken.

Opdrachtregelprogramma's en API's

Overweeg deze opties wanneer u gegevensoverdracht via scripts en programma's wilt uitvoeren.

  • Azure CLI. De Azure CLI is een platformoverschrijdend hulpprogramma waarmee u Azure-services kunt beheren en gegevens kunt uploaden naar Azure Storage.

  • AzCopy. Gebruik AzCopy vanaf een Windows- of Linux-opdrachtregel om eenvoudig gegevens met optimale prestaties te kopiëren van en naar Azure Blob-, File- en Table-opslag. AzCopy biedt ondersteuning voor gelijktijdigheid en parallellisme, en de mogelijkheid om kopieerbewerkingen te hervatten als deze worden onderbroken. U kunt AzCopy ook gebruiken om gegevens van AWS naar Azure te kopiëren. Voor programmatische toegang is de Microsoft Azure Storage Data Movement Library het kernraamwerk voor AzCopy. Deze wordt geleverd als een .NET Core-bibliotheek.

  • PowerShell. De Start-AzureStorageBlobCopy PowerShell-cmdlet is een optie voor Windows die powershell gebruiken.

  • AdlCopy. Met AdlCopy kunt u gegevens kopiëren van Azure Storage Blobs naar Data Lake Store. Het kan ook worden gebruikt om gegevens te kopiëren tussen twee Azure Data Lake Store accounts. Het kan echter niet worden gebruikt om gegevens te kopiëren van Data Lake Store naar Storage blobs.

  • Distcp. Als u een HDInsight-cluster hebt met toegang tot Data Lake Store, kunt u Hadoop-ecosysteemhulpprogramma's zoals Distcp gebruiken om gegevens van en naar een HDInsight-clusteropslag (WASB) naar een Data Lake Store-account te kopiëren.

  • Sqoop. Sqoop is een Apache-project en maakt deel uit van het Hadoop-ecosysteem. Deze is vooraf geïnstalleerd op alle HDInsight-clusters. Hiermee is gegevensoverdracht mogelijk tussen een HDInsight-cluster en relationele databases zoals SQL, Oracle, MySQL, en meer. Sqoop is een verzameling gerelateerde hulpprogramma's, waaronder importeren en exporteren. Sqoop werkt met HDInsight-clusters met behulp van Azure Storage blobs of Data Lake Store gekoppelde opslag.

  • PolyBase. PolyBase is een technologie die toegang heeft tot gegevens buiten de database via de T-SQL taal. In SQL Server 2016 kunt u query's uitvoeren op externe gegevens in Hadoop of gegevens importeren/exporteren uit Azure Blob Storage. In Azure Synapse Analytics kunt u gegevens importeren/exporteren uit Azure Blob Storage en Azure Data Lake Store. PolyBase is momenteel de snelste methode voor het importeren van gegevens in Azure Synapse.

  • Hadoop-opdrachtregel. Wanneer u gegevens hebt die zich op het hoofdknooppunt van een HDInsight-cluster bevinden, kunt u de opdracht gebruiken om die gegevens te kopiëren naar de gekoppelde opslag van uw cluster, zoals Azure Storage blob of hadoop -copyFromLocal Azure Data Lake Store. Als u de Hadoop-opdracht wilt gebruiken, moet u eerst verbinding maken met het hoofd-knooppunt. Zodra u verbinding hebt, kunt u een bestand uploaden naar de opslag.

Grafische interface

Overweeg de volgende opties als u slechts enkele bestanden of gegevensobjecten overzetten en het proces niet hoeft te automatiseren.

  • Azure Storage Explorer. Azure Storage Explorer is een platformoverschrijdend hulpprogramma waarmee u de inhoud van uw Azure-opslagaccounts kunt beheren. Het stelt u in staat om blobs, bestanden, wachtrijen en tabellen, en Azure Cosmos DB-entiteiten te uploaden, downloaden en beheren. Gebruik het met Blob-opslag om blobs en mappen te beheren, en om blobs te uploaden en te downloaden tussen uw lokale bestandssysteem en Blob-opslag, of tussen opslagaccounts.

  • Azure-portal. Zowel Blob Storage als Data Lake Store een webinterface voor het verkennen van bestanden en het uploaden van nieuwe bestanden één voor één. Dit is een goede optie als u geen hulpprogramma's wilt installeren, of opdrachten wilt gebruiken om snel uw bestanden te verkennen, of om gewoon een aantal nieuwe bestanden te uploaden.

Gegevenspijplijn

Azure Data Factory. Azure Data Factory is een beheerde service die het meest geschikt is voor het regelmatig overdragen van bestanden tussen een aantal Azure-services, on-premises of een combinatie van deze twee. Met Azure Data Factory kunt u gegevensgestuurde werkstromen (pijplijnen genoemd) maken en plannen die gegevens opnemen uit verschillende gegevensopslag. Azure Data Factory kan de gegevens verwerken en transformeren met behulp van rekenservices zoals Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics en Azure Machine Learning. Maak gegevensgestuurde werkstromen voor het in delen en automatiseren van gegevensver movement en gegevenstransformatie.

Selectiecriteria voor sleutels

Voor scenario's voor gegevensoverdracht kiest u het juiste systeem voor uw behoeften door deze vragen te beantwoorden:

  • Moet u zeer grote hoeveelheden gegevens overdragen, waarbij dit via een internetverbinding te lang, onbetrouwbaar of te duur zou zijn? Zo ja, overweeg dan fysieke overdracht.

  • Wilt u liever een script maken voor uw taken voor gegevensoverdracht, zodat ze opnieuw kunnen worden gebruikt? Als dit het het beste is, selecteert u een van de opdrachtregelopties of Azure Data Factory.

  • Moet u een zeer grote hoeveelheid gegevens overdragen via een netwerkverbinding? Als dat het beste is, selecteert u een optie die is geoptimaliseerd voor big data.

  • Moet u gegevens overdragen naar of van een relationele database? Zo ja, kies een optie die ondersteuning biedt voor een of meer relationele databases. Voor sommige van deze opties is ook een Hadoop-cluster vereist.

  • Hebt u een geautomatiseerde gegevenspijplijn of werkstroom-orchestration nodig? Zo ja, overweeg dan Azure Data Factory.

Mogelijkheidsmatrix

De volgende tabellen geven een overzicht van de belangrijkste verschillen in mogelijkheden.

Fysieke overdracht

Mogelijkheid Azure Import/Export-service Azure Data Box
Formulierfactor Interne SATA HDD's of SDD's Beveiligd, manipulatiebestendig, enkel hardwareapparaat
Microsoft beheert de verzendingslogistiek Nee Ja
Integreert met partnerproducten Nee Ja
Aangepast apparaat Nee Ja

Opdrachtregelprogramma's

Hadoop/HDInsight:

Mogelijkheid Distcp Sqoop Hadoop CLI
Geoptimaliseerd voor big data Ja Ja Ja
Kopiëren naar relationele database Nee Ja Nee
Kopiëren uit relationele database Nee Ja Nee
Kopiëren naar Blob Storage Ja Ja Ja
Kopiëren vanuit Blob Storage Ja Ja Nee
Kopiëren naar Data Lake Store Ja Ja Ja
Kopiëren vanuit Data Lake Store Ja Ja Nee

Andere:

Mogelijkheid Azure CLI AzCopy PowerShell AdlCopy PolyBase
Compatibele platforms Linux, OS X, Windows Linux, Windows Windows Linux, OS X, Windows SQL Server, Azure Synapse
Geoptimaliseerd voor big data Nee Ja Nee Ja 1 Ja 2
Kopiëren naar relationele database Nee Nee Nee Nee Ja
Kopiëren uit relationele database Nee Nee Nee Nee Ja
Kopiëren naar Blob Storage Ja Ja Ja Nee Ja
Kopiëren vanuit Blob Storage Ja Ja Ja Ja Ja
Kopiëren naar Data Lake Store Nee Ja Ja Ja Ja
Kopiëren vanuit Data Lake Store Nee Nee Ja Ja Ja

[1] AdlCopy is geoptimaliseerd voor de overdracht van big data gebruikt met een Data Lake Analytics account.

[2] PolyBase-prestaties kunnen worden verhoogd door berekeningen naar Hadoop te pushen en polyBase-uitschaalgroepen te gebruiken om parallelle gegevensoverdracht tussen SQL Server-exemplaren en Hadoop-knooppunten mogelijk te maken.

Grafische interface en Azure Data Factory

Mogelijkheid Azure Storage Explorer Azure Portal * Azure Data Factory
Geoptimaliseerd voor big data Nee Nee Ja
Kopiëren naar relationele database Nee Nee Ja
Kopiëren uit relationele database Nee Nee Ja
Kopiëren naar Blob Storage Ja Nee Ja
Kopiëren vanuit Blob Storage Ja Nee Ja
Kopiëren naar Data Lake Store Nee Nee Ja
Kopiëren vanuit Data Lake Store Nee Nee Ja
Upload naar Blob Storage Ja Ja Ja
Upload naar Data Lake Store Ja Ja Ja
Gegevensoverdrachten in delen Nee Nee Ja
Aangepaste gegevenstransformaties Nee Nee Ja
Prijsmodel Gratis Gratis Betalen per gebruik

* Azure Portal betekent in dit geval het gebruik van de webgebaseerde verkenningshulpprogramma's voor Blob Storage en Data Lake Store.