Přesun dat z a do Azure

V závislosti na vašich potřebách existuje několik možností přenosu dat do a z Azure.

Fyzický přenos

Použití fyzického hardwaru k přenosu dat do Azure je dobrou volbou v následujících případech:

  • Vaše síť je pomalá nebo nespolehlivý.
  • Získání větší šířky pásma sítě je nákladově náročné.
  • Zásady zabezpečení nebo organizace neumožňují odchozí připojení při práci s citlivými daty.

Pokud vás zajímá hlavně to, jak dlouho trvá přenos dat, můžete spustit test, abyste ověřili, jestli je síťový přenos pomalejší než fyzický přenos.

Existují dvě hlavní možnosti fyzického přenosu dat do Azure:

Služba Azure Import/Export

Služba Azure Import/Export umožňuje bezpečně přenášet velké objemy dat do Azure Blob Storage nebo Azure Files odesláním interních pevných disků SATA nebo disků SSD do datacentra Azure. Tuto službu můžete použít také k přenosu dat z Azure Storage na jednotky pevných disků a nechat si je expedovat k načtení do místního prostředí.

Azure Data Box

Azure Data Box je zařízení od Microsoftu, které funguje podobně jako služba Import/Export. S Data Boxem vám Microsoft dodává vlastní, zabezpečené a odolné zařízení pro přenos dat a zajišťuje kompletní logistiku, kterou můžete sledovat prostřednictvím portálu. Jednou z výhod služby Data Box je snadné použití. Nemusíte kupovat několik pevných disků, připravovat je a přenášet soubory na každý z nich. Data Box podporuje řada špičkových partnerů Azure, aby bylo snazší bezproblémově používat offline přenosy z jejich produktů do cloudu.

Nástroje příkazového řádku a rozhraní API

Pokud chcete mít skriptovaný a programový přenos dat, zvažte tyto možnosti:

  • Azure CLI je multiplatformní nástroj, který umožňuje spravovat služby Azure a nahrávat data do služby Storage.

  • AzCopy. Pomocí nástroje AzCopy z příkazového řádku Windows nebo Linuxu můžete snadno kopírovat data do a ze služeb Blob Storage, Azure File Storage a Azure Table Storage s optimálním výkonem. AzCopy podporuje souběžnost a paralelismus a možnost obnovení operací kopírování v případě přerušení. AzCopy můžete použít také ke kopírování dat z AWS do Azure. Základní architekturou nástroje AzCopy pro programový přístup je knihovna Microsoft Azure Storage Data Movement Library. Poskytuje se jako knihovna .NET Core.

  • Pomocí PowerShellu je rutina PowerShellu Start-AzureStorageBlobCopy možností pro správce Windows, kteří jsou zvyklí na PowerShell.

  • AdlCopy umožňuje kopírovat data ze služby Blob Storage do Azure Data Lake Storage. Dá se také použít ke kopírování dat mezi dvěma účty Data Lake Storage. Nedá se ale použít ke kopírování dat z Data Lake Storage do Blob Storage.

  • Distcp se používá ke kopírování dat do a z úložiště clusteru HDInsight (WASB) do účtu Data Lake Storage.

  • Sqoop je projekt Apache a je součástí ekosystému Hadoop. Je předinstalovaný na všech clusterech HDInsight. Umožňuje přenos dat mezi clusterem HDInsight a relačními databázemi, jako jsou SQL, Oracle, MySQL atd. Sqoop je kolekce souvisejících nástrojů, včetně nástrojů pro import a export. Sqoop funguje s clustery HDInsight pomocí služby Blob Storage nebo Data Lake Storage připojeného úložiště.

  • PolyBase je technologie, která přistupuje k datům mimo databázi prostřednictvím jazyka T-SQL. V SQL Server 2016 umožňuje spouštět dotazy na externí data v Hadoopu nebo importovat nebo exportovat data ze služby Blob Storage. Ve službě Azure Synapse Analytics můžete importovat nebo exportovat data ze služby Blob Storage a Data Lake Storage. V současné době je PolyBase nejrychlejší metodou importu dat do Azure Synapse Analytics.

  • Příkazový řádek Hadoop použijte, pokud máte data, která se nacházejí v hlavním uzlu clusteru HDInsight. Pomocí příkazu můžete hadoop -copyFromLocal tato data zkopírovat do připojeného úložiště clusteru, jako je blob storage nebo Data Lake Storage. Abyste mohli použít příkaz Hadoop, musíte se nejprve připojit k hlavnímu uzlu. Po připojení můžete nahrát soubor do úložiště.

Grafické rozhraní

Pokud přenášíte jenom několik souborů nebo datových objektů a nepotřebujete proces automatizovat, zvažte následující možnosti.

  • Průzkumník služby Azure Storage je multiplatformní nástroj, který umožňuje spravovat obsah účtů úložiště Azure. Umožňuje nahrávat, stahovat a spravovat objekty blob, soubory, fronty, tabulky a entity služby Azure Cosmos DB. Se službou Blob Storage můžete spravovat objekty blob a složky a nahrávat a stahovat objekty blob mezi místním systémem souborů a službou Blob Storage nebo mezi účty úložiště.

  • Azure Portal. Blob Storage i Data Lake Storage poskytují webové rozhraní pro zkoumání souborů a nahrávání nových souborů. Tato možnost je vhodná, pokud nechcete instalovat nástroje nebo vydávat příkazy k rychlému prozkoumání souborů nebo pokud chcete nahrát několik nových.

Synchronizace dat a kanály

  • Azure Data Factory je spravovaná služba, která je nejvhodnější pro pravidelný přenos souborů mezi mnoha službami Azure, místními systémy nebo jejich kombinací. Pomocí služby Data Factory můžete vytvářet a plánovat pracovní postupy řízené daty označované jako kanály, které ingestují data z různorodých úložišť dat. Data Factory může zpracovávat a transformovat data pomocí výpočetních služeb, jako jsou Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics a Azure Machine Learning. Můžete vytvářet pracovní postupy řízené daty pro orchestraci a automatizaci přesunu a transformace dat.

  • Kanály a aktivity ve službě Data Factory a Azure Synapse Analytics je možné použít k vytvoření kompletních pracovních postupů řízených dat pro scénáře přesunu a zpracování dat. Prostředí Azure Data Factory Integration Runtime navíc poskytuje možnosti integrace dat v různých síťových prostředích.

  • Azure Data Box Gateway přenáší data do a z Azure, ale je to virtuální zařízení, ne pevný disk. Virtuální počítače umístěné ve vaší místní síti zapisují data do služby Data Box Gateway pomocí protokolů NFS a SMB. Zařízení pak přenese vaše data do Azure.

Klíčová kritéria výběru

V případě scénářů přenosu dat zvolte systém, který odpovídá vašim potřebám, a to zodpovězením těchto otázek:

  • Potřebujete přenášet velké objemy dat, pokud by to přes připojení k internetu trvalo příliš dlouho, bylo by nespolehlivé nebo příliš nákladné? Pokud ano, zvažte fyzický přenos.

  • Dáváte přednost skriptování úloh přenosu dat, aby byly opakovaně použitelné? Pokud ano, vyberte jednu z možností příkazového řádku nebo Data Factory.

  • Potřebujete přenášet velké množství dat přes síťové připojení? Pokud ano, vyberte možnost, která je optimalizovaná pro velké objemy dat.

  • Potřebujete přenést data do relační databáze nebo z této relační databáze? Pokud ano, zvolte možnost, která podporuje jednu nebo více relačních databází. Některé z těchto možností také vyžadují cluster Hadoop.

  • Potřebujete automatizovaný datový kanál nebo orchestraci pracovních postupů? Pokud ano, zvažte data Factory.

Matice schopností

Následující tabulky shrnují klíčové rozdíly ve schopnostech.

Fyzický přenos

Schopnost Služba Import/Export Data Box
Provedení Interní disky SATA HDD nebo SDD Jedno hardwarové zařízení zabezpečené, odolné proti manipulaci
Microsoft spravuje logistiku expedice No Yes
Integrace s partnerskými produkty No Yes
Vlastní zařízení No Yes

Nástroje příkazového řádku

Hadoop/HDInsight:

Schopnost Distcp Sqoop Rozhraní příkazového řádku Hadoop
Optimalizováno pro velké objemy dat Yes Yes Yes
Kopírování do relační databáze No Yes No
Kopírování z relační databáze No Yes No
Kopírování do služby Blob Storage Yes Yes Yes
Kopírování ze služby Blob Storage Yes Yes No
Kopírovat do Data Lake Storage Yes Yes Yes
Kopírovat z Data Lake Storage Yes Yes No

Další:

Schopnost Azure CLI AzCopy PowerShell AdlCopy PolyBase
Kompatibilní platformy Linux, OS X, Windows Linux, Windows Windows Linux, OS X, Windows SQL Server, Azure Synapse Analytics
Optimalizováno pro velké objemy dat No Yes No Ano 1 Ano 2
Kopírování do relační databáze No No No No Yes
Kopírování z relační databáze No No No No Yes
Kopírování do služby Blob Storage Yes Yes Yes No Yes
Kopírování ze služby Blob Storage Yes Yes Yes Yes Yes
Kopírovat do Data Lake Storage No Yes Yes Yes Yes
Kopírovat z Data Lake Storage No No Yes Yes Yes

[1] AdlCopy je optimalizovaný pro přenos velkých objemů dat při použití s účtem Data Lake Analytics.

[2] Výkon PolyBase je možné zvýšit tak, že do hadoopu nasdílí výpočty a pomocí skupin škálování na více instancí PolyBase povolíte paralelní přenos dat mezi instancemi SQL Server a uzly Hadoop.

Grafická rozhraní, synchronizace dat a datové kanály

Schopnost Průzkumník služby Azure Storage Azure Portal * Data Factory Data Box Gateway
Optimalizováno pro velké objemy dat No No Yes Yes
Kopírování do relační databáze No No Yes No
Kopírování z relační databáze No No Yes No
Kopírování do služby Blob Storage Yes No Yes Yes
Kopírování ze služby Blob Storage Yes No Yes No
Kopírovat do Data Lake Storage No No Yes No
Kopírovat z Data Lake Storage No No Yes No
Nahrání do služby Blob Storage Yes Yes Yes Yes
Nahrát do Data Lake Storage Yes Yes Yes Yes
Orchestrace přenosů dat No No Yes No
Transformace vlastních dat No No Yes No
Cenový model Free Free Platba za využití Platba za jednotku

* Azure Portal v tomto případě představují webové nástroje pro zkoumání objektů blob storage a Data Lake Storage.

Přispěvatelé

Tento článek spravuje Microsoft. Původně ji napsali následující přispěvatelé.

Hlavní autor:

Další kroky