Přenos dat do a z Azure
Existuje několik možností pro přenos dat do a z Azure v závislosti na vašich potřebách.
Fyzický přenos
Použití fyzického hardwaru k přenosu dat do Azure je dobrou volbou v případě, že:
- Vaše síť je pomalá nebo nespolehlivá.
- Získání další šířky pásma sítě je nákladově nenákladné.
- Zásady zabezpečení nebo organizace nepovolují odchozí připojení při práci s citlivými daty.
Pokud je vaším primárním problémem, jak dlouho bude trvat přenos dat, můžete spustit test, abyste ověřili, jestli je síťový přenos skutečně pomalejší než fyzický přenos.
Existují dvě hlavní možnosti fyzického přenosu dat do Azure:
Azure Import/export. Služba Azure Import/export umožňuje bezpečně přenášet velké objemy dat do služby Azure Blob Storage nebo Azure Files odesláním interních disků SATA NEBO SSD do datacentra Azure. Tuto službu můžete také použít k přenosu dat z Azure Storage na pevné disky a tyto disky vám poslat k místnímu načtení.
Azure Data Box. Azure Data Box je zařízení poskytované Microsoftem, které funguje podobně jako azure Import/export service. Microsoft vám dodává proprietární, zabezpečené a odolné zařízení pro přenos dat a zpracovává komplexní logistiku, kterou můžete sledovat prostřednictvím portálu. Jednou z výhod Azure Data Box je snadné použití. Nemusíte kupovat několik pevných disků, připravovat je a přenášet soubory na každý z nich. Azure Data Box je podporováno řadou předních partnerů Azure, aby bylo snazší bezproblémově používat offline přenos z jejich produktů do cloudu.
Nástroje příkazového řádku a rozhraní API
Tyto možnosti zvažte, pokud chcete použít skriptovaný a programový přenos dat.
Azure CLI. Azure CLI je nástroj pro více platforem, který umožňuje spravovat služby Azure a nahrávat data do Azure Storage.
AzCopy. Pomocí AzCopy z Windows nebo linuxového příkazového řádku můžete snadno kopírovat data do a ze služeb Azure Blob Storage, File a Table Storage s optimálním výkonem. AzCopy podporuje souběžnost a paralelismus a možnost obnovení operací kopírování v případě přerušení. AzCopy můžete použít také ke kopírování dat z AWS do Azure. Pro programový přístup je základní architekturou, Microsoft Azure Storage azcopy, knihovna pro přesun dat. Poskytuje se jako knihovna .NET Core.
PowerShell. Rutina
Start-AzureStorageBlobCopyPowerShellu je možnost pro Windows, kteří se používají v PowerShellu.AdlCopy. AdlCopy umožňuje kopírovat data z Azure Storage objektů blob do Data Lake Store. Můžete ji také použít ke kopírování dat mezi dvěma účty Azure Data Lake Store účty. Nelze ho ale použít ke kopírování dat z Data Lake Store do Storage objektů blob.
Distcp. Pokud máte cluster HDInsight s přístupem ke službě Data Lake Store, můžete pomocí nástrojů ekosystému Hadoop, jako je Distcp, kopírovat data do a z úložiště clusteru HDInsight (WASB) do Data Lake Store účtu.
Sqoop. Sqoop je projekt Apache a je součástí ekosystému Hadoop. Je předinstalovaný na všech clusterech HDInsight. Umožňuje přenos dat mezi clusterem HDInsight a relačními databázemi, jako jsou SQL, Oracle, MySQL atd. Sqoop je kolekce souvisejících nástrojů, včetně importu a exportu. Sqoop pracuje s clustery HDInsight s využitím Azure Storage objektů blob nebo Data Lake Store připojeného úložiště.
PolyBase. PolyBase je technologie, která přistupuje k datům mimo databázi prostřednictvím jazyka T-SQL jazyka. V SQL Server 2016 umožňuje spouštět dotazy na externí data v Hadoopu nebo importovat a exportovat data z Azure Blob Storage. V Azure Synapse Analytics můžete importovat a exportovat data z Azure Blob Storage a Azure Data Lake Store. PolyBase je v současné době nejrychlejší metodou importu dat do Azure Synapse.
Hadoop – příkazový řádek. Pokud máte data umístěná v hlavní uzlu clusteru HDInsight, můžete pomocí příkazu zkopírovat tato data do připojeného úložiště clusteru, jako je Azure Storage blob nebo
hadoop -copyFromLocalAzure Data Lake Store. Abyste mohli použít příkaz Hadoop, musíte se nejprve připojit k hlavnímu uzlu. Po připojení můžete nahrát soubor do úložiště.
Grafické rozhraní
Pokud přenášíte jenom několik souborů nebo datových objektů a nepotřebujete proces automatizovat, zvažte následující možnosti.
Průzkumník služby Azure Storage. Průzkumník služby Azure Storage je nástroj pro více platforem, který umožňuje spravovat obsah účtů úložiště Azure. Umožňuje nahrávat, stahovat a spravovat objekty blob, soubory, fronty, tabulky a entity služby Azure Cosmos DB. Při použití se službou Blob Storage umožňuje spravovat objekty blob a složky a také nahrávat a stahovat objekty blob mezi místním systémem souborů a službou Blob Storage nebo mezi účty úložiště.
Azure Portal. Úložiště objektů blob i Data Lake Store poskytují webové rozhraní pro zkoumání souborů a nahrávání nových souborů po jednom. Tato možnost je vhodná v případě, že nechcete instalovat žádné nástroje ani vydávat příkazy, ale chcete pouze rychle procházet soubory nebo jednoduše nahrát pár nových.
Data Pipeline
Azure Data Factory. Azure Data Factory je spravovaná služba, která se nejlépe hodí pro pravidelné přenosy souborů mezi řadou služeb Azure, místním prostředím nebo jejich kombinací. Pomocí Azure Data Factory můžete vytvářet a plánovat pracovní postupy řízené daty (nazývané kanály), které ingestují data z různorodých úložišť dat. Data se můžou zpracovávat a transformovat pomocí výpočetních služeb, jako je Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics a Azure Machine Learning. Vytvářejte pracovní postupy řízené daty pro orchestraci a automatizaci přesunu a transformace dat.
Klíčová kritéria výběru
V případě scénářů přenosu dat si odpovězte na tyto otázky a zvolte vhodný systém pro vaše potřeby:
Potřebujete přenášet velmi velké objemy dat, kde by to přes připojení k internetu trvat příliš dlouho, byly nespolehlivé nebo příliš nákladné? Pokud ano, zvažte fyzický přenos.
Dáváte přednost skriptování úloh přenosu dat, aby byly znovu použitelné? Pokud ano, vyberte jednu z možností příkazového řádku nebo Azure Data Factory.
Potřebujete přenášet velké množství dat přes síťové připojení? Pokud ano, vyberte možnost, která je optimalizovaná pro velké datové přenosy.
Potřebujete přenášet data do nebo z relační databáze? Pokud ano, zvolte možnost, která podporuje jednu nebo více relačních databází. Všimněte si, že některé z těchto možností vyžadují také cluster Hadoop.
Potřebujete automatizovaný datový kanál nebo orchestraci pracovních postupů? Pokud ano, zvažte Azure Data Factory.
Matice schopností
Následující tabulky shrnují hlavní rozdíly v možnostech.
Fyzický přenos
| Schopnost | Azure Import/export Service | Azure Data Box |
|---|---|---|
| Provedení | Interní pevné disky nebo disky SSD SATA | Zabezpečené jedno hardwarové zařízení odolné proti manipulaci |
| Microsoft spravuje logistiku expedice | No | Yes |
| Integrace s partnerskými produkty | No | Yes |
| Vlastní zařízení | No | Yes |
Nástroje příkazového řádku
Hadoop/HDInsight:
| Schopnost | Distcp | Sqoop | Rozhraní příkazového řádku Hadoop |
|---|---|---|---|
| Optimalizováno pro velké objemy dat | Yes | Yes | Yes |
| Kopírovat do relační databáze | No | Yes | No |
| Kopírovat z relační databáze | No | Yes | No |
| Kopírovat do úložiště objektů BLOB | Yes | Yes | Yes |
| Kopírování ze služby Blob Storage | Yes | Yes | No |
| Kopírovat do Data Lake Store | Yes | Yes | Yes |
| Kopírovat z Data Lake Store | Yes | Yes | No |
Jiná
| Schopnost | Azure CLI | AzCopy | PowerShell | AdlCopy | PolyBase |
|---|---|---|---|---|---|
| Kompatibilní platformy | Linux, OS X, Windows | Linux, Windows | Windows | Linux, OS X, Windows | SQL Server, Synapse Azure |
| Optimalizováno pro velké objemy dat | No | Yes | No | Ano 1 | Ano 2 |
| Kopírovat do relační databáze | No | No | No | No | Yes |
| Kopírovat z relační databáze | No | No | No | No | Yes |
| Kopírovat do úložiště objektů BLOB | Yes | Yes | Yes | No | Yes |
| Kopírování ze služby Blob Storage | Yes | Yes | Yes | Yes | Yes |
| Kopírovat do Data Lake Store | No | Yes | Yes | Yes | Yes |
| Kopírovat z Data Lake Store | No | No | Yes | Yes | Yes |
[1] AdlCopy je optimalizován pro přenos velkých objemů dat při použití s účtem Data Lake Analytics.
[2] základní výkon je možné zvýšit vložením výpočtů do Hadoop a použitím základních skupin škálování na více instancí, které umožňují paralelní přenos dat mezi instancemi SQL Server a uzly Hadoop.
Grafické rozhraní a Azure Data Factory
| Schopnost | Průzkumník služby Azure Storage | Azure Portal * | Azure Data Factory |
|---|---|---|---|
| Optimalizováno pro velké objemy dat | No | No | Yes |
| Kopírovat do relační databáze | No | No | Yes |
| Kopírování z relační databáze | No | No | Yes |
| Kopírování do úložiště objektů blob | Yes | No | Yes |
| Kopírování ze služby Blob Storage | Yes | No | Yes |
| Kopírovat do Data Lake Store | No | No | Yes |
| Kopírování z Data Lake Store | No | No | Yes |
| Upload do úložiště objektů blob | Yes | Yes | Yes |
| Upload na Data Lake Store | Yes | Yes | Yes |
| Orchestrace přenosů dat | No | No | Yes |
| Vlastní transformace dat | No | No | Yes |
| Cenový model | Free | Free | Platba za využití |
* Azure Portal v tomto případě znamená použití webových nástrojů pro zkoumání objektů blob a Data Lake Store.