Överföra data till och från Azure
Det finns flera alternativ för att överföra data till och från Azure, beroende på dina behov.
Fysisk överföring
Att använda fysisk maskinvara för att överföra data till Azure är ett bra alternativ när:
- Nätverket är långsamt eller otillförlitligt.
- Det kostar för mycket att få ytterligare nätverksbandbredd.
- Säkerhetsprinciper eller organisationsprinciper tillåter inte utgående anslutningar vid hantering av känsliga data.
Om det viktigaste är hur lång tid det tar att överföra dina data kan du köra ett test för att kontrollera om nätverksöverföringen faktiskt går långsammare än den fysiska transporten.
Det finns två huvudsakliga alternativ för fysisk transport av data till Azure:
Azure Import/Export. Med Azure Import/Export-tjänsten kan du på ett säkert sätt överföra stora mängder data till Azure Blob Storage eller Azure Files genom att skicka interna SATA-hårddiskar eller SDD:er till ett Azure-datacenter. Du kan också använda den här tjänsten för att överföra data Azure Storage enheter till hårddiskar och skicka dem till dig för inläsning lokalt.
Azure Data Box. Azure Data Box är en enhet som tillhandahålls av Microsoft och fungerar ungefär som Azure Import/Export tjänsten. Microsoft levererar en upphovsrättsskyddad, säker och manipulationsfri överföringsapparat och hanterar den logistik från ena änden till slut som du kan spåra via portalen. En fördel med Azure Data Box tjänsten är enkel att använda. Du behöver inte köpa flera hårddiskar, förbereda dem och överföra filer till var och en. Azure Data Box stöds av ett antal branschledande Azure-partner för att göra det enklare att smidigt använda offlinetransport till molnet från sina produkter.
Kommandoradsverktyg och API:er
Överväg dessa alternativ när du vill ha skriptad och programmatisk dataöverföring.
Azure CLI. Azure CLI är ett plattformsoberoende verktyg som gör att du kan hantera Azure-tjänster och ladda upp data till Azure Storage.
AzCopy. Använd AzCopy från en Windows eller Linux-kommandorad för att enkelt kopiera data till och från Azure Blob-, File- och Table Storage med optimala prestanda. AzCopy har stöd för samtidighet och parallellism, och du kan återuppta avbrutna kopieringsåtgärder. Du kan också använda AzCopy för att kopiera data från AWS till Azure. För programmatisk åtkomst är Microsoft Azure Storage Data Movement Library det grundläggande ramverket som driver AzCopy. Det tillhandahålls som ett .NET Core-bibliotek.
PowerShell. PowerShell-cmdleten är ett alternativ för Windows administratörer som är vana vid PowerShell.
AdlCopy. Med AdlCopy kan du kopiera data från Azure Storage-blobar till Data Lake Store. Det kan också användas för att kopiera data mellan två Azure Data Lake Store konton. Den kan dock inte användas för att kopiera data från Data Lake Store till Storage blobar.
Distcp. Om du har ett HDInsight-kluster med åtkomst till Data Lake Store kan du använda Hadoop-ekosystemverktyg som Distcp för att kopiera data till och från en HDInsight-klusterlagring (WASB) till ett Data Lake Store-konto.
Sqoop. Sqoop är ett Apache-projekt och en del av Hadoop-ekosystemet. Den levereras förinstallerad i alla HDInsight-kluster. Det tillåter dataöverföring mellan ett HDInsight-kluster och relationsdatabaser som SQL, Oracle, MySQL och så vidare. Sqoop är en samling relaterade verktyg, inklusive import och export. Sqoop fungerar med HDInsight-kluster med antingen Azure Storage blobar eller Data Lake Store ansluten lagring.
PolyBase. PolyBase är en teknik som använder data utanför databasen via T-SQL språk. I SQL Server 2016 kan du köra frågor på externa data i Hadoop eller importera/exportera data från Azure Blob Storage. I Azure Synapse Analytics kan du importera/exportera data från Azure Blob Storage och Azure Data Lake Store. PolyBase är för närvarande den snabbaste metoden för att importera data till Azure Synapse.
Hadoop-kommandoraden. När du har data som finns på en HDInsight-klusterhuvudnod kan du använda kommandot för att kopiera dessa data till klustrets anslutna lagring, till exempel Azure Storage blob eller
hadoop -copyFromLocalAzure Data Lake Store. För att kunna använda Hadoop-kommandot måste du först ansluta till huvudnoden. När du är ansluten kan du ladda upp en fil till lagringen.
Grafiskt gränssnitt
Överväg följande alternativ om du bara överför ett fåtal filer eller dataobjekt och inte behöver automatisera processen.
Azure Storage Explorer. Azure Storage Explorer är ett plattformsoberoende verktyg som gör att du kan hantera innehållet i dina Azure Storage-konton. Du kan ladda upp, ladda ned och hantera blobar, filer, köer, tabeller och Azure Cosmos DB-entiteter. Använd det med Blob Storage för att hantera blobar och mappar, samt för att ladda upp och ladda ned blobar mellan ditt lokala filsystem och Blob Storage eller mellan lagringskonton.
Azure-portalen. Både Blob Storage Data Lake Store ett webbaserat gränssnitt för att utforska filer och ladda upp nya filer en i taget. Det här är ett bra alternativ om du inte vill installera några verktyg eller köra kommandon för att snabbt utforska dina filer, eller helt enkelt ladda upp några få nya filer.
Datapipeline
Azure Data Factory. Azure Data Factory är en hanterad tjänst som lämpar sig bäst för regelbunden överföring av filer mellan ett antal Azure-tjänster, lokalt eller en kombination av dessa. Med Azure Data Factory kan du skapa och schemalägga datadrivna arbetsflöden (kallas pipelines) som matar in data från olika datalager. Den kan bearbeta och transformera data med hjälp av beräkningstjänster, till exempel Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics och Azure Machine Learning. Skapa datadrivna arbetsflöden för att samordna och automatisera dataförflyttning och datatransformering.
Viktiga urvalskriterier
För dataöverföringsscenarier väljer du lämpligt system för dina behov genom att besvara följande frågor:
Behöver du överföra mycket stora mängder data, där det skulle ta för lång tid, vara otillförlitligt eller för dyrt att göra det via en Internetanslutning? Om ja, överväg fysisk överföring.
Föredrar du att skripta dina dataöverföringsuppgifter så att de kan återanvändas? I så fall väljer du något av kommandoradsalternativen eller Azure Data Factory.
Behöver du överföra en mycket stor mängd data via en nätverksanslutning? I så fall väljer du ett alternativ som är optimerat för stordata.
Behöver du överföra data till eller från en relationsdatabas? Om ja, välj ett alternativ som stöder en eller flera relationsdatabaser. Observera att vissa av dessa alternativ även kräver ett Hadoop-kluster.
Behöver du en automatiserad datapipeline eller arbetsflödesorkestrering? Om ja, överväg att Azure Data Factory.
Kapacitetsmatris
I följande tabeller sammanfattas de viktigaste skillnaderna i funktioner.
Fysisk överföring
| Funktion | Azure Import/Export tjänst | Azure Data Box |
|---|---|---|
| Formfaktor | Interna SATA-hårddiskar eller SDD:er | Säker, manipuleringssäker, enskild maskinvaruinstallation |
| Microsoft hanterar leveranslogistik | Inga | Ja |
| Integrerar med partnerprodukter | Inga | Ja |
| Anpassad installation | Inga | Ja |
Kommandoradsverktyg
Hadoop/HDInsight:
| Funktion | Distcp | Sqoop | Hadoop CLI |
|---|---|---|---|
| Optimerad för stordata | Ja | Ja | Ja |
| Kopiera till relationsdatabas | Inga | Ja | Inga |
| Kopiera från relationsdatabasen | Inga | Ja | Inga |
| Kopiera till Blob Storage | Ja | Ja | Ja |
| Kopiera från Blob Storage | Ja | Ja | Inga |
| Kopiera till Data Lake Store | Ja | Ja | Ja |
| Kopiera från Data Lake Store | Ja | Ja | Inga |
Andra:
| Funktion | Azure CLI | AzCopy | PowerShell | AdlCopy | PolyBase |
|---|---|---|---|---|---|
| Kompatibla plattformar | Linux, OS X, Windows | Linux, Windows | Windows | Linux, OS X, Windows | SQL Server, Azure Synapse |
| Optimerad för stordata | Inga | Ja | Nej | Ja 1 | Ja 2 |
| Kopiera till relationsdatabas | Inga | Inga | Inga | Inga | Ja |
| Kopiera från relationsdatabasen | Inga | Inga | Inga | Inga | Ja |
| Kopiera till Blob Storage | Ja | Ja | Ja | Inga | Ja |
| Kopiera från Blob Storage | Ja | Ja | Ja | Ja | Ja |
| Kopiera till Data Lake Store | Inga | Ja | Ja | Ja | Ja |
| Kopiera från Data Lake Store | Inga | Inga | Ja | Ja | Ja |
[1] AdlCopy är optimerat för överföring av stordata när det används med ett Data Lake Analytics konto.
[2] PolyBase-prestanda kan ökas genom att överföra beräkningar till Hadoop och använda PolyBase-skalbara grupper för att möjliggöra parallell dataöverföring mellan SQL Server-instanser och Hadoop-noder.
Grafiskt gränssnitt och Azure Data Factory
| Funktion | Azure Storage Explorer | Azure Portal * | Azure Data Factory |
|---|---|---|---|
| Optimerad för stordata | Inga | Inga | Ja |
| Kopiera till relationsdatabas | Inga | Inga | Ja |
| Kopiera från relationsdatabas | Inga | Inga | Ja |
| Kopiera till Blob Storage | Ja | Inga | Ja |
| Kopiera från Blob Storage | Ja | Inga | Ja |
| Kopiera till Data Lake Store | Inga | Inga | Ja |
| Kopiera från Data Lake Store | Inga | Inga | Ja |
| Upload till Blob Storage | Ja | Ja | Ja |
| Upload till Data Lake Store | Ja | Ja | Ja |
| Samordna dataöverföringar | Inga | Inga | Ja |
| Anpassade datatransformationer | Inga | Inga | Ja |
| Prismodell | Kostnadsfri | Kostnadsfri | Betala per användning |
* Azure Portal innebär i det här fallet att du använder webbaserade utforskningsverktyg för Blob Storage och Data Lake Store.