Použití Azure Data Lake Storage Gen1 pro požadavky na velké objemy dat

Článek
08/05/2022

Poznámka

Azure Data Lake Storage Gen1 je teď vyřazený. Podívejte se na oznámení o vyřazení z provozu tady. Data Lake Storage Gen1 prostředky už nejsou přístupné. Pokud potřebujete zvláštní pomoc, kontaktujte nás.

Zpracování velkých objemů dat má čtyři klíčové fáze:

Ingestování velkých objemů dat do úložiště dat v reálném čase nebo v dávkách
Zpracování dat
Stahování dat
Vizualizace dat

V tomto článku se podíváme na tyto fáze s ohledem na Azure Data Lake Storage Gen1, abychom porozuměli dostupným možnostem a nástrojům pro splnění vašich požadavků na velké objemy dat.

Ingestování dat do Data Lake Storage Gen1

Tato část popisuje různé zdroje dat a různé způsoby, jak je možné tato data ingestovat do účtu Data Lake Storage Gen1.

Ingestování dat do Data Lake Storage Gen1

Ad hoc data

To představuje menší datové sady, které se používají k vytváření prototypů aplikace pro velké objemy dat. Existují různé způsoby příjmu dat ad hoc v závislosti na zdroji dat.

Zdroj dat	Ingestujte ho pomocí
Místní počítač	Azure Portal Azure PowerShell Azure CLI Použití nástrojů Data Lake pro Visual Studio
Azure Storage Blob	Azure Data Factory Nástroj AdlCopy DistCp spuštěný v clusteru HDInsight

Streamovaná data

Představuje data, která mohou být generována různými zdroji, jako jsou aplikace, zařízení, senzory atd. Tato data můžou být ingestována do Data Lake Storage Gen1 různými nástroji. Tyto nástroje obvykle zachytí a zpracují data na základě jednotlivých událostí v reálném čase a pak události zapisují v dávkách do Data Lake Storage Gen1, aby je bylo možné dále zpracovat.

Můžete použít následující nástroje:

Azure Stream Analytics – Události ingestované do služby Event Hubs je možné zapisovat do Azure Data Lake Storage Gen1 pomocí výstupu Azure Data Lake Storage Gen1.
EventProcessorHost – můžete přijímat události ze služby Event Hubs a pak je zapisovat do Data Lake Storage Gen1 pomocí Data Lake Storage Gen1 .NET SDK.

Relační data

Můžete také získat data z relačních databází. V průběhu časového období relační databáze shromažďují obrovské objemy dat, která můžou poskytnout klíčové přehledy, pokud se zpracovávají prostřednictvím kanálu pro velké objemy dat. K přesunutí těchto dat do Data Lake Storage Gen1 můžete použít následující nástroje.

Data protokolu webového serveru (nahrávání pomocí vlastních aplikací)

Tento typ datové sady je výslovně označen, protože analýza dat protokolu webového serveru je běžným případem použití aplikací s velkými objemy dat a vyžaduje, aby se do Data Lake Storage Gen1 nahrály velké objemy souborů protokolu. K napsání vlastních skriptů nebo aplikací pro nahrání těchto dat můžete použít kterýkoli z následujících nástrojů.

Pro nahrání dat protokolu webového serveru a také pro nahrávání dalších druhů dat (např. dat sociálních mínění) je vhodné psát vlastní skripty nebo aplikace, protože vám dává flexibilitu zahrnout komponentu pro nahrávání dat jako součást větších aplikací pro velké objemy dat. V některých případech může mít tento kód podobu skriptu nebo jednoduchého nástroje příkazového řádku. V jiných případech se kód může použít k integraci zpracování velkých objemů dat do obchodní aplikace nebo řešení.

Data přidružená ke clusterům Azure HDInsight

Většina typů clusterů HDInsight (Hadoop, HBase, Storm) podporuje Data Lake Storage Gen1 jako úložiště dat. Clustery HDInsight přistupují k datům z objektů blob služby Azure Storage (WASB). Pro zajištění lepšího výkonu můžete data z WASB zkopírovat do účtu Data Lake Storage Gen1 přidruženého ke clusteru. Ke zkopírování dat můžete použít následující nástroje.

Data uložená v místních clusterech nebo clusterech Hadoop IaaS

Velké objemy dat můžou být uložené v existujících clusterech Hadoop místně na počítačích používajících HDFS. Clustery Hadoop můžou být v místním nasazení nebo v rámci clusteru IaaS v Azure. Můžou existovat požadavky na zkopírování těchto dat do Azure Data Lake Storage Gen1 pro jednorázový přístup nebo opakovaným způsobem. Existují různé možnosti, které můžete použít k dosažení tohoto cíle. Níže je seznam alternativ a souvisejících kompromisů.

Přístup	Podrobnosti	Výhody	Požadavky
Použití Azure Data Factory (ADF) ke kopírování dat přímo z clusterů Hadoop do Azure Data Lake Storage Gen1	ADF podporuje hdfs jako zdroj dat	ADF poskytuje připravenou podporu pro HDFS a prvotřídní komplexní správu a monitorování.	Vyžaduje, aby byla brána Správa dat nasazená místně nebo v clusteru IaaS.
Exportujte data z Hadoopu jako soubory. Pak soubory zkopírujte do Azure Data Lake Storage Gen1 pomocí příslušného mechanismu.	Soubory můžete zkopírovat do Azure Data Lake Storage Gen1 pomocí: Azure PowerShell pro operační systém Windows Azure CLI Vlastní aplikace využívající libovolnou sadu Data Lake Storage Gen1 SDK	Začněte rychle. Může provádět vlastní nahrávání.	Vícekrokový proces, který zahrnuje více technologií. Správa a monitorování budou vzhledem k přizpůsobené povaze nástrojů v průběhu času výzvou.
Pomocí distcp zkopírujte data ze systému Hadoop do služby Azure Storage. Pak pomocí vhodného mechanismu zkopírujte data ze služby Azure Storage do Data Lake Storage Gen1.	Data ze služby Azure Storage můžete zkopírovat do Data Lake Storage Gen1 pomocí: Azure Data Factory Nástroj AdlCopy Apache DistCp spuštěný v clusterech HDInsight	Můžete použít opensourcové nástroje.	Vícekrokový proces, který zahrnuje více technologií

Opravdu velké datové sady

Při nahrávání datových sad v rozsahu několika terabajtů může být použití výše popsaných metod někdy pomalé a nákladné. V takových případech můžete použít následující možnosti.

Pomocí Azure ExpressRoute. Azure ExpressRoute umožňuje vytvářet privátní připojení mezi datacentry Azure a místní infrastrukturou. To poskytuje spolehlivou možnost pro přenos velkých objemů dat. Další informace najdete v dokumentaci k Azure ExpressRoute.
Offline nahrání dat. Pokud z nějakého důvodu není použití Azure ExpressRoute možné, můžete použít službu Azure Import/Export k odeslání pevných disků s daty do datacentra Azure. Vaše data se nejprve nahrají do objektů blob služby Azure Storage. Pak můžete pomocí nástroje Azure Data Factory nebo AdlCopy zkopírovat data z objektů blob služby Azure Storage do Data Lake Storage Gen1.

Poznámka

Při používání služby Import/Export by velikost souborů na discích, které odesíláte do datacentra Azure, neměla být větší než 195 GB.

Zpracování dat uložených v Data Lake Storage Gen1

Jakmile jsou data k dispozici v Data Lake Storage Gen1 můžete pro tato data spustit analýzu pomocí podporovaných aplikací pro velké objemy dat. V současné době můžete použít Azure HDInsight a Azure Data Lake Analytics ke spouštění úloh analýzy dat na datech uložených v Data Lake Storage Gen1.

Analýza dat v Data Lake Storage Gen1

Můžete se podívat na následující příklady.

Stažení dat z Data Lake Storage Gen1

Můžete také chtít stáhnout nebo přesunout data z Azure Data Lake Storage Gen1 pro scénáře, jako jsou:

Přesuňte data do jiných úložišť, aby bylo rozhraní se stávajícími kanály zpracování dat. Můžete například chtít přesunout data z Data Lake Storage Gen1 do Azure SQL Database nebo SQL Server.
Stáhněte si data do místního počítače pro zpracování v prostředích IDE při sestavování prototypů aplikací.

Výchozí data z Data Lake Storage Gen1

V takových případech můžete použít některou z následujících možností:

Následující metody můžete použít také k napsání vlastního skriptu nebo aplikace pro stahování dat z Data Lake Storage Gen1.

Vizualizace dat v Data Lake Storage Gen1

K vytvoření vizuální reprezentace dat uložených v Data Lake Storage Gen1 můžete použít kombinaci služeb.

Vizualizace dat v Data Lake Storage Gen1

Můžete začít přesunem dat z Data Lake Storage Gen1 do Azure Synapse Analytics pomocí Azure Data Factory.
Potom můžete integrovat Power BI s Azure Synapse Analytics a vytvořit tak vizuální znázornění dat.

Share via

Použití Azure Data Lake Storage Gen1 pro požadavky na velké objemy dat

Ingestování dat do Data Lake Storage Gen1

Ad hoc data

Streamovaná data

Relační data

Data protokolu webového serveru (nahrávání pomocí vlastních aplikací)

Data přidružená ke clusterům Azure HDInsight

Data uložená v místních clusterech nebo clusterech Hadoop IaaS

Opravdu velké datové sady

Zpracování dat uložených v Data Lake Storage Gen1

Stažení dat z Data Lake Storage Gen1

Vizualizace dat v Data Lake Storage Gen1

Další materiály