Nahrání dat pro úlohy Apache Hadoopu ve službě HDInsight

Článek
06/01/2023

HDInsight poskytuje systém souborů HDFS (Hadoop Distributed File System) přes Azure Storage a Azure Data Lake Storage. Toto úložiště zahrnuje Gen1 a Gen2. Azure Storage a Data Lake Storage Gen1 a Gen2 jsou navržené jako rozšíření HDFS. Umožňují, aby úplná sada komponent v prostředí Hadoop fungovala přímo s daty, která spravuje. Azure Storage, Data Lake Storage Gen1 a Gen2 jsou odlišné systémy souborů. Systémy jsou optimalizované pro ukládání dat a výpočty s daty. Informace o výhodách používání služby Azure Storage najdete v tématu Použití služby Azure Storage se službou HDInsight. Viz také Použití Data Lake Storage Gen1 se službou HDInsight a Použití Data Lake Storage Gen2 se službou HDInsight.

Požadavky

Než začnete, poznamenejte si následující požadavky:

Cluster Azure HDInsight. Pokyny najdete v tématu Začínáme se službou Azure HDInsight.
Znalost následujících článků:

Nahrání dat do Azure Storage

Nástroje

Microsoft poskytuje následující nástroje pro práci se službou Azure Storage:

Nástroj	Linux	OS X	Windows
Azure Portal	✔	✔	✔
Azure CLI	✔	✔	✔
Azure PowerShell			✔
AzCopy	✔		✔
Příkaz Hadoop	✔	✔	✔

Poznámka

Příkaz Hadoop je k dispozici pouze v clusteru HDInsight. Příkaz umožňuje pouze načítání dat z místního systému souborů do služby Azure Storage.

Příkazový řádek Hadoop

Příkazový řádek Hadoop je užitečný jenom k ukládání dat do objektu blob úložiště Azure, pokud se data už nacházejí na hlavním uzlu clusteru.

Pokud chcete použít příkaz Hadoop, musíte se nejprve připojit k hlavnímu uzlu pomocí SSH nebo PuTTY.

Po připojení můžete k nahrání souboru do úložiště použít následující syntaxi.

hadoop fs -copyFromLocal <localFilePath> <storageFilePath>

Například hadoop fs -copyFromLocal data.txt /example/data/data.txt.

Vzhledem k tomu, že výchozí systém souborů pro HDInsight je ve službě Azure Storage, /example/data/data.txt je ve skutečnosti ve službě Azure Storage. Na soubor můžete také odkazovat takto:

wasbs:///example/data/data.txt

nebo

wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt

Seznam dalších příkazů Systému Hadoop, které pracují se soubory, najdete v tématu https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html

Upozornění

V clusterech Apache HBase je výchozí velikost bloku použitá při zápisu dat 256 kB. I když to funguje správně při použití rozhraní HBase API nebo rozhraní REST API, použití hadoop příkazů nebo hdfs dfs k zápisu dat větších než ~12 GB vede k chybě. Další informace najdete v tématu Výjimka úložiště pro zápis do objektu blob.

Grafickí klienti

Existuje také několik aplikací, které poskytují grafické rozhraní pro práci se službou Azure Storage. V následující tabulce je seznam několika z těchto aplikací:

Klient	Linux	OS X	Windows
Microsoft Visual Studio Tools pro HDInsight	✔	✔	✔
Azure Storage Explorer	✔	✔	✔
`Cerulea`			✔
CloudXplorer			✔
CloudBerry Explorer pro Microsoft Azure			✔
Cyberduck		✔	✔

Připojení Azure Storage jako místní jednotky

Viz Připojení Azure Storage jako místní jednotky.

Nahrávání pomocí služeb

Azure Data Factory

Služba Azure Data Factory je plně spravovaná služba pro vytváření dat: služby ukládání, zpracování a přesouvání do zjednodušených, přizpůsobitelných a spolehlivých kanálů pro produkci dat.

Typ úložiště	Dokumentace
Azure Blob Storage	Kopírování dat do nebo z úložiště Azure Blob Storage pomocí služby Azure Data Factory
Azure Data Lake Storage Gen1	Kopírování dat do nebo z Azure Data Lake Storage Gen1 pomocí Azure Data Factory
Azure Data Lake Storage Gen2	Načtení dat do Azure Data Lake Storage Gen2 pomocí Azure Data Factory

Apache Sqoop

Sqoop je nástroj určený k přenosu dat mezi Hadoopem a relačními databázemi. Slouží k importu dat ze systému pro správu relačních databází (RDBMS), jako jsou SQL Server, MySQL nebo Oracle. Pak přejděte do systému souborů HDFS (Hadoop Distributed File System). Transformujte data v Hadoopu pomocí MapReduce nebo Hive a pak je exportujte zpět do systému RDBMS.

Další informace najdete v tématu Použití Sqoopu se službou HDInsight.

Sady SDK pro vývoj

Ke službě Azure Storage je možné přistupovat také pomocí sady Azure SDK z následujících programovacích jazyků:

.NET
Java
Node.js
PHP
Python
Ruby

Další informace o instalaci sad Azure SDK najdete v tématu Soubory ke stažení pro Azure.

Další kroky

Teď, když rozumíte tomu, jak načíst data do služby HDInsight, přečtěte si následující články a seznamte se s analýzou: