Nahrání dat pro úlohy Apache Hadoopu ve službě HDInsight
HDInsight poskytuje systém souborů HDFS (Hadoop Distributed File System) přes Azure Storage a Azure Data Lake Storage. Toto úložiště zahrnuje Gen1 a Gen2. Azure Storage a Data Lake Storage Gen1 a Gen2 jsou navržené jako rozšíření HDFS. Umožňují, aby úplná sada komponent v prostředí Hadoop fungovala přímo s daty, která spravuje. Azure Storage, Data Lake Storage Gen1 a Gen2 jsou odlišné systémy souborů. Systémy jsou optimalizované pro ukládání dat a výpočty s daty. Informace o výhodách používání služby Azure Storage najdete v tématu Použití služby Azure Storage se službou HDInsight. Viz také Použití Data Lake Storage Gen1 se službou HDInsight a Použití Data Lake Storage Gen2 se službou HDInsight.
Požadavky
Než začnete, poznamenejte si následující požadavky:
- Cluster Azure HDInsight. Pokyny najdete v tématu Začínáme se službou Azure HDInsight.
- Znalost následujících článků:
Nahrání dat do Azure Storage
Nástroje
Microsoft poskytuje následující nástroje pro práci se službou Azure Storage:
Nástroj | Linux | OS X | Windows |
---|---|---|---|
Azure Portal | ✔ | ✔ | ✔ |
Azure CLI | ✔ | ✔ | ✔ |
Azure PowerShell | ✔ | ||
AzCopy | ✔ | ✔ | |
Příkaz Hadoop | ✔ | ✔ | ✔ |
Poznámka
Příkaz Hadoop je k dispozici pouze v clusteru HDInsight. Příkaz umožňuje pouze načítání dat z místního systému souborů do služby Azure Storage.
Příkazový řádek Hadoop
Příkazový řádek Hadoop je užitečný jenom k ukládání dat do objektu blob úložiště Azure, pokud se data už nacházejí na hlavním uzlu clusteru.
Pokud chcete použít příkaz Hadoop, musíte se nejprve připojit k hlavnímu uzlu pomocí SSH nebo PuTTY.
Po připojení můžete k nahrání souboru do úložiště použít následující syntaxi.
hadoop fs -copyFromLocal <localFilePath> <storageFilePath>
Například hadoop fs -copyFromLocal data.txt /example/data/data.txt
.
Vzhledem k tomu, že výchozí systém souborů pro HDInsight je ve službě Azure Storage, /example/data/data.txt je ve skutečnosti ve službě Azure Storage. Na soubor můžete také odkazovat takto:
wasbs:///example/data/data.txt
nebo
wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt
Seznam dalších příkazů Systému Hadoop, které pracují se soubory, najdete v tématu https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html
Upozornění
V clusterech Apache HBase je výchozí velikost bloku použitá při zápisu dat 256 kB. I když to funguje správně při použití rozhraní HBase API nebo rozhraní REST API, použití hadoop
příkazů nebo hdfs dfs
k zápisu dat větších než ~12 GB vede k chybě. Další informace najdete v tématu Výjimka úložiště pro zápis do objektu blob.
Grafickí klienti
Existuje také několik aplikací, které poskytují grafické rozhraní pro práci se službou Azure Storage. V následující tabulce je seznam několika z těchto aplikací:
Klient | Linux | OS X | Windows |
---|---|---|---|
Microsoft Visual Studio Tools pro HDInsight | ✔ | ✔ | ✔ |
Azure Storage Explorer | ✔ | ✔ | ✔ |
Cerulea |
✔ | ||
CloudXplorer | ✔ | ||
CloudBerry Explorer pro Microsoft Azure | ✔ | ||
Cyberduck | ✔ | ✔ |
Připojení Azure Storage jako místní jednotky
Viz Připojení Azure Storage jako místní jednotky.
Nahrávání pomocí služeb
Azure Data Factory
Služba Azure Data Factory je plně spravovaná služba pro vytváření dat: služby ukládání, zpracování a přesouvání do zjednodušených, přizpůsobitelných a spolehlivých kanálů pro produkci dat.
Typ úložiště | Dokumentace |
---|---|
Azure Blob Storage | Kopírování dat do nebo z úložiště Azure Blob Storage pomocí služby Azure Data Factory |
Azure Data Lake Storage Gen1 | Kopírování dat do nebo z Azure Data Lake Storage Gen1 pomocí Azure Data Factory |
Azure Data Lake Storage Gen2 | Načtení dat do Azure Data Lake Storage Gen2 pomocí Azure Data Factory |
Apache Sqoop
Sqoop je nástroj určený k přenosu dat mezi Hadoopem a relačními databázemi. Slouží k importu dat ze systému pro správu relačních databází (RDBMS), jako jsou SQL Server, MySQL nebo Oracle. Pak přejděte do systému souborů HDFS (Hadoop Distributed File System). Transformujte data v Hadoopu pomocí MapReduce nebo Hive a pak je exportujte zpět do systému RDBMS.
Další informace najdete v tématu Použití Sqoopu se službou HDInsight.
Sady SDK pro vývoj
Ke službě Azure Storage je možné přistupovat také pomocí sady Azure SDK z následujících programovacích jazyků:
- .NET
- Java
- Node.js
- PHP
- Python
- Ruby
Další informace o instalaci sad Azure SDK najdete v tématu Soubory ke stažení pro Azure.
Další kroky
Teď, když rozumíte tomu, jak načíst data do služby HDInsight, přečtěte si následující články a seznamte se s analýzou: