HDInsight'ta Apache Hadoop işleri için verileri karşıya yükleme
HDInsight, Azure Depolama ve Azure Data Lake Storage üzerinden hadoop dağıtılmış dosya sistemi (HDFS) sağlar. Bu depolama alanı 1. Nesil ve 2. Nesil'i içerir. Azure Depolama, Data Lake Storage 1. Nesil ve 2. Nesil, HDFS uzantıları olarak tasarlanmıştır. Hadoop ortamındaki bileşenlerin tam kümesinin doğrudan yönettiği veriler üzerinde çalışmasını sağlar. Azure Depolama, Data Lake Storage 1. Nesil ve 2. Nesil ayrı dosya sistemleridir. Sistemler, verilerin depolanması ve bu veriler üzerindeki hesaplamalar için iyileştirilmiştir. Azure Depolama kullanmanın avantajları hakkında bilgi için bkz. HDInsight ile Azure Depolama'yı kullanma. Ayrıca bkz. HDInsight ile Data Lake Storage 1. Nesilkullanma ve HDInsight ile Data Lake Storage 2. Nesil kullanma.
Önkoşullar
Başlamadan önce aşağıdaki gereksinimleri not edin:
- Bir Azure HDInsight kümesi. Yönergeler için bkz. Azure HDInsight'ı kullanmaya başlama.
- Aşağıdaki makaleler hakkında bilgi:
Verileri Azure Depolama'ya yükleme
Yardımcı Programlar
Microsoft, Azure Depolama ile çalışmak için aşağıdaki yardımcı programları sağlar:
Araç | Linux | OS X | Windows |
---|---|---|---|
Azure portalı | ✔ | ✔ | ✔ |
Azure CLI | ✔ | ✔ | ✔ |
Azure PowerShell | ✔ | ||
AzCopy | ✔ | ✔ | |
Hadoop komutu | ✔ | ✔ | ✔ |
Not
Hadoop komutu yalnızca HDInsight kümesinde kullanılabilir. komutu yalnızca yerel dosya sisteminden Azure Depolama'ya veri yüklenmesine izin verir.
Hadoop komut satırı
Hadoop komut satırı yalnızca veriler küme baş düğümünde zaten mevcut olduğunda Verileri Azure depolama blobuna depolamak için kullanışlıdır.
Hadoop komutunu kullanmak için önce SSH veya PuTTY kullanarak baş düğüme bağlanmanız gerekir.
Bağlandıktan sonra, bir dosyayı depolama alanına yüklemek için aşağıdaki söz dizimini kullanabilirsiniz.
hadoop fs -copyFromLocal <localFilePath> <storageFilePath>
Örneğin, hadoop fs -copyFromLocal data.txt /example/data/data.txt
HDInsight için varsayılan dosya sistemi Azure Depolama'da olduğundan, /example/data/data.txt aslında Azure Depolama'dadır. Dosyaya şu şekilde de başvurabilirsiniz:
wasbs:///example/data/data.txt
veya
wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt
Dosyalarla çalışan diğer Hadoop komutlarının listesi için bkz. https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html
Uyarı
Apache HBase kümelerinde, veri yazarken kullanılan varsayılan blok boyutu 256 KB'tır. HBase API'leri veya REST API'leri kullanılırken bu düzgün çalışsa da, yaklaşık 12 GB'tan büyük verileri yazmak için veya hdfs dfs
komutlarının kullanılması hadoop
hatayla sonuçlanır. Daha fazla bilgi için bkz. Bloba yazma için depolama özel durumu.
Grafik istemciler
Azure Depolama ile çalışmak için grafik arabirim sağlayan birkaç uygulama da vardır. Aşağıdaki tabloda, bu uygulamalardan birkaçının listesi yer alır:
İstemci | Linux | OS X | Windows |
---|---|---|---|
HDInsight için Microsoft Visual Studio Araçları | ✔ | ✔ | ✔ |
Azure Depolama Gezgini | ✔ | ✔ | ✔ |
Cerulea |
✔ | ||
CloudXplorer | ✔ | ||
Microsoft Azure için CloudBerry Gezgini | ✔ | ||
Cyberduck | ✔ | ✔ |
Azure Depolama'yı Yerel Sürücü Olarak Bağlama
Bkz . Azure Depolama'yı Yerel Sürücü olarak bağlama.
Hizmetleri kullanarak karşıya yükleme
Azure Data Factory
Azure Data Factory hizmeti veri oluşturmak için tam olarak yönetilen bir hizmettir: depolama, işleme ve taşıma hizmetlerini kolaylaştırılmış, uyarlanabilir ve güvenilir veri üretim işlem hatlarına taşıma.
Depolama türü | Belgeler |
---|---|
Azure Blob depolama | Azure Data Factory kullanarak Azure Blob depolama alanına veya oradan veri kopyalama |
Azure Data Lake Storage Gen1 | Azure Data Factory kullanarak Azure Data Lake Storage. Nesil'e veya 1. Nesil'den veri kopyalama |
Azure Data Lake Storage Gen2 | Azure Data Factory ile verileri Azure Data Lake Storage 2. Nesil yükleme |
Apache Sqoop
Sqoop, Hadoop ile ilişkisel veritabanları arasında veri aktarmak için tasarlanmış bir araçtır. SQL Server, MySQL veya Oracle gibi bir ilişkisel veritabanı yönetim sisteminden (RDBMS) verileri içeri aktarmak için bu verileri kullanın. Ardından Hadoop dağıtılmış dosya sistemine (HDFS) gidin. Hadoop'taki verileri MapReduce veya Hive ile dönüştürün ve sonra verileri bir RDBMS'ye geri aktarın.
Daha fazla bilgi için bkz. HDInsight ile Sqoop kullanma.
Geliştirme SDK'ları
Azure Depolama'ya aşağıdaki programlama dillerinden bir Azure SDK'sı kullanılarak da erişilebilir:
- .NET
- Java
- Node.js
- PHP
- Python
- Ruby
Azure SDK'larını yükleme hakkında daha fazla bilgi için bkz. Azure indirmeleri
Sonraki adımlar
HDInsight'a veri almayı anladığınıza göre, analizi öğrenmek için aşağıdaki makaleleri okuyun: