Azure portal kullanarak Azure Data Lake Storage 1. Nesil ile HDInsight kümeleri oluşturma
varsayılan depolama alanı veya ek depolama alanı olarak Azure Data Lake Storage 1. Nesil ile hdInsight kümesi oluşturmak için Azure portal kullanmayı öğrenin. HdInsight kümesi için ek depolama isteğe bağlı olsa da, iş verilerinizi ek depolama hesaplarında depolamanız önerilir.
Önkoşullar
Başlamadan önce aşağıdaki gereksinimleri karşıladığınızdan emin olun:
- Bir Azure aboneliği. Azure ücretsiz deneme sürümünü edinin bölümüne gidin.
- Azure Data Lake Storage 1. Nesil hesabı. Azure portal kullanarak Azure Data Lake Storage 1. Nesil'i kullanmaya başlama başlığındaki yönergeleri izleyin. Hesapta bir kök klasör de oluşturmanız gerekir. Bu makalede , /clusters adlı bir kök klasör kullanılır.
- Microsoft Entra hizmet sorumlusu. Bu nasıl yapılır kılavuzu, Microsoft Entra ID'de hizmet sorumlusu oluşturma yönergelerini sağlar. Ancak, hizmet sorumlusu oluşturmak için Microsoft Entra yöneticisi olmanız gerekir. Yöneticiyseniz bu önkoşulu atlayabilir ve devam edebilirsiniz.
Not
Hizmet sorumlusunu yalnızca Microsoft Entra yöneticisiyseniz oluşturabilirsiniz. Data Lake Storage 1. Nesil ile HDInsight kümesi oluşturabilmeniz için önce Microsoft Entra yöneticinizin bir hizmet sorumlusu oluşturması gerekir. Ayrıca, hizmet sorumlusu, Sertifika ile hizmet sorumlusu oluşturma bölümünde açıklandığı gibi bir sertifikayla oluşturulmalıdır.
HDInsight kümesi oluşturma
Bu bölümde, varsayılan veya ek depolama alanı olarak Data Lake Storage 1. Nesil olan bir HDInsight kümesi oluşturursunuz. Bu makale yalnızca Data Lake Storage 1. Nesil yapılandırma bölümüne odaklanır. Genel küme oluşturma bilgileri ve yordamları için bkz. HDInsight'ta Hadoop kümeleri oluşturma.
Varsayılan depolama alanı olarak Data Lake Storage 1. Nesil ile küme oluşturma
Varsayılan depolama hesabı olarak Data Lake Storage 1. Nesil bir HDInsight kümesi oluşturmak için:
Azure Portal’ında oturum açın.
HDInsight kümeleri oluşturma hakkında genel bilgi için Küme oluşturma'yı izleyin.
Depolama dikey penceresindeki Birincil depolama türü'nin altında 1. Nesil'Azure Data Lake Storage seçin ve aşağıdaki bilgileri girin:
- Data Lake Store hesabı: Mevcut bir Data Lake Storage 1. Nesil hesabı seçin. Mevcut bir Data Lake Storage 1. Nesil hesabı gereklidir. Ön koşullara bakın.
- Kök yol: Kümeye özgü dosyaların depolandığı bir yol girin. Ekran görüntüsünde , /clusters/myhdiadlcluster/ şeklindedir ve içinde /clusters klasörünün bulunması gerekir ve Portal myhdicluster klasörünü oluşturur. myhdicluster, küme adıdır.
- Data Lake Store erişimi: Data Lake Storage 1. Nesil hesabı ile HDInsight kümesi arasında erişimi yapılandırın. Yönergeler için bkz. Data Lake Storage 1. Nesil erişimi yapılandırma.
- Ek depolama hesapları: Azure depolama hesaplarını küme için ek depolama hesapları olarak ekleyin. Ek Data Lake Storage 1. Nesil hesapları eklemek için, birincil depolama türü olarak bir Data Lake Storage 1. Nesil hesabı yapılandırılırken daha fazla Data Lake Storage 1. Nesil hesaptaki veriler üzerinde küme izinleri verilerek yapılır. Bkz. Data Lake Storage 1. Nesil erişimi yapılandırma.
Data Lake Store erişimindeSeç'e tıklayın ve HDInsight'ta Hadoop kümeleri oluşturma bölümünde açıklandığı gibi küme oluşturmaya devam edin.
Ek depolama alanı olarak Data Lake Storage 1. Nesil ile küme oluşturma
Aşağıdaki yönergeler, varsayılan depolama alanı olarak Azure Blob depolama hesabı ve ek depolama alanı olarak Data Lake Storage 1. Nesil olan bir depolama hesabı içeren bir HDInsight kümesi oluşturur.
Ek depolama hesabı olarak Data Lake Storage 1. Nesil bir HDInsight kümesi oluşturmak için:
Azure Portal’ında oturum açın.
HDInsight kümeleri oluşturma hakkında genel bilgi için Küme oluşturma'yı izleyin.
Depolama dikey penceresindeki Birincil depolama türü'nin altında Azure Depolama'yı seçin ve aşağıdaki bilgileri girin:
Seçim yöntemi - Azure aboneliğinizin bir parçası olan bir depolama hesabı belirtmek için Aboneliklerim'i ve ardından depolama hesabını seçin. Azure aboneliğinizin dışında bir depolama hesabı belirtmek için Erişim anahtarı'nı seçin ve dış depolama hesabının bilgilerini sağlayın.
Varsayılan kapsayıcı - Varsayılan değeri kullanın veya kendi adınızı belirtin.
Ek depolama hesapları - Ek depolama alanı olarak daha fazla Azure depolama hesabı ekleyin.
Data Lake Store erişimi - Data Lake Storage 1. Nesil hesabı ile HDInsight kümesi arasında erişimi yapılandırın. Yönergeler için bkz. Data Lake Storage 1. Nesil erişimini yapılandırma.
Data Lake Storage 1. Nesil erişimi yapılandırma
Bu bölümde, Microsoft Entra hizmet sorumlusu kullanarak HDInsight kümelerinden Data Lake Storage 1. Nesil erişimi yapılandıracaksınız.
Hizmet sorumlusu belirtme
Azure portal mevcut bir hizmet sorumlusunu kullanabilir veya yeni bir hizmet sorumlusu oluşturabilirsiniz.
Azure portal bir hizmet sorumlusu oluşturmak için:
- Bkz. Microsoft Entra ID kullanarak Hizmet Sorumlusu ve Sertifika oluşturma.
Azure portal mevcut hizmet sorumlusunu kullanmak için:
Hizmet Sorumlusunun Depolama hesabında sahip izinleri olmalıdır. Bkz. Depolama hesabında Hizmet Sorumlusunun sahip olması için izinleri ayarlama.
Data Lake Store erişimi'ni seçin.
Data Lake Storage 1. Nesil erişim dikey penceresinde Var olanı kullan'ı seçin.
Hizmet sorumlusu'mu seçin ve ardından bir hizmet sorumlusu seçin.
Seçtiğiniz hizmet sorumlusuyla ilişkili sertifikayı (.pfx dosyası) karşıya yükleyin ve sertifika parolasını girin.
Klasör erişimini yapılandırmak için Erişim'i seçin. Bkz . Dosya izinlerini yapılandırma.
Depolama hesabında Hizmet Sorumlusunun sahip olması için izinleri ayarlama
- Depolama hesabının Access Control(IAM) dikey penceresinde Rol ataması ekle'ye tıklayın.
- Rol ataması ekle dikey penceresinde Rol'i 'sahip' olarak seçin ve SPN'yi seçip kaydet'e tıklayın.
Dosya izinlerini yapılandırma
Yapılandırma, hesabın varsayılan depolama alanı olarak mı yoksa ek depolama hesabı olarak mı kullanıldığına bağlı olarak farklıdır:
Varsayılan depolama alanı olarak kullanılır
- Data Lake Storage 1. Nesil hesabının kök düzeyinde izin
- hdInsight küme depolamanın kök düzeyinde izin. Örneğin, öğreticinin önceki bölümlerinde kullanılan /clusters klasörü.
Ek depolama alanı olarak kullanma
- Dosya erişimine ihtiyacınız olan klasörlerdeki izin.
Depolama hesabında kök düzeyinde Data Lake Storage 1. Nesil izin atamak için:
Data Lake Storage 1. Nesil erişim dikey penceresinde Erişim'i seçin. Dosya izinlerini seçin dikey penceresi açılır. Aboneliğinizdeki tüm depolama hesaplarını listeler.
Onay kutusunu görünür hale getirmek için fareyi Data Lake Storage 1. Nesil hesabın adının üzerine getirin (tıklamayın) ve ardından onay kutusunu seçin.
Varsayılan olarak , READ, WRITE ve EXECUTE seçilidir.
Sayfanın alt kısmındaki Seç'e tıklayın.
İzin atamak için Çalıştır'ı seçin.
Bitti seçeneğini belirleyin.
HDInsight kümesi kök düzeyinde izin atamak için:
- Data Lake Storage 1. Nesil erişim dikey penceresinde Erişim'i seçin. Dosya izinlerini seçin dikey penceresi açılır. Aboneliğinizde Data Lake Storage 1. Nesil olan tüm depolama hesaplarını listeler.
- Dosya izinlerini seçin dikey penceresinde, içeriğini göstermek için Data Lake Storage 1. Nesil adlı depolama hesabını seçin.
- Klasörün sol tarafındaki onay kutusunu seçerek HDInsight kümesi depolama kökünü seçin. Önceki ekran görüntüsüne göre, küme depolama kökü varsayılan depolama olarak Data Lake Storage 1. Nesil seçerken belirttiğiniz /clusters klasörüdür.
- Klasördeki izinleri ayarlayın. Varsayılan olarak, okuma, yazma ve yürütme işlemleri seçilidir.
- Sayfanın alt kısmındaki Seç'e tıklayın.
- Çalıştır'ı seçin.
- Bitti seçeneğini belirleyin.
ek depolama alanı olarak Data Lake Storage 1. Nesil kullanıyorsanız, yalnızca HDInsight kümesinden erişmek istediğiniz klasörler için izin atamanız gerekir. Örneğin, aşağıdaki ekran görüntüsünde, yalnızca Data Lake Storage 1. Nesil içeren bir depolama hesabındaki mynewfolder klasörüne erişim sağlarsınız.
Küme kurulumunu doğrulama
Küme kurulumu tamamlandıktan sonra, küme dikey penceresinde aşağıdaki adımlardan birini veya ikisini birden yaparak sonuçlarınızı doğrulayın:
Kümeyle ilişkili depolama alanının belirttiğiniz Data Lake Storage 1. Nesil olan hesap olduğunu doğrulamak için sol bölmede Depolama hesapları'nı seçin.
Hizmet sorumlusunun HDInsight kümesiyle doğru şekilde ilişkilendirildiğini doğrulamak için sol bölmeden Data Lake Storage 1. Nesil erişim'i seçin.
Örnekler
Depolama alanınız olarak kümeyi Data Lake Storage 1. Nesil ile ayarladıktan sonra, hdInsight kümesini kullanarak Data Lake Storage 1. Nesil depolanan verileri analiz etme örneklerine bakın.
Data Lake Storage 1. Nesil (birincil depolama alanı olarak) içindeki verilere karşı Hive sorgusu çalıştırma
Hive sorgusu çalıştırmak için Ambari portalındaki Hive görünümleri arabirimini kullanın. Ambari Hive görünümlerini kullanma yönergeleri için bkz. HDInsight'ta Hadoop ile Hive Görünümünü Kullanma.
Bir Data Lake Storage 1. Nesil verilerle çalışırken, değiştirecek birkaç dize vardır.
Örneğin, birincil depolama alanı olarak Data Lake Storage 1. Nesil ile oluşturduğunuz kümeyi kullanıyorsanız, verilerin yolu şudur: adl://< data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. Data Lake Storage 1. Nesil depolanan örnek verilerden tablo oluşturmak için bir Hive sorgusu aşağıdaki deyime benzer:
CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'
Açıklama:
adl://hdiadlsg1storage.azuredatalakestore.net/
Data Lake Storage 1. Nesil olan hesabın köküdür./clusters/myhdiadlcluster
, kümeyi oluştururken belirttiğiniz küme verilerinin köküdür./HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/
, sorguda kullandığınız örnek dosyanın konumudur.
bir Data Lake Storage 1. Nesil içindeki verilere karşı Hive sorgusu çalıştırma (ek depolama alanı olarak)
Oluşturduğunuz küme varsayılan depolama alanı olarak Blob depolama kullanıyorsa örnek veriler ek depolama alanı olarak kullanılan Data Lake Storage 1. Nesil depolama hesabında yer almaz. Böyle bir durumda, önce blob depolamadan Data Lake Storage 1. Nesil içeren depolama hesabına veri aktarın ve ardından önceki örnekte gösterildiği gibi sorguları çalıştırın.
Blob depolamadan Data Lake Storage 1. Nesil içeren bir depolama hesabına veri kopyalama hakkında bilgi için aşağıdaki makalelere bakın:
- Azure Blob depolama ile Data Lake Storage 1. Nesil arasında veri kopyalamak için Distcp kullanma
- Azure Blob depolamadan Data Lake Storage 1. Nesil veri kopyalamak için AdlCopy kullanma
Spark kümesiyle Data Lake Storage 1. Nesil kullanma
Spark işlerini bir Data Lake Storage 1. Nesil depolanan veriler üzerinde çalıştırmak için Spark kümesi kullanabilirsiniz. Daha fazla bilgi için bkz. Data Lake Storage 1. Nesil'da verileri çözümlemek için HDInsight Spark kümesini kullanma.