Azure HDInsight kümeleriyle Azure Data Lake Storage 2. Nesil hizmetini kullanma

Azure Data Lake Storage 2. Nesil, Azure Blob depolama üzerinde oluşturulan büyük veri analizine ayrılmış bir bulut depolama hizmetidir. Data Lake Storage 2. Nesil, Azure Blob depolama ve Azure Data Lake Storage 1. Nesil özelliklerini birleştirir. Sonuçta elde edilen hizmet, Azure Data Lake Storage 1. Nesil dosya sistemi semantiği, dizin düzeyi ve dosya düzeyinde güvenlik ve uyarlanabilirlik gibi özellikler sunar. Azure Blob depolamadan düşük maliyetli, katmanlı depolama, yüksek kullanılabilirlik ve olağanüstü durum kurtarma özellikleriyle birlikte.

Data Lake Storage 2. Nesil kullanarak küme oluşturma seçeneklerinin tam karşılaştırması için bkz. Azure HDInsight kümeleriyle kullanılacak depolama seçeneklerini karşılaştırma.

Uyarı

HDInsight kümeleri için faturalama, kullansanız da kullanmasanız da dakikada bir eşit olarak dağıtılır. Kullanmayı bitirdikten sonra kümenizi sildiğinizden emin olun. Bkz . HDInsight kümesini silme.

Data Lake Storage 2. Nesil kullanılabilirliği

Data Lake Storage 2. Nesil, neredeyse tüm Azure HDInsight küme türleri için hem varsayılan hem de ek depolama hesabı olarak bir depolama seçeneği olarak kullanılabilir. Ancak HBase,Data Lake Storage 2. Nesil ile yalnızca bir hesaba sahip olabilir.

Dekont

Birincil depolama türünüz olarak Data Lake Storage 2. Nesil seçtikten sonra ek depolama alanı olarak bir Data Lake Storage 1. Nesil seçemezsiniz.

Data Lake Storage 2. Nesil kullanarak HDInsight kümeleri oluşturma

Data Lake Storage 2. Nesil erişimi olan HDInsight kümeleri oluşturma hakkında ayrıntılı yönergeler için aşağıdaki bağlantıları kullanın.

HDInsight'ta Data Lake Storage 2. Nesil için erişim denetimi

Data Lake Storage 2. Nesil ne tür izinleri destekler?

Data Lake Storage 2. Nesil hem Azure rol tabanlı erişim denetimini (Azure RBAC) hem de POSIX benzeri erişim denetim listelerini (ACL) destekleyen bir erişim denetimi modeli kullanır. Data Lake Storage 1. Nesil yalnızca verilere erişimi denetlemek için erişim denetim listelerini destekler.

Azure RBAC, Azure kaynakları için kullanıcılara, gruplara ve hizmet sorumlularına etkin bir şekilde izin kümeleri uygulamak için rol atamalarını kullanır. Bu Azure kaynakları genellikle en üst düzey kaynaklarla (örneğin, Azure Blob depolama hesapları) kısıtlanır. Azure Blob depolama ve Data Lake Storage 2. Nesil için bu mekanizma dosya sistemi kaynağına genişletildi.

Azure RBAC ile dosya izinleri hakkında daha fazla bilgi için bkz . Azure rol tabanlı erişim denetimi (Azure RBAC).

ACL'lerle dosya izinleri hakkında daha fazla bilgi için bkz . Dosyalar ve dizinler üzerindeki erişim denetim listeleri.

Data Lake Storage 2. Nesil'da verilerime erişimi Nasıl yaparım? denetleyebilirsiniz?

HDInsight kümenizin Data Lake Storage 2. Nesil içindeki dosyalara erişimi, yönetilen kimlikler aracılığıyla denetlenir. Yönetilen kimlik, Kimlik bilgileri Azure tarafından yönetilen Microsoft Entra'da kayıtlı bir kimliktir. Yönetilen kimliklerle hizmet sorumlularını Microsoft Entra Id'ye kaydetmeniz gerekmez. Veya sertifikalar gibi kimlik bilgilerini koruyun.

Azure hizmetlerinin iki tür yönetilen kimliği vardır: sistem tarafından atanan ve kullanıcı tarafından atanan. HDInsight, Data Lake Storage 2. Nesil dosyalarına erişmek için kullanıcı tarafından atanan yönetilen kimlikleri kullanır. user-assigned managed identity tek başına bir Azure kaynağı olarak oluşturulur. Oluşturma işlemi aracılığıyla Azure, Microsoft Entra kiracısında kullanımda olan abonelik tarafından güvenilen bir kimlik oluşturur. Kimlik oluşturulduktan sonra, bir veya birden çok Azure hizmet örneğine atanabilir.

Kullanıcı tarafından atanan kimliğin yaşam döngüsü, bu kimliğin atandığı Azure hizmet örneklerinin yaşam döngüsünden ayrı olarak yönetilir. Yönetilen kimlikler hakkında daha fazla bilgi için bkz . Azure kaynakları için yönetilen kimlikler nelerdir?.

Nasıl yaparım?, Microsoft Entra kullanıcılarının Hive veya diğer hizmetleri kullanarak Data Lake Storage 2. Nesil'daki verileri sorgulamasına yönelik izinleri ayarladı mı?

Kullanıcıların verileri sorgulama izinlerini ayarlamak için ACL'lerde atanan sorumlu olarak Microsoft Entra güvenlik gruplarını kullanın. Tek tek kullanıcılara veya hizmet sorumlularına doğrudan dosya erişim izinleri atamayın. İzin akışını denetlemek için Microsoft Entra güvenlik gruplarıyla, dizin yapısının tamamına ACL'leri yeniden uygulamadan kullanıcı veya hizmet sorumluları ekleyebilir ve kaldırabilirsiniz. Kullanıcıları yalnızca uygun Microsoft Entra güvenlik grubuna eklemeniz veya kaldırmanız gerekir. ACL'ler devralınmadığından, ACL'lerin yeniden uygulanabilmesi için ACL'nin her dosya ve alt dizinde güncelleştirilmesi gerekir.

Kümeden dosyalara erişme

HDInsight kümesinden Data Lake Storage 2. Nesil dosyalara erişmenin çeşitli yolları vardır.

  • Tam adı kullanarak. Bu yöntemle, erişmek istediğiniz dosyanın tam yolunu girersiniz.

    abfs://<containername>@<accountname>.dfs.core.windows.net/<file.path>/
    
  • Kısaltılmış yol biçimi kullanarak. Bu yaklaşımla, küme köküne kadar olan yolu şununla değiştirirsiniz:

    abfs:///<file.path>/
    
  • Göreli yolu kullanarak. Bu yöntemle, erişmek istediğiniz dosyanın yalnızca göreli yolunu girersiniz.

    /<file.path>/
    

Veri erişim örnekleri

Örnekler, kümenin baş düğümüne yönelik ssh bağlantısını temel alır. Örneklerde üç URI şeması da kullanılır. ve STORAGEACCOUNT değerlerini ilgili değerlerle değiştirin CONTAINERNAME

Birkaç hdfs komutu

  1. Yerel depolamada bir dosya oluşturun.

    touch testFile.txt
    
  2. Küme depolamada dizinler oluşturun.

    hdfs dfs -mkdir abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/
    hdfs dfs -mkdir abfs:///sampledata2/
    hdfs dfs -mkdir /sampledata3/
    
  3. Verileri yerel depolamadan küme depolama alanına kopyalayın.

    hdfs dfs -copyFromLocal testFile.txt  abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/
    hdfs dfs -copyFromLocal testFile.txt  abfs:///sampledata2/
    hdfs dfs -copyFromLocal testFile.txt  /sampledata3/
    
  4. Küme depolamadaki dizin içeriğini listeleyin.

    hdfs dfs -ls abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/
    hdfs dfs -ls abfs:///sampledata2/
    hdfs dfs -ls /sampledata3/
    

Hive tablosu oluşturma

Gösterim amacıyla üç dosya konumu gösterilir. Gerçek yürütme için girdilerden LOCATION yalnızca birini kullanın.

DROP TABLE myTable;
CREATE EXTERNAL TABLE myTable (
    t1 string,
    t2 string,
    t3 string,
    t4 string,
    t5 string,
    t6 string,
    t7 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
STORED AS TEXTFILE
LOCATION 'abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/example/data/';
LOCATION 'abfs:///example/data/';
LOCATION '/example/data/';

Sonraki adımlar