Použití služby Azure Data Lake Storage Gen2 s clustery Azure HDInsight

Azure Data Lake Storage Gen2 je cloudová služba úložiště vyhrazená pro analýzy velkých objemů dat, která je založená na službě Azure Blob storage. Data Lake Storage Gen2 kombinuje možnosti služby Azure Blob Storage a Azure Data Lake Storage Gen1. výsledná služba nabízí funkce z Azure Data Lake Storage Gen1 včetně: sémantika systému souborů, zabezpečení na úrovni adresáře a souborů a přizpůsobivost. Společně s nízkými náklady, vrstvené úložiště, vysokou dostupností a možnostmi zotavení po havárii ze služby Azure Blob Storage.

úplné porovnání možností vytváření clusteru pomocí Data Lake Storage Gen2 najdete v tématu porovnání možností úložiště pro použití s clustery Azure HDInsight.

Upozornění

Fakturace za clustery HDInsight se účtuje poměrnou rychlostí za minutu, ať už je používáte, nebo ne. Po dokončení používání clusteru nezapomeňte tento cluster odstranit. Viz Jak odstranit cluster HDInsight.

dostupnost Data Lake Storage Gen2

Data Lake Storage Gen2 je k dispozici jako možnost úložiště pro téměř všechny typy clusterů Azure HDInsight jako výchozí i pro další účet úložiště. hba ale můžou mít jenom jeden účet s Data Lake Storage Gen2.

Poznámka

po výběru Data Lake Storage Gen2 jako primárního typu úložiště nemůžete vybrat Data Lake Storage Gen1 jako další úložiště.

vytváření clusterů HDInsight pomocí Data Lake Storage Gen2

pomocí následujících odkazů najdete podrobné pokyny k vytvoření clusterů HDInsight s přístupem k Data Lake Storage Gen2.

řízení přístupu pro Data Lake Storage Gen2 ve službě HDInsight

jaké druhy oprávnění podporuje Data Lake Storage Gen2 podporu?

Data Lake Storage Gen2 používá model řízení přístupu, který podporuje řízení přístupu na základě role azure (azure RBAC) i seznamy řízení přístupu (acl) typu POSIX. Data Lake Storage Gen1 podporuje seznamy řízení přístupu pouze pro řízení přístupu k datům.

Azure RBAC pomocí přiřazení rolí efektivně aplikuje sady oprávnění pro uživatele, skupiny a instanční objekty pro prostředky Azure. Tyto prostředky Azure jsou obvykle omezené na prostředky nejvyšší úrovně (například účty Azure Blob Storage). v případě služby Azure Blob storage a také Data Lake Storage Gen2 tento mechanismus byl rozšířen na prostředek systému souborů.

Další informace o oprávněních k souborům v Azure RBAC najdete v tématu řízení přístupu na základě role v Azure (Azure RBAC).

Další informace o oprávněních k souborům pomocí seznamů řízení přístupu najdete v tématu seznam řízení přístupu pro soubory a adresáře.

Návody řízení přístupu k datům v Data Lake Storage Gen2?

schopnost clusteru HDInsight přistupovat k souborům v Data Lake Storage Gen2 je řízena prostřednictvím spravovaných identit. spravovaná identita je identita registrovaná v Azure Active Directory (Azure AD), jejíž přihlašovací údaje jsou spravované v Azure. U spravovaných identit nemusíte registrovat instanční objekty ve službě Azure AD. Nebo Udržujte přihlašovací údaje, jako jsou certifikáty.

Služby Azure mají dva typy spravovaných identit: přiřazeno systémem a přiřazeno uživateli. HDInsight používá pro přístup k Data Lake Storage Gen2 spravované identity přiřazené uživatelem. A vytvoří user-assigned managed identity se jako samostatný prostředek Azure. Prostřednictvím procesu vytvoření Azure vytvoří identitu v tenantovi Azure AD důvěryhodném pro použité předplatné. Po vytvoření identity je možné ji přiřadit k jedné nebo několika instancím služeb Azure.

Životní cyklus identity přiřazené uživatelem se spravuje nezávisle na životním cyklu instancí služeb Azure, ke kterým je přiřazená. Další informace o spravovaných identitách najdete v tématu co jsou spravované identity pro prostředky Azure?.

Návody nastavení oprávnění pro uživatele Azure AD k dotazování na data v Data Lake Storage Gen2 pomocí podregistru nebo jiných služeb?

Pokud chcete nastavit oprávnění pro uživatele k dotazování na data, použijte skupiny zabezpečení Azure AD jako přiřazený objekt zabezpečení v seznamech ACL. Nepřiřazujte přímo jednotlivým uživatelům nebo instančním objektům oprávnění k přístupu k souborům. Pomocí skupin zabezpečení služby Azure AD pro řízení toku oprávnění můžete přidávat a odebírat uživatele nebo instanční objekty bez nutnosti znovu použít seznamy ACL pro celou adresářovou strukturu. Stačí přidat nebo odebrat uživatele z příslušné skupiny zabezpečení Azure AD. Seznamy ACL nejsou zděděné, takže při opakovaném použití seznamů ACL je potřeba aktualizovat seznam ACL u všech souborů a podadresářů.

Přístup k souborům z clusteru

existuje několik způsobů, jak můžete přistupovat k souborům v Data Lake Storage Gen2 z clusteru HDInsight.

  • Pomocí plně kvalifikovaného názvu. S tímto přístupem zadáváte úplnou cestu k souboru, ke kterému chcete získat přístup.

    abfs://<containername>@<accountname>.dfs.core.windows.net/<file.path>/
    
  • Pomocí zkráceného formátu cesty. Pomocí tohoto přístupu nahradíte cestu až ke kořenu clusteru:

    abfs:///<file.path>/
    
  • Pomocí relativní cesty. S tímto přístupem zadáváte pouze relativní cestu k souboru, ke kterému chcete získat přístup.

    /<file.path>/
    

Příklady přístupu k datům

Příklady jsou založené na připojení SSH k hlavnímu uzlu clusteru. V příkladech se používají všechna tři schémata identifikátoru URI. Nahradit CONTAINERNAME a STORAGEACCOUNT za relevantní hodnoty

Několik příkazů HDFS

  1. Vytvoří soubor v místním úložišti.

    touch testFile.txt
    
  2. Vytvořte adresáře v úložišti clusteru.

    hdfs dfs -mkdir abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/
    hdfs dfs -mkdir abfs:///sampledata2/
    hdfs dfs -mkdir /sampledata3/
    
  3. Kopírovat data z místního úložiště do úložiště clusteru.

    hdfs dfs -copyFromLocal testFile.txt  abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/
    hdfs dfs -copyFromLocal testFile.txt  abfs:///sampledata2/
    hdfs dfs -copyFromLocal testFile.txt  /sampledata3/
    
  4. Vypíše obsah adresáře v úložišti clusteru.

    hdfs dfs -ls abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/
    hdfs dfs -ls abfs:///sampledata2/
    hdfs dfs -ls /sampledata3/
    

Vytvoření tabulky podregistru

Pro ilustrativní účely se zobrazí tři umístění souborů. Pro skutečné provedení použijte jenom jednu z LOCATION položek.

DROP TABLE myTable;
CREATE EXTERNAL TABLE myTable (
    t1 string,
    t2 string,
    t3 string,
    t4 string,
    t5 string,
    t6 string,
    t7 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
STORED AS TEXTFILE
LOCATION 'abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/example/data/';
LOCATION 'abfs:///example/data/';
LOCATION '/example/data/';

Další kroky