Porovnání možností úložiště pro použití s Azure HDInsight clustery

Při vytváření clusterů HDInsight si můžete vybrat mezi několika různými službami úložiště Azure:

Tento článek obsahuje přehled těchto typů úložiště a jejich jedinečných funkcí.

Storage typy a funkce

Následující tabulka shrnuje Azure Storage služby, které jsou podporované s různými verzemi služby HDInsight:

Storage service Typ účtu Typ oboru názvů Podporované služby Podporované úrovně výkonu Podporované úrovně přístupu Verze HDInsight Typ clusteru
Azure Data Lake Storage Gen2 Pro obecné účely V2 Hierarchický (systém souborů) Objekt blob Standard Horká, studená, archivní 3.6+ Všechny kromě Sparku 2.1 a 2.2
Azure Storage Pro obecné účely V2 Objekt Objekt blob Standard Horká, studená, archivní 3.6+ Vše
Azure Storage Pro obecné účely V1 Objekt Objekt blob Standard Vše Vše
Azure Storage Blob Storage** Objekt Objekt blob bloku Standard Horká, studená, archivní Vše Vše
Azure Data Lake Storage Gen1 Hierarchický (systém souborů) N/A N/A N/A 3.6 Pouze Všechny kromě HBase
Azure Storage Objekt blob bloku Objekt Objekt blob bloku Premium 3.6+ Jenom HBase se zrychleným zápisem
Azure Data Lake Storage Gen2 Objekt blob bloku Hierarchický (systém souborů) Objekt blob bloku Premium 3.6+ Jenom HBase se zrychleným zápisem

**U clusterů HDInsight mohou být pouze sekundární účty úložiště typu BlobStorage a Objekt blob stránky není podporovanou možností úložiště.

Další informace o typech Azure Storage najdete v tématu Přehled účtu úložiště Azure.

Další informace o úrovních Azure Storage najdete v tématu Azure Blob Storage: Premium (Preview), horká, studená a archivní úroveň úložiště.

Clustery můžete vytvářet pomocí kombinací služeb pro primární a volitelné sekundární úložiště. Následující tabulka shrnuje konfigurace úložiště clusteru, které jsou aktuálně podporovány ve službě HDInsight:

Verze HDInsight Primární Storage Sekundární Storage Podporováno
3.6 & 4.0 Pro obecné účely V1, Pro obecné účely V2 Pro obecné účely V1, Pro obecné účely V2, BlobStorage (objekty blob bloku) Yes
3.6 & 4.0 Pro obecné účely V1, Pro obecné účely V2 Data Lake Storage Gen2 No
3.6 & 4.0 Data Lake Storage Gen2* Data Lake Storage Gen2 Yes
3.6 & 4.0 Data Lake Storage Gen2* Pro obecné účely V1, Pro obecné účely V2, BlobStorage (objekty blob bloku) Yes
3.6 & 4.0 Data Lake Storage Gen2 Data Lake Storage Gen1 No
3,6 Data Lake Storage Gen1 Data Lake Storage Gen1 Yes
3,6 Data Lake Storage Gen1 Pro obecné účely V1, Pro obecné účely V2, BlobStorage (objekty blob bloku) Yes
3,6 Data Lake Storage Gen1 Data Lake Storage Gen2 No
4,0 Data Lake Storage Gen1 Všechny No
4,0 Pro obecné účely V1, Pro obecné účely V2 Data Lake Storage Gen1 No

*=Může to být jedno nebo více služeb Data Lake Storage Gen2, pokud jsou všechny nastavení tak, aby pro přístup ke clusteru mohly používat stejnou spravovanou identitu.

Poznámka

Primární úložiště Data Lake Storage Gen2 se nepodporuje pro clustery Spark 2.1 nebo 2.2.

Replikace dat

Azure HDInsight neukládá zákaznická data. Primárními prostředky úložiště pro cluster jsou jeho přidružené účty úložiště. Cluster můžete připojit k existujícímu účtu úložiště nebo vytvořit nový účet úložiště během procesu vytváření clusteru. Pokud se vytvoří nový účet, vytvoří se jako účet místně redundantního úložiště (LRS) a bude splňovat požadavky na rezidenci dat v oblasti, včetně těch zadaných v Centru zabezpečení.

Můžete ověřit, že je služba HDInsight správně nakonfigurovaná pro ukládání dat v jedné oblasti tím, že zajistíte, aby účet úložiště přidružený k vašemu HDInsight byl LRS nebo jiná možnost úložiště uvedená v Centruzabezpečení.

Další kroky