Porovnání možností úložiště pro použití s clustery Azure HDInsight

Při vytváření clusterů HDInsight si můžete vybrat mezi několika různými službami úložiště Azure:

Tento článek obsahuje přehled těchto typů úložišť a jejich jedinečných funkcí.

Typy a funkce úložiště

Následující tabulka shrnuje služby Azure Storage podporované v různých verzích SLUŽBY HDInsight:

Služba úložiště Typ účtu Typ oboru názvů Podporované služby Podporované úrovně výkonu Podporované úrovně přístupu Verze služby HDInsight Typ clusteru
Azure Data Lake Storage Gen2 Úložiště pro obecné účely verze 2 Hierarchický (systém souborů) Objekt blob Standard Horká, studená a archivní 3.6+ Vše kromě Sparku 2.1 a 2.2
Azure Storage Úložiště pro obecné účely verze 2 Object Objekt blob Standard Horká, studená a archivní 3.6+ Všechny
Azure Storage Úložiště pro obecné účely verze 1 Object Objekt blob Standard Vše Vše
Azure Storage Blob Storage** Object Objekt blob bloku Standard Horká, studená a archivní Vše Vše
Azure Data Lake Storage Gen1 Hierarchický (systém souborů) N/A Pouze 3.6 Vše kromě HBase
Azure Storage Objekt blob bloku Object Objekt blob bloku Premium 3.6+ Pouze HBase s akcelerovanými zápisy
Azure Data Lake Storage Gen2 Objekt blob bloku Hierarchický (systém souborů) Objekt blob bloku Premium 3.6+ Pouze HBase s akcelerovanými zápisy

**Pro clustery HDInsight můžou být podporované pouze sekundární účty úložiště typu BlobStorage a Objekt blob stránky není podporovaná možnost úložiště.

Další informace o typech účtů azure Storage najdete v přehledu účtu úložiště Azure.

Další informace o úrovních přístupu ke službě Azure Storage najdete v tématu Azure Blob Storage: Premium (Preview), horká, studená a archivní úroveň úložiště.

Clustery můžete vytvářet pomocí kombinací služeb pro primární a volitelné sekundární úložiště. Následující tabulka shrnuje konfigurace úložiště clusteru, které jsou aktuálně podporovány ve službě HDInsight:

Verze služby HDInsight Primární úložiště Sekundární úložiště Podporováno
3.6 & 4.0 Pro obecné účely V1, Pro obecné účely V2 Obecné účely V1, Obecné účely V2, BlobStorage(objekty blob bloku) Ano
3.6 & 4.0 Pro obecné účely V1, Pro obecné účely V2 Data Lake Storage Gen2 No
3.6 & 4.0 Data Lake Storage Gen2* Data Lake Storage Gen2 Ano
3.6 & 4.0 Data Lake Storage Gen2* Obecné účely V1, Obecné účely V2, BlobStorage(objekty blob bloku) Ano
3.6 & 4.0 Data Lake Storage Gen2 Data Lake Storage Gen1 No
3,6 Data Lake Storage Gen1 Data Lake Storage Gen1 Ano
3,6 Data Lake Storage Gen1 Obecné účely V1, Obecné účely V2, BlobStorage(objekty blob bloku) Ano
3,6 Data Lake Storage Gen1 Data Lake Storage Gen2 No
4.0 Data Lake Storage Gen1 Všechny No
4.0 Pro obecné účely V1, Pro obecné účely V2 Data Lake Storage Gen1 No

*=Může to být jedna nebo více služeb Data Lake Storage Gen2, pokud jsou všechny nastavené tak, aby pro přístup ke clusteru používaly stejnou spravovanou identitu.

Poznámka:

Primární úložiště Data Lake Storage Gen2 se nepodporuje pro clustery Spark 2.1 nebo 2.2.

Replikace dat

Azure HDInsight neukládá zákaznická data. Primárním prostředkem úložiště clusteru jsou jeho přidružené účty úložiště. Cluster můžete připojit k existujícímu účtu úložiště nebo během procesu vytváření clusteru vytvořit nový účet úložiště. Pokud se vytvoří nový účet, vytvoří se jako místně redundantní účet úložiště (LRS) a bude splňovat požadavky na rezidenci dat v oblasti, včetně požadavků zadaných v Centru zabezpečení.

Můžete ověřit, jestli je HDInsight správně nakonfigurovaný tak, aby ukládaly data do jedné oblasti. Tím zajistíte, že účet úložiště přidružený k vaší službě HDInsight je LRS nebo jiná možnost úložiště uvedená v Centru zabezpečení.

Poznámka:

Upgrade primárního nebo sekundárního účtu úložiště spuštěného clusteru s funkcemi Azure Data Lake Storage Gen2 se nepodporuje. Pokud chcete změnit typ úložiště existujícího clusteru HDInsight na Data Lake Storage Gen2, budete muset cluster znovu vytvořit a vybrat účet úložiště s povoleným hierarchickým oborem názvů.

Další kroky