Jämför lagringsalternativ för användning med Azure HDInsight kluster
Du kan välja mellan några olika Azure Storage-tjänster när du skapar HDInsight-kluster:
- Azure Blob Storage med HDInsight
- Azure Data Lake Storage Gen2 med HDInsight
- Azure Data Lake Storage Gen1 med HDInsight
Den här artikeln innehåller en översikt över dessa lagringstyper och deras unika funktioner.
Storage typer och funktioner
I följande tabell sammanfattas de Azure Storage tjänster som stöds med olika versioner av HDInsight:
| Storage tjänst | Kontotyp | Namnområdestyp | Tjänster som stöds | Prestandanivåer som stöds | Åtkomstnivåer som stöds | HDInsight-version | Klustertyp |
|---|---|---|---|---|---|---|---|
| Azure Data Lake Storage Gen2 | Generell användning V2 | Hierarkisk (filsystem) | Blob | Standard | Hot, Cool, Archive | 3.6+ | Alla utom Spark 2.1 och 2.2 |
| Azure Storage | Generell användning V2 | Objekt | Blob | Standard | Hot, Cool, Archive | 3.6+ | Alla |
| Azure Storage | Generell användning V1 | Objekt | Blob | Standard | E.t. | Alla | Alla |
| Azure Storage | Blob Storage** | Objekt | Blockblob | Standard | Hot, Cool, Archive | Alla | Alla |
| Azure Data Lake Storage Gen1 | Ej tillämpligt | Hierarkisk (filsystem) | Saknas | Saknas | Saknas | 3.6 Endast | Alla utom HBase |
| Azure Storage | Blockblob | Objekt | Blockblob | Premium | Ej tillämpligt | 3.6+ | Endast HBase med accelererade skrivningar |
| Azure Data Lake Storage Gen2 | Blockblob | Hierarkisk (filsystem) | Blockblob | Premium | Ej tillämpligt | 3.6+ | Endast HBase med accelererade skrivningar |
**För HDInsight-kluster kan endast sekundära lagringskonton vara av typen BlobStorage och Sidblob är inte ett lagringsalternativ som stöds.
Mer information om Azure Storage finns i Översikt över Azure Storage-konton
Mer information om Azure Storage åtkomstnivåer finns i Azure Blob Storage: Premium (förhandsversion), lagringsnivåer för hot, cool och arkiv
Du kan skapa kluster med hjälp av kombinationer av tjänster för primär och valfri sekundär lagring. I följande tabell sammanfattas de klusterlagringskonfigurationer som för närvarande stöds i HDInsight:
| HDInsight-version | Primära Storage | Sekundär Storage | Stöds |
|---|---|---|---|
| 3.6 & 4.0 | Generell användning V1, Generell användning V2 | Generell användning V1, Generell användning V2, BlobStorage(Block Blobs) | Yes |
| 3.6 & 4.0 | Generell användning V1, Generell användning V2 | Data Lake Storage Gen2 | No |
| 3.6 & 4.0 | Data Lake Storage Gen2* | Data Lake Storage Gen2 | Yes |
| 3.6 & 4.0 | Data Lake Storage Gen2* | Generell användning V1, Generell användning V2, BlobStorage(Block Blobs) | Yes |
| 3.6 & 4.0 | Data Lake Storage Gen2 | Data Lake Storage Gen1 | No |
| 3,6 | Data Lake Storage Gen1 | Data Lake Storage Gen1 | Yes |
| 3,6 | Data Lake Storage Gen1 | Generell användning V1, Generell användning V2, BlobStorage(Block Blobs) | Yes |
| 3,6 | Data Lake Storage Gen1 | Data Lake Storage Gen2 | No |
| 4,0 | Data Lake Storage Gen1 | Valfri | No |
| 4,0 | Generell användning V1, Generell användning V2 | Data Lake Storage Gen1 | No |
*=Detta kan vara en eller flera Data Lake Storage Gen2, så länge alla är konfigurerade för att använda samma hanterade identitet för klusteråtkomst.
Anteckning
Data Lake Storage Gen2-primär lagring stöds inte för Spark 2.1- eller 2.2-kluster.
Datareplikering
Azure HDInsight lagrar inte kunddata. Det primära sättet att lagra ett kluster är dess associerade lagringskonton. Du kan ansluta klustret till ett befintligt lagringskonto eller skapa ett nytt lagringskonto när klustret skapas. Om ett nytt konto skapas skapas det som ett lokalt redundant lagringskonto (LRS) och uppfyller kraven för datahemhemlighet i regionen, inklusive de som anges i Säkerhetscenter.
Du kan verifiera att HDInsight är korrekt konfigurerat för att lagra data i en enda region genom att se till att lagringskontot som är associerat med HDInsight är LRS eller något annat lagringsalternativ som nämns i Säkerhetscenter.