Optimering av datalagring för Apache Spark

Artikel
09/15/2023

Den här artikeln beskriver strategier för att optimera datalagring för effektiv Körning av Apache Spark-jobb i Azure HDInsight.

Översikt

Spark stöder många format, till exempel csv, json, xml, parquet, orc och avro. Spark kan utökas för att stödja många fler format med externa datakällor – mer information finns i Apache Spark-paket.

Det bästa formatet för prestanda är parquet med snabb komprimering, vilket är standard i Spark 2.x. Parquet lagrar data i kolumnformat och är mycket optimerad i Spark.

Välj dataabstraktion

Tidigare Spark-versioner använder RDD för att abstrahera data, Spark 1.3 och 1.6 introducerade DataFrames respektive DataSets. Tänk på följande relativa fördelar:

DataFrames
- Bästa valet i de flesta situationer.
- Tillhandahåller frågeoptimering via Catalyst.
- Kodgenerering i hela stadiet.
- Direkt minnesåtkomst.
- Låg skräpinsamling (GC) overhead.
- Inte lika utvecklarvänligt som DataSets, eftersom det inte finns några kompileringstidskontroller eller domänobjektprogrammering.
Datamängder
- Bra i komplexa ETL-pipelines där prestandapåverkan är acceptabel.
- Inte bra i sammansättningar där prestandapåverkan kan vara betydande.
- Tillhandahåller frågeoptimering via Catalyst.
- Utvecklarvänlig genom att tillhandahålla domänobjektprogrammering och kompileringstidskontroller.
- Lägger till serialisering/deserialiseringskostnader.
- Höga GC-omkostnader.
- Bryter kodgenereringen i hela fasen.
RDD:er
- Du behöver inte använda RDD:er, såvida du inte behöver skapa en ny anpassad RDD.
- Ingen frågeoptimering via Catalyst.
- Ingen kodgenerering i hela fasen.
- Höga GC-omkostnader.
- Måste använda äldre API:er för Spark 1.x.

Välj standardlagring

När du skapar ett nytt Spark-kluster kan du välja Azure Blob Storage eller Azure Data Lake Storage som standardlagring för klustret. Båda alternativen ger dig fördelen med långsiktig lagring för tillfälliga kluster. Så dina data tas inte bort automatiskt när du tar bort klustret. Du kan återskapa ett tillfälligt kluster och fortfarande komma åt dina data.

Butikstyp	Filsystem	Hastighet	Tillfälligt	Användningsfall
Azure Blob Storage	wasb://url/	Standard	Ja	Tillfälligt kluster
Azure Blob Storage (säker)	wasbs://url/	Standard	Ja	Tillfälligt kluster
Azure Data Lake Storage Gen 2	abfs://url/	Snabbare	Ja	Tillfälligt kluster
Azure Data Lake Storage Gen 1	adl://url/	Snabbare	Ja	Tillfälligt kluster
Lokal HDFS	hdfs://url/	Snabbaste	Inga	Interaktivt 24/7-kluster

En fullständig beskrivning av lagringsalternativ finns i Jämför lagringsalternativ för användning med Azure HDInsight-kluster.

Använd cachen

Spark har egna interna cachelagringsmekanismer som kan användas via olika metoder som .persist(), .cache()och CACHE TABLE. Den här interna cachelagringen är effektiv med små datauppsättningar och i ETL-pipelines där du behöver cachelagra mellanliggande resultat. Den inbyggda Spark-cachelagringen fungerar dock för närvarande inte bra med partitionering, eftersom en cachelagrad tabell inte behåller partitioneringsdata. En mer allmän och tillförlitlig cachelagringsteknik är cachelagring av lagringslager.

Intern Spark-cachelagring (rekommenderas inte)
- Bra för små datamängder.
- Fungerar inte med partitionering, vilket kan ändras i framtida Spark-versioner.
Cachelagring på lagringsnivå (rekommenderas)
- Kan implementeras på HDInsight med hjälp av IO Cache-funktionen .
- Använder minnesintern cachelagring och SSD-cachelagring.
Lokal HDFS (rekommenderas)
- hdfs://mycluster Sökvägen.
- Använder SSD-cachelagring.
- Cachelagrade data går förlorade när du tar bort klustret, vilket kräver att cacheminnet återskapas.

Optimera dataserialiseringen

Spark-jobb distribueras, så lämplig dataserialisering är viktig för bästa prestanda. Det finns två serialiseringsalternativ för Spark:

Java-serialisering är standard.
Kryo serialisering är ett nyare format och kan resultera i snabbare och mer kompakt serialisering än Java. Kryo kräver att du registrerar klasserna i ditt program och att det ännu inte stöder alla Serializable-typer.

Använd bucket

Bucketing liknar datapartitionering. Men varje bucket kan innehålla en uppsättning kolumnvärden i stället för bara en. Den här metoden fungerar bra för partitionering på stora (i miljoner eller fler) värden, till exempel produktidentifierare. En bucket bestäms genom att du hashar bucketnyckeln för raden. Bucketade tabeller erbjuder unika optimeringar eftersom de lagrar metadata om hur de bucketades och sorterades.

Några avancerade bucketing-funktioner är:

Frågeoptimering baserat på bucketing meta-information.
Optimerade sammansättningar.
Optimerade kopplingar.

Du kan använda partitionering och bucketing samtidigt.