Analýza pomocí Apache Spark
V tomto kurzu se naučíte základní kroky pro načtení a analýzu dat pomocí Apache Spark pro Azure Synapse.
Vytvoření bez serveru Apache Spark fondu
- V Synapse Studio podokně vlevo vyberte Spravovat fondy Apache Spark > dat.
- Vyberte Nový.
- Jako Apache Spark fondu zadejte Spark1.
- Jako Node size (Velikost uzlu) zadejte Small (Malá).
- V části Počet uzlů nastavte minimum na 3 a maximum na 3.
- Vyberte Zkontrolovat a vytvořit > Vytvořit. Váš Apache Spark bude během několika sekund připravený.
Principy bezdomovových Apache Spark fondů
Bez serveru fondu Spark je způsob, jak indikovat, jak chce uživatel pracovat se Sparkem. Když začnete používat fond, v případě potřeby se vytvoří relace Sparku. Fond určuje, kolik prostředků Sparku bude tato relace používat a jak dlouho bude relace trvat, než se automaticky pozastaví. Platíte za prostředky Sparku použité během této relace, ne za samotný fond. Fond Sparku vám tak umožní pracovat se Sparkem, aniž byste se museli starat o správu clusterů. To se podobá tomu, jak bez serveru SQL funguje.
Analýza dat newyorské taxislužby s fondem Sparku
V Synapse Studio přejděte do centra Vývoj.
Vytvoření nového poznámkového bloku
Vytvořte novou buňku kódu a vložte do této buňky následující kód.
%%pyspark df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet') display(df.limit(10))V poznámkovém bloku v nabídce Připojit k zvolte bez serveru Spark1, který jsme vytvořili dříve.
V buňce vyberte Run (Spustit). Synapse v případě potřeby spustí novou relaci Sparku, ve které se tato buňka spustí. Pokud je potřeba nová relace Sparku, bude na začátku trvat přibližně dvě sekundy.
Pokud chcete jenom zobrazit schéma datového rámce, spusťte buňku s následujícím kódem:
%%pyspark df.printSchema()
Načtení dat newyorské taxislužby do databáze Spark nyctaxi
Data jsou k dispozici prostřednictvím datového rámce s názvem df. Načtěte ho do databáze Sparku s názvem nyctaxi.
Přidejte do poznámkového bloku novou buňku kódu a pak zadejte následující kód:
%%pyspark spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi") df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
Analýza dat newyorské taxislužby pomocí Sparku a poznámkových bloků
Vytvořte novou buňku kódu a zadejte následující kód.
%%pyspark df = spark.sql("SELECT * FROM nyctaxi.trip") display(df)Spuštěním buňky zobrazte data newyorské taxislužby, která jsme načetli do databáze nyctaxi Spark.
Vytvořte novou buňku kódu a zadejte následující kód. Tato data analyzujeme a výsledky uložíme do tabulky s názvem nyctaxi.passengercountstats.
%%pyspark df = spark.sql(""" SELECT PassengerCount, SUM(TripDistanceMiles) as SumTripDistance, AVG(TripDistanceMiles) as AvgTripDistance FROM nyctaxi.trip WHERE TripDistanceMiles > 0 AND PassengerCount > 0 GROUP BY PassengerCount ORDER BY PassengerCount """) display(df) df.write.saveAsTable("nyctaxi.passengercountstats")Ve výsledcích buňky vyberte Graf a zobrazte vizualizována data.