Analýza s využitím Apache Sparku

V tomto kurzu se naučíte základní kroky pro načtení a analýzu dat pomocí Apache Sparku pro Azure Synapse.

Vytvoření bezserverového fondu Apache Sparku

  1. V Synapse Studio v levém podokně vyberte Spravovat>fondy Apache Sparku.
  2. Vyberte Nový.
  3. Jako název fondu Apache Sparku zadejte Spark1.
  4. Jako Velikost uzlu zadejte Malá.
  5. Pro počet uzlů nastavte minimum na 3 a maximum na 3.
  6. Vyberte Zkontrolovat a vytvořit>Vytvořit. Váš fond Apache Sparku bude připravený během několika sekund.

Principy bezserverových fondů Apache Sparku

Bezserverový fond Sparku je způsob, jak indikovat, jak chce uživatel pracovat se Sparkem. Když začnete používat fond, v případě potřeby se vytvoří relace Sparku. Fond řídí, kolik prostředků Sparku bude tato relace používat a jak dlouho bude trvat, než se automaticky pozastaví. Platíte za prostředky Sparku použité během této relace, a ne za samotný fond. Fond Sparku tak umožňuje používat Apache Spark bez správy clusterů. Podobá se tomu, jak funguje bezserverový fond SQL.

Analýza dat newyordické taxislužby pomocí fondu Sparku

  1. V Synapse Studio přejděte do centra Vývoj.

  2. Vytvořte nový poznámkový blok.

  3. Vytvořte novou buňku kódu a vložte do této buňky následující kód:

    %%pyspark
    df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet')
    display(df.limit(10))
    
  4. Upravte identifikátor URI načtení tak, aby odkaz na ukázkový soubor ve vašem účtu úložiště odpovídal schématu identifikátoru URI abfss.

  5. V poznámkovém bloku v nabídce Připojit k zvolte bezserverový fond Sparku Spark1 , který jsme vytvořili dříve.

  6. V buňce vyberte Spustit . Synapse v případě potřeby spustí novou relaci Sparku, která tuto buňku spustí. Pokud je potřeba nová relace Sparku, bude zpočátku trvat přibližně 2 až 5 minut, než se vytvoří. Po vytvoření relace bude provádění buňky trvat asi 2 sekundy.

  7. Pokud chcete zobrazit pouze schéma datového rámce, spusťte buňku s následujícím kódem:

    %%pyspark
    df.printSchema()
    

Načtení dat NEWYC Taxi do databáze Spark nyctaxi

Data jsou k dispozici prostřednictvím datového rámce s názvem df. Načtěte ho do databáze Sparku s názvem nyctaxi.

  1. Přidejte do poznámkového bloku novou buňku kódu a pak zadejte následující kód:

    %%pyspark
    spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")
    df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
    

Analýza dat newyordické taxislužby pomocí Sparku a poznámkových bloků

  1. Vytvořte novou buňku kódu a zadejte následující kód.

    %%pyspark
    df = spark.sql("SELECT * FROM nyctaxi.trip") 
    display(df)
    
  2. Spuštěním buňky zobrazte data newyorické taxislužby, která jsme načetli do databáze Sparku nyctaxi .

  3. Vytvořte novou buňku kódu a zadejte následující kód. Tato data budeme analyzovat a výsledky uložíme do tabulky s názvem nyctaxi.passengercountstats.

    %%pyspark
    df = spark.sql("""
       SELECT passenger_count,
           SUM(trip_distance) as SumTripDistance,
           AVG(trip_distance) as AvgTripDistance
       FROM nyctaxi.trip
       WHERE trip_distance > 0 AND passenger_count > 0
       GROUP BY passenger_count
       ORDER BY passenger_count
    """) 
    display(df)
    df.write.saveAsTable("nyctaxi.passengercountstats")
    
  4. Ve výsledcích buňky vyberte Graf , aby se zobrazila vizualizovaná data.

Další kroky