Menganalisis dengan Apache Spark

Dalam tutorial ini, Anda akan mempelajari langkah-langkah dasar untuk memuat dan menganalisis data dengan Apache Spark untuk Azure Synapse.

Membuat kumpulan Apache Spark tanpa server

  1. Di Synapse Studio, di panel sebelah kiri, pilih Kelola>kumpulan Apache Spark.
  2. Pilih Baru
  3. Untuk Nama kumpulan Apache Spark masukkan Spark1.
  4. Untuk Ukuran node masukkan Kecil.
  5. Untuk Jumlah node Atur jumlah minimum ke 3 dan maksimum ke 3
  6. Pilih Tinjau + buat>Buat. Kumpulan Apache Spark Anda akan siap dalam beberapa detik.

Memahami kolam Apache Spark tanpa server

Kumpulan Spark tanpa server adalah cara untuk menunjukkan bagaimana pengguna ingin bekerja dengan Spark. Saat Anda mulai menggunakan kumpulan, sesi Spark dibuat jika diperlukan. Kumpulan mengontrol berapa banyak sumber daya Spark yang akan digunakan oleh sesi tersebut dan berapa lama sesi akan berlangsung sebelum dijeda secara otomatis. Anda membayar sumber daya spark yang digunakan selama sesi tersebut dan bukan untuk kumpulan itu sendiri. Dengan cara ini, kumpulan Spark memungkinkan Anda menggunakan Apache Spark tanpa mengelola kluster. Ini mirip dengan cara kerja kumpulan SQL tanpa server.

Analisis data Taksi NYC dengan kumpulan Spark

  1. Di Synapse Studio, buka hub Kembangkan.

  2. Buat notebook baru.

  3. Buat sel kode baru dan tempel kode berikut di sel tersebut:

    %%pyspark
    df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet')
    display(df.limit(10))
    
  4. Ubah URI beban, sehingga referensi file sampel di akun penyimpanan Anda sesuai dengan skema URI abfss.

  5. Di notebook, di menu Lampirkan ke, pilih kumpulan Spark tanpa server Spark1 yang kita buat sebelumnya.

  6. Pilih Jalankan pada sel. Synapse akan memulai sesi Spark baru untuk menjalankan sel ini jika diperlukan. Jika sesi Spark baru diperlukan, awalnya akan memakan waktu sekitar 2 hingga 5 menit untuk dibuat. Setelah sesi dibuat, eksekusi sel akan memakan waktu sekitar 2 detik.

  7. Jika Anda hanya ingin melihat skema dataframe menjalankan sel dengan kode berikut:

    %%pyspark
    df.printSchema()
    

Muat data Taksi NYC ke database nyctaxi Spark

Data tersedia melalui dataframe bernama df. Muat data tersebut ke dalam database Spark bernama nyctaxi.

  1. Tambahkan sel kode baru ke notebook, lalu masukkan kode berikut ini:

    %%pyspark
    spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")
    df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
    

Analisis data Taksi NYC menggunakan Spark dan notebook

  1. Buat sel kode baru dan masukkan kode berikut.

    %%pyspark
    df = spark.sql("SELECT * FROM nyctaxi.trip") 
    display(df)
    
  2. Jalankan sel untuk menampilkan data Taksi NYC yang kita muat ke dalam database nyctaxi Spark.

  3. Buat sel kode baru dan masukkan kode berikut. Kami akan menganalisis data ini dan menyimpan hasilnya ke dalam tabel yang disebut nyctaxi.passengercountstats.

    %%pyspark
    df = spark.sql("""
       SELECT passenger_count,
           SUM(trip_distance) as SumTripDistance,
           AVG(trip_distance) as AvgTripDistance
       FROM nyctaxi.trip
       WHERE trip_distance > 0 AND passenger_count > 0
       GROUP BY passenger_count
       ORDER BY passenger_count
    """) 
    display(df)
    df.write.saveAsTable("nyctaxi.passengercountstats")
    
  4. Dalam hasil sel, pilih Bagan untuk melihat data yang divisualisasikan.

Langkah berikutnya