Apache Spark ile analiz etme

Bu öğreticide, veri yükleme ve veri analizi için veri yükleme ve analiz etme Apache Spark adımları Azure Synapse.

Sunucusuz havuz Apache Spark oluşturma

  1. Bu Synapse Studio sol bölmede Havuz havuzlarını > yönet'Apache Spark seçin.
  2. Yeni'yi seçin
  3. Havuz Apache Spark Spark1 girin.
  4. Düğüm boyutu için Küçük girin.
  5. Düğüm sayısı için en düşük değeri 3, maksimum değeri de 3 olarak ayarlayın
  6. Gözden geçir ve oluştur > Oluştur'u seçin. Apache Spark havuzu birkaç saniye içinde hazır olur.

Sunucusuz Apache Spark anlama

Sunucusuz Spark havuzu, kullanıcının Spark ile nasıl çalışmak istediğini gösteren bir yoldur. Havuz kullanmaya başsanız, gerekirse bir Spark oturumu oluşturulur. Havuz, bu oturum tarafından kaç Spark kaynağı kullanacağız ve otomatik olarak duraklatmadan önce oturumun ne kadar süreyle devam edeceklerini kontrol eder. Bu oturum sırasında kullanılan Spark kaynakları için havuzun kendisi için ödemezsiniz. Bu şekilde Spark havuzu, kümeleri yönetme konusunda endişelenmenize gerek kalmadan Spark ile çalışmanize olanak sağlar. Bu, sunucusuz bir havuza SQL benzer.

Spark havuzuyla NYC Taxi verilerini analiz etme

  1. Bu Synapse Studio Geliştirme hub'ına gidin

  2. Yeni Not Defteri oluşturma

  3. Yeni bir kod hücresi oluşturun ve aşağıdaki kodu bu hücreye yapıştırın.

    %%pyspark
    df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet')
    display(df.limit(10))
    
  4. Not defterindeki Ekle menüsünde, daha önce oluşturduğum Spark1 sunucusuz Spark havuzunu seçin.

  5. Hücrede Çalıştır'ı seçin. Synapse, gerekirse bu hücreyi çalıştırmak için yeni bir Spark oturumu başlatacak. Yeni bir Spark oturumu gerekirse, başlangıçta bu oturumun oluşturulacak olması yaklaşık iki saniye sürer.

  6. Yalnızca veri çerçevesinin şemasını görmek için aşağıdaki kodla bir hücre çalıştırın:

    %%pyspark
    df.printSchema()
    

NYC Taxi verilerini Spark nyctaxi veritabanına yükleme

Veriler df adlı veri çerçevesi aracılığıyla kullanılabilir. Bunu nyctaxi adlı bir Spark veritabanına yükleme.

  1. Not defterine yeni bir kod hücresi ekleyin ve aşağıdaki kodu girin:

    %%pyspark
    spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")
    df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
    

Spark ve not defterlerini kullanarak NYC Taxi verilerini analiz etme

  1. Yeni bir kod hücresi oluşturun ve aşağıdaki kodu girin.

    %%pyspark
    df = spark.sql("SELECT * FROM nyctaxi.trip") 
    display(df)
    
  2. Nyctaxi Spark veritabanına yüklemiş olduğumız NYC Taxi verilerini göstermek için hücreyi çalıştırın.

  3. Yeni bir kod hücresi oluşturun ve aşağıdaki kodu girin. Bu verileri analiz edip sonuçları nyctaxi.yolcucountstats adlı bir tabloya kaydedecek.

    %%pyspark
    df = spark.sql("""
       SELECT PassengerCount,
           SUM(TripDistanceMiles) as SumTripDistance,
           AVG(TripDistanceMiles) as AvgTripDistance
       FROM nyctaxi.trip
       WHERE TripDistanceMiles > 0 AND PassengerCount > 0
       GROUP BY PassengerCount
       ORDER BY PassengerCount
    """) 
    display(df)
    df.write.saveAsTable("nyctaxi.passengercountstats")
    
  4. Hücre sonuçlarında, görselleştirilmiş verileri görmek için Grafik'i seçin.

Sonraki adımlar