Apache Spark ile analiz etme
Bu öğreticide, veri yükleme ve veri analizi için veri yükleme ve analiz etme Apache Spark adımları Azure Synapse.
Sunucusuz havuz Apache Spark oluşturma
- Bu Synapse Studio sol bölmede Havuz havuzlarını > yönet'Apache Spark seçin.
- Yeni'yi seçin
- Havuz Apache Spark Spark1 girin.
- Düğüm boyutu için Küçük girin.
- Düğüm sayısı için en düşük değeri 3, maksimum değeri de 3 olarak ayarlayın
- Gözden geçir ve oluştur > Oluştur'u seçin. Apache Spark havuzu birkaç saniye içinde hazır olur.
Sunucusuz Apache Spark anlama
Sunucusuz Spark havuzu, kullanıcının Spark ile nasıl çalışmak istediğini gösteren bir yoldur. Havuz kullanmaya başsanız, gerekirse bir Spark oturumu oluşturulur. Havuz, bu oturum tarafından kaç Spark kaynağı kullanacağız ve otomatik olarak duraklatmadan önce oturumun ne kadar süreyle devam edeceklerini kontrol eder. Bu oturum sırasında kullanılan Spark kaynakları için havuzun kendisi için ödemezsiniz. Bu şekilde Spark havuzu, kümeleri yönetme konusunda endişelenmenize gerek kalmadan Spark ile çalışmanize olanak sağlar. Bu, sunucusuz bir havuza SQL benzer.
Spark havuzuyla NYC Taxi verilerini analiz etme
Bu Synapse Studio Geliştirme hub'ına gidin
Yeni Not Defteri oluşturma
Yeni bir kod hücresi oluşturun ve aşağıdaki kodu bu hücreye yapıştırın.
%%pyspark df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet') display(df.limit(10))Not defterindeki Ekle menüsünde, daha önce oluşturduğum Spark1 sunucusuz Spark havuzunu seçin.
Hücrede Çalıştır'ı seçin. Synapse, gerekirse bu hücreyi çalıştırmak için yeni bir Spark oturumu başlatacak. Yeni bir Spark oturumu gerekirse, başlangıçta bu oturumun oluşturulacak olması yaklaşık iki saniye sürer.
Yalnızca veri çerçevesinin şemasını görmek için aşağıdaki kodla bir hücre çalıştırın:
%%pyspark df.printSchema()
NYC Taxi verilerini Spark nyctaxi veritabanına yükleme
Veriler df adlı veri çerçevesi aracılığıyla kullanılabilir. Bunu nyctaxi adlı bir Spark veritabanına yükleme.
Not defterine yeni bir kod hücresi ekleyin ve aşağıdaki kodu girin:
%%pyspark spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi") df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
Spark ve not defterlerini kullanarak NYC Taxi verilerini analiz etme
Yeni bir kod hücresi oluşturun ve aşağıdaki kodu girin.
%%pyspark df = spark.sql("SELECT * FROM nyctaxi.trip") display(df)Nyctaxi Spark veritabanına yüklemiş olduğumız NYC Taxi verilerini göstermek için hücreyi çalıştırın.
Yeni bir kod hücresi oluşturun ve aşağıdaki kodu girin. Bu verileri analiz edip sonuçları nyctaxi.yolcucountstats adlı bir tabloya kaydedecek.
%%pyspark df = spark.sql(""" SELECT PassengerCount, SUM(TripDistanceMiles) as SumTripDistance, AVG(TripDistanceMiles) as AvgTripDistance FROM nyctaxi.trip WHERE TripDistanceMiles > 0 AND PassengerCount > 0 GROUP BY PassengerCount ORDER BY PassengerCount """) display(df) df.write.saveAsTable("nyctaxi.passengercountstats")Hücre sonuçlarında, görselleştirilmiş verileri görmek için Grafik'i seçin.