Depolama hesabında verileri analiz etme

Bu öğreticide, bir depolama hesabında bulunan verileri analiz etmeyi öğrenirsiniz.

Genel Bakış

Şu ana kadar, verilerin çalışma alanı veritabanlarında bulunduğu senaryoları ele alastırdı. Şimdi depolama hesaplarında dosyalarla nasıl çalışabilirsiniz? Bu senaryoda, çalışma alanını oluştururken belirttiğiniz çalışma alanının ve kapsayıcının birincil depolama hesabını kullan kullanırsınız.

  • Depolama hesabının adı: contosolake
  • Depolama hesabı içinde kapsayıcının adı: kullanıcılar

Depolama hesabınızla CSV ve Parquet dosyaları oluşturma

Aşağıdaki kodu yeni bir kod hücresinde bir not defterinde çalıştırın. Depolama hesabında bir CSV dosyası ve bir parquet dosyası oluşturur.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Depolama hesabında verileri analiz etme

Çalışma alanınız için varsayılan ADLS 2. Nesil hesabıyla verileri analiz edebilirsiniz veya bir ADLS 2. Nesil veya Blob depolama hesabını " Yönet " > "Bağlı Hizmetler " >" Yeni " aracılığıyla çalışma alanınıza bebilirsiniz (Aşağıdaki adımlar birincil ADLS 2. Nesil hesabını ifade eder).

  1. Bu Synapse Studio Veri hub'ı'sı'nın ardından Bağlı'ya gidin.

  2. myworkspace Azure Data Lake Storage 2. Nesil (Birincil - contosolake) adresine gidin.

  3. Kullanıcıları (Birincil) seçin. NYCTaxi klasörünü görüyor olun. içinde, PassengerCountStats_csvformat ve PassengerCountStats_parquetformat.

  4. PassengerCountStats_parquetformat açın. içinde gibi bir ada sahip parquet dosyası part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet görüyorsunuz.

  5. .parquet'e sağ tıklayın, ardından Yeni not defteri'ne ve ardından DataFrame'e Yükle'yi seçin. Bunun gibi bir hücreyle yeni bir not defteri oluşturulur:

    %%pyspark
    abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
    df = spark.read.load(abspath, format='parquet')
    display(df.limit(10))
    
  6. Spark1 adlı Spark havuzuna ekleme. Hücreyi çalıştırın.

  7. Users klasörüne geri gidin. .parquet dosyasına yeniden sağ tıklayın ve yeni SQL betiği SELECT > TOP 100 rows öğesini seçin. Aşağıdaki gibi bir SQL betiği oluşturur:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    Betik penceresinde, Bağlan alanında Yerleşik sunucusuz SQL havuzu olarak ayarlanmış olduğundan emin olun.

  8. Betiği çalıştırın.

Sonraki adımlar