Depolama hesabındaki verileri analiz etmeAnalyze data in a storage account

Bu öğreticide, depolama hesabında bulunan verileri çözümlemeyi öğreneceksiniz.In this tutorial, you'll learn how to analyze data located in a storage account.

Genel BakışOverview

Şimdiye kadar, çalışma alanındaki veritabanlarında verilerin bulunduğu senaryolar kapsandık.So far, we've covered scenarios where data resides in databases in the workspace. Artık depolama hesaplarında dosyalarla nasıl çalışacağız gösterilmektedir.Now we'll show you how to work with files in storage accounts. Bu senaryoda, çalışma alanının ve çalışma alanını oluştururken belirttiğimiz kapsayıcının birincil depolama hesabını kullanacağız.In this scenario, we'll use the primary storage account of the workspace and container that we specified when creating the workspace.

  • Depolama hesabının adı: contosolakeThe name of the storage account: contosolake
  • Depolama hesabındaki kapsayıcının adı: KullanıcılarThe name of the container in the storage account: users

Depolama hesabınızda CSV ve Parquet dosyaları oluşturmaCreate CSV and Parquet files in your storage account

Aşağıdaki kodu yeni bir kod hücresindeki bir not defterinde çalıştırın.Run the following code in a notebook in a new code cell. Depolama hesabında bir CSV dosyası ve bir Parquet dosyası oluşturur.It creates a CSV file and a parquet file in the storage account.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensure we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Depolama hesabındaki verileri analiz etmeAnalyze data in a storage account

Çalışma alanınızın varsayılan ADLS 2. hesabındaki verileri çözümleyebilir veya "Yönet" > "bağlı hizmetler" > "Yeni" ADLS 2. veya bir BLOB depolama hesabını çalışma alanınıza bağlayabilirsiniz (aşağıdaki adımlar birincil ADLS 2. hesabına başvuracaktır).You can analyze the data in your workspace default ADLS Gen2 account or you can link an ADLS Gen2 or Blob storage account to your workspace through "Manage" > "Linked Services" > "New" (The steps below will refer to the primary ADLS Gen2 account).

  1. SYNAPSE Studio 'da veri merkezine gidin ve bağlı' yı seçin.In Synapse Studio, go to the Data hub, and then select Linked.

  2. Depolama hesapları > MyWorkspace (birincil-contosolake) sayfasına gidin.Go to Storage accounts > myworkspace (Primary - contosolake).

  3. Kullanıcıları (birincil) seçin.Select users (Primary). NYCTaxi klasörünü görmeniz gerekir.You should see the NYCTaxi folder. İçinde PassengerCountStats_csvformat ve PassengerCountStats_parquetformat adlı iki klasör görmeniz gerekir.Inside you should see two folders called PassengerCountStats_csvformat and PassengerCountStats_parquetformat.

  4. PassengerCountStats_parquetformat klasörünü açın.Open the PassengerCountStats_parquetformat folder. İçinde, benzer bir adı olan bir Parquet dosyası görürsünüz part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet .Inside, you'll see a parquet file with a name like part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet.

  5. . Parquet öğesine sağ tıklayın, ardından Yeni Not defteri' ni ve ardından dataframe 'e yükle' yi seçin.Right-click .parquet, then select New notebook, then select Load to DataFrame. Aşağıdaki gibi bir hücreyle yeni bir not defteri oluşturulur:A new notebook is created with a cell like this:

    %%pyspark
    df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats.parquet/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet', format='parquet')
    display(df.limit(10))
    
  6. Spark1 adlı Spark havuzuna ekleyin.Attach to the Spark pool named Spark1. Hücreyi çalıştırın.Run the cell.

  7. Kullanıcılar klasörüne geri ' ye tıklayın.Click back to the users folder. . Parquet dosyasına tekrar sağ tıklayın ve ardından Yeni SQL betiği > en üstteki 100 satırları Seç ' i seçin.Right-click the .parquet file again, and then select New SQL script > SELECT TOP 100 rows. Şöyle bir SQL betiği oluşturur:It creates a SQL script like this:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats.parquet/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    Betik penceresinde, Bağlan alanının YERLEŞIK sunucusuz SQL havuzu olarak ayarlandığından emin olun.In the script window, make sure the Connect to field is set to the Built-in serverless SQL pool.

  8. Betiği çalıştırın.Run the script.

Sonraki adımlarNext steps