Analysera data i ett lagringskonto

I den här självstudien lär du dig att analysera data som finns i ett lagringskonto.

Översikt

Hittills har vi gått in på scenarier där data finns i databaser på arbetsytan. Nu ska vi visa hur du arbetar med filer i lagringskonton. I det här scenariot använder vi det primära lagringskontot för arbetsytan och containern som vi angav när vi skapade arbetsytan.

  • Namnet på lagringskontot: contosolake
  • Namnet på containern i lagringskontot: användare

Skapa CSV- och Parquet-filer i ditt lagringskonto

Kör följande kod i en notebook-kod i en ny kodcell. Det skapar en CSV-fil och en parquet-fil i lagringskontot.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Analysera data i ett lagringskonto

Du kan analysera data i arbetsytans ADLS Gen2-standardkonto eller länka ett ADLS Gen2- eller Blob Storage-konto till din arbetsyta via "Manage" > "Linked Services" > "New" (Stegen nedan refererar till det primära ADLS Gen2-kontot).

  1. I Synapse Studio du till datahubben och väljer sedan Länkad.

  2. Gå till Azure Data Lake Storage Gen2 > myworkspace (Primary – contosolake).

  3. Välj användare (primär). Du bör se mappen NYCMapp. I bör du se två mappar med namnet PassengerCountStats_csvformat och PassengerCountStats_parquetformat.

  4. Öppna mappen PassengerCountStats_parquetformat. Inuti visas en parquet-fil med ett namn som part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet .

  5. Högerklicka på .parquet och välj ny notebook-dator och välj sedan Läs in till DataFrame. En ny notebook-dator skapas med en cell så här:

    %%pyspark
    abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
    df = spark.read.load(abspath, format='parquet')
    display(df.limit(10))
    
  6. Anslut till Spark-poolen med namnet Spark1. Kör cellen.

  7. Välj tillbaka till mappen användare. Högerklicka på .parquet-filen igen och välj sedan Nytt SQL-skript > VÄLJ DE 100 översta raderna. Det skapar ett SQL-skript så här:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    I skriptfönstret kontrollerar du att fältet Anslut till är inställt på den inbyggda serverlösa SQL-poolen.

  8. Kör skriptet.

Nästa steg