Analýza dat v účtu úložiště

V tomto kurzu se dozvíte, jak analyzovat data umístěná v účtu úložiště.

Přehled

Zatím jsme probývali scénáře, ve kterých se data nacházejí v databázích v pracovním prostoru. Teď vám ukážeme, jak pracovat se soubory v účtech úložiště. V tomto scénáři použijeme primární účet úložiště pracovního prostoru a kontejneru, který jsme zadali při vytváření pracovního prostoru.

  • Název účtu úložiště: contosolake
  • Název kontejneru v účtu úložiště: users

Vytvoření souborů CSV a Parquet v účtu úložiště

V poznámkovém bloku v nové buňce kódu spusťte následující kód. V účtu úložiště vytvoří soubor CSV a soubor Parquet.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Analýza dat v účtu úložiště

Můžete analyzovat data ve výchozím účtu ADLS Gen2 pracovního prostoru nebo propojit účet služby ADLS Gen2 nebo BlobStorage s pracovním prostorem prostřednictvím možnosti Spravovat >Propojené služby >Nové(následující kroky budou odkazovat na primární účet ADLS Gen2).

  1. V Synapse Studio přejděte do centra Data a pak vyberte Propojeno.

  2. Přejděte do Azure Data Lake Storage Gen2 > myworkspace (Primary – contosolake).

  3. Vyberte uživatelé (primární). Měla by se zobrazit složka NYCTaxi. Uvnitř byste měli vidět dvě složky s názvem PassengerCountStats_csvformat a PassengerCountStats_parquetformat.

  4. Otevřete složku PassengerCountStats_parquetformat. Uvnitř uvidíte soubor Parquet s názvem jako part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet .

  5. Klikněte pravým tlačítkem na .parquet, vyberte New notebook (Nový poznámkový blok) a pak vyberte Load to DataFrame (Načíst do datového rámce). Vytvoří se nový poznámkový blok s buňkou, jako je tato:

    %%pyspark
    abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
    df = spark.read.load(abspath, format='parquet')
    display(df.limit(10))
    
  6. Připojte se k fondu Spark s názvem Spark1. Spusťte buňku.

  7. Vyberte zpět do složky users. Znovu klikněte pravým tlačítkem na soubor .parquet a pak vyberte Nový skript SQL SELECT TOP > 100 rows (Výběr horních 100 řádků). Vytvoří skript SQL, jako je tento:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    V okně skriptu se ujistěte, že je v poli Připojit k nastavený integrovaný bezs serverový fond SQL.

  8. Spusťte skript.

Další kroky