Tárfiókban található adatok elemzése

Ez az oktatóanyag bemutatja, hogyan elemezheti a tárfiókban található adatokat.

Áttekintés

Az eddig olyan forgatókönyveket fedtünk le, amelyekben az adatok a munkaterület adatbázisában találhatók. Most megmutatjuk, hogyan dolgozhat a tárfiókok fájljaival. Ebben a forgatókönyvben a munkaterület és a tároló elsődleges tárfiókját fogjuk használni, amit a munkaterület létrehozásakor adtunk meg.

  • A tárfiók neve: contosolake
  • A tárfiókban található tároló neve: users

CSV- és Parquet-fájlok létrehozása a tárfiókban

Futtassa az alábbi kódot egy notebookban egy új kódcellában. Létrehoz egy CSV-fájlt és egy Parquet-fájlt a tárfiókban.

%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")

Tárfiókban található adatok elemzése

Elemezheti a munkaterület alapértelmezett ADLS Gen2-fiókjában lévő adatokat, vagy összekapcsolhat egy ADLS Gen2- vagy Blob Storage-fiókot a munkaterülettel a "Manage" > "Linked Services" > "New" (Az alábbi lépések az elsődleges ADLS Gen2-fiókra vonatkoznak).

  1. A Synapse Studio az Adatközpontba, majd válassza a Csatolt lehetőséget.

  2. Ugrás a Azure Data Lake Storage Gen2 > (Elsődleges – contosolake) elemhez.

  3. Válassza a Users (Primary) (Felhasználók (Elsődleges) lehetőséget). Meg kell lennie a NYCTaxi mappának. A fájlban két mappát kell látnia, a PassengerCountStats_csvformat és PassengerCountStats_parquetformat.

  4. Nyissa meg a PassengerCountStats_parquetformat mappát. A fájlon belül egy parquet-fájl fog látni, például: part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet .

  5. Kattintson a jobb gombbal a .parquet fájlra, majd válassza az Új jegyzetfüzet lehetőséget, majd válassza a Betöltés DataFrame-be lehetőséget. A rendszer létrehoz egy új jegyzetfüzetet egy ehhez hasonló cellával:

    %%pyspark
    abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet'
    df = spark.read.load(abspath, format='parquet')
    display(df.limit(10))
    
  6. Csatolja a Spark1 nevű Spark-készletet. Futtassa a cellát.

  7. Válassza a vissza lehetőséget a users (felhasználók) mappába. Kattintson ismét a jobb gombbal a .parquet-fájlra, majd válassza az Új SQL-szkript > SELECT TOP 100 rows (ELSŐ 100 sor kiválasztása) lehetőséget. A következőhöz hasonló SQL-szkriptet hoz létre:

    SELECT 
        TOP 100 *
    FROM OPENROWSET(
        BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet',
        FORMAT='PARQUET'
    ) AS [result]
    

    A szkriptablakban győződjön meg arról, hogy a Csatlakozás a következőhöz mező a Beépített kiszolgáló nélküli SQL-készletre van beállítva.

  8. Futtassa a szkriptet.

További lépések