Integrácia služby OneLake so službou Azure Synapse Analytics

Azure Synapse je neobmedzená analytická služba, ktorá v sebe spája možnosti skladovania podnikových údajov a analýzy Big Data. V tomto kurze sa dozviete, ako sa pripojiť k službe OneLake pomocou služby Azure Synapse Analytics.

Zapisovať údaje zo Synapse pomocou Apache Spark

Pomocou týchto krokov môžete pomocou služby Apache Spark zapisovať vzorové údaje do služby OneLake zo služby Azure Synapse Analytics.

  1. Otvorte pracovný priestor Synapse a vytvorte fond Apache Spark s vašimi preferovanými parametrami.

    Screenshot showing where to select New in the Apache Spark pool screen.

  2. Vytvorte nový notebook Apache Spark.

  3. Otvorte poznámkový blok, nastavte jazyk do počítača PySpark (Python) a pripojte ho k novovytvorenému fondu Spark.

  4. Na samostatnej karte prejdite do svojho jazera služby Microsoft Fabric a nájdite priečinok Tabuľky najvyššej úrovne.

  5. Kliknite pravým tlačidlom myši na priečinok Tables (Tabuľky) a vyberte položku Properties (Vlastnosti).

    Screenshot showing where to open the Properties pane lakehouse explorer.

  6. Skopírujte cestu ABFS z tably Vlastnosti.

    Screenshot showing where to copy the ABFS path.

  7. Vráťte sa do notebooku Azure Synapse v prvej novej bunke kódu a poskytnite cestu k úložiu lakehouse. V tomto lakehouse sú vaše údaje napísané neskôr. Spustite bunku.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. V novej bunke kódu načítajte údaje z otvorenej množiny údajov v službe Azure do údajového rámca. Táto množina údajov je tá, ktorú načítate do svojho jazera. Spustite bunku.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. V novej bunke kódu môžete údaje filtrovať, transformovať alebo pripravovať. V tomto scenári môžete znížiť počet množín údajov tak, aby sa načítala rýchlejšie, spojiť sa s inými množinami údajov alebo filtrovať konkrétne výsledky. Spustite bunku.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. V novej bunke kódu pomocou cesty OneLake zapíšte vyfiltrovaný údajový rámec do novej tabuľky Delta-Parquet v úložiske Fabric lakehouse. Spustite bunku.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Nakoniec v novej bunke kódu otestujte, či sa vaše údaje úspešne zapísali do čítania novo načítaného súboru zo služby OneLake. Spustite bunku.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Blahoželáme. Údaje v službe OneLake teraz môžete čítať a zapisovať pomocou Apache Spark v službe Azure Synapse Analytics.

Čítať údaje zo Synapse pomocou SQL

Ak chcete používať SQL Serverless na čítanie údajov zo služby OneLake zo služby Azure Synapse Analytics, použite SQL Serverless.

  1. Otvorte službu Fabric lakehouse a identifikujte tabuľku, ktorú chcete dotazovať zo Synapse.

  2. Kliknite pravým tlačidlom myši na tabuľku a vyberte položku Vlastnosti.

  3. Skopírujte cestu ABFS k tabuľke.

    Screenshot showing where to copy the ABFS path.

  4. Otvorte pracovný priestor Synapse v synapse Studiu.

  5. Vytvorte nový skript SQL.

  6. V editore dotazov SQL zadajte nasledujúci dotaz, ktorý ABFS_PATH_HERE nahradíte cestou, ktorú ste predtým skopírovali.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Spustením dotazu zobrazíte prvých 10 riadkov tabuľky.

Blahoželáme. Teraz môžete čítať údaje z OneLake pomocou sql serverless v službe Azure Synapse Analytics.