Dela via


Integrera OneLake med Azure Synapse Analytics

Azure Synapse är en gränslös analystjänst som samlar företagsdatalager och stordataanalys. Den här självstudien visar hur du ansluter till OneLake med Hjälp av Azure Synapse Analytics.

Skriva data från Synapse med Apache Spark

Följ dessa steg för att använda Apache Spark för att skriva exempeldata till OneLake från Azure Synapse Analytics.

  1. Öppna Synapse-arbetsytan och skapa en Apache Spark-pool med önskade parametrar.

    Screenshot showing where to select New in the Apache Spark pool screen.

  2. Skapa en ny Apache Spark-notebook-fil.

  3. Öppna anteckningsboken, ange språket till PySpark (Python) och anslut det till din nyligen skapade Spark-pool.

  4. Gå till din Microsoft Fabric Lakehouse på en separat flik och leta reda på mappen Tabeller på den översta nivån.

  5. Högerklicka på mappen Tabeller och välj Egenskaper.

    Screenshot showing where to open the Properties pane lakehouse explorer.

  6. Kopiera ABFS-sökvägen från egenskapsfönstret.

    Screenshot showing where to copy the ABFS path.

  7. Tillbaka i Azure Synapse-notebook-filen i den första nya kodcellen anger du lakehouse-sökvägen. Det här lakehouse är där dina data skrivs senare. Kör cellen.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. I en ny kodcell läser du in data från en öppen Azure-datauppsättning till en dataram. Den här datamängden är den du läser in i ditt sjöhus. Kör cellen.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. I en ny kodcell filtrerar, transformerar eller förbereder du dina data. I det här scenariot kan du trimma datamängden för snabbare inläsning, ansluta till andra datauppsättningar eller filtrera ned till specifika resultat. Kör cellen.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. I en ny kodcell skriver du din filtrerade dataram med din OneLake-sökväg till en ny Delta-Parquet-tabell i fabric lakehouse. Kör cellen.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. I en ny kodcell testar du slutligen att dina data har skrivits genom att läsa den nyligen inlästa filen från OneLake. Kör cellen.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Grattis! Nu kan du läsa och skriva data i OneLake med Apache Spark i Azure Synapse Analytics.

Läsa data från Synapse med SQL

Följ de här stegen för att använda SQL Serverless för att läsa data från OneLake från Azure Synapse Analytics.

  1. Öppna en Infrastruktursjöhus och identifiera en tabell som du vill fråga från Synapse.

  2. Högerklicka på tabellen och välj Egenskaper.

  3. Kopiera ABFS-sökvägen för tabellen.

    Screenshot showing where to copy the ABFS path.

  4. Öppna Synapse-arbetsytan i Synapse Studio.

  5. Skapa ett nytt SQL-skript.

  6. I SQL-frågeredigeraren anger du följande fråga och ABFS_PATH_HERE ersätter med sökvägen som du kopierade tidigare.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Kör frågan för att visa de 10 översta raderna i tabellen.

Grattis! Nu kan du läsa data från OneLake med sql serverlös i Azure Synapse Analytics.