Partilhar via


Integrar o OneLake com o Azure Synapse Analytics

O Azure Synapse é um serviço de análise sem limites que reúne o armazenamento de dados empresariais e análise de macrodados. Este tutorial mostra como se conectar ao OneLake usando o Azure Synapse Analytics.

Gravar dados do Synapse usando o Apache Spark

Siga estas etapas para usar o Apache Spark para gravar dados de exemplo no OneLake a partir do Azure Synapse Analytics.

  1. Abra seu espaço de trabalho Synapse e crie um pool Apache Spark com seus parâmetros preferidos.

    Screenshot showing where to select New in the Apache Spark pool screen.

  2. Crie um novo bloco de anotações Apache Spark.

  3. Abra o bloco de anotações, defina o idioma como PySpark (Python) e conecte-o ao pool do Spark recém-criado.

  4. Em uma guia separada, navegue até o lago do Microsoft Fabric e localize a pasta Tabelas de nível superior.

  5. Clique com o botão direito do mouse na pasta Tabelas e selecione Propriedades.

    Screenshot showing where to open the Properties pane lakehouse explorer.

  6. Copie o caminho ABFS do painel de propriedades.

    Screenshot showing where to copy the ABFS path.

  7. De volta ao bloco de anotações do Azure Synapse, na primeira nova célula de código, forneça o caminho lakehouse. Este lakehouse é onde seus dados são gravados mais tarde. Execute a célula.

    # Replace the path below with the ABFS path to your lakehouse Tables folder. 
    oneLakePath = 'abfss://WorkspaceName@onelake.dfs.fabric.microsoft.com/LakehouseName.lakehouse/Tables'
    
  8. Em uma nova célula de código, carregue dados de um conjunto de dados aberto do Azure em um dataframe. Este conjunto de dados é aquele que você carrega em sua casa do lago. Execute a célula.

    yellowTaxiDf = spark.read.parquet('wasbs://nyctlc@azureopendatastorage.blob.core.windows.net/yellow/puYear=2018/puMonth=2/*.parquet')
    display(yellowTaxiDf.limit(10))
    
  9. Em uma nova célula de código, filtre, transforme ou prepare seus dados. Para esse cenário, você pode reduzir seu conjunto de dados para carregamento mais rápido, unir com outros conjuntos de dados ou filtrar para resultados específicos. Execute a célula.

    filteredTaxiDf = yellowTaxiDf.where(yellowTaxiDf.tripDistance>2).where(yellowTaxiDf.passengerCount==1)
    display(filteredTaxiDf.limit(10))
    
  10. Em uma nova célula de código, usando seu caminho OneLake, escreva seu dataframe filtrado em uma nova tabela Delta-Parquet em sua casa do lago Fabric. Execute a célula.

    filteredTaxiDf.write.format("delta").mode("overwrite").save(oneLakePath + '/Taxi/')
    
  11. Finalmente, em uma nova célula de código, teste se seus dados foram gravados com êxito lendo o arquivo recém-carregado do OneLake. Execute a célula.

    lakehouseRead = spark.read.format('delta').load(oneLakePath + '/Taxi/')
    display(lakehouseRead.limit(10))
    

Parabéns! Agora você pode ler e gravar dados no OneLake usando o Apache Spark no Azure Synapse Analytics.

Ler dados do Synapse usando SQL

Siga estas etapas para usar o SQL serverless para ler dados do OneLake do Azure Synapse Analytics.

  1. Abra uma casa de lago de tecido e identifique uma tabela que você gostaria de consultar da Sinapse.

  2. Clique com o botão direito do mouse na tabela e selecione Propriedades.

  3. Copie o caminho ABFS para a tabela.

    Screenshot showing where to copy the ABFS path.

  4. Abra o espaço de trabalho Synapse no Synapse Studio.

  5. Crie um novo script SQL.

  6. No editor de consultas SQL, insira a consulta a seguir, substituindo ABFS_PATH_HERE pelo caminho copiado anteriormente.

    SELECT TOP 10 *
    FROM OPENROWSET(
    BULK 'ABFS_PATH_HERE',
    FORMAT = 'delta') as rows;
    
  7. Execute a consulta para ver as 10 primeiras linhas da tabela.

Parabéns! Agora você pode ler dados do OneLake usando SQL serverless no Azure Synapse Analytics.