Compartilhar via


Explore dados em seu banco de dados espelhado com blocos de anotações

É possível explorar os dados duplicados do banco de dados espelhado com consultas do Spark em blocos de anotações.

Os blocos de anotações são um item de código poderoso para você desenvolver trabalhos do Apache Spark e experimentos de aprendizado de máquina em seus dados. É possível usar blocos de anotações no Fabric Lakehouse para explorar as tabelas espelhadas.

Pré-requisitos

Criar um atalho

Primeiro, você precisa criar um atalho de suas tabelas espelhadas para o Lakehouse e, em seguida, criar blocos de anotações com consultas do Spark em seu Lakehouse.

  1. No portal Fabric, abra Engenharia de Dados.

  2. Se você ainda não tem uma Lakehouse criada, selecione Lakehouse e crie uma nova Lakehouse dando-lhe um nome.

  3. Selecione Obter dados -> Novo atalho.

  4. Selecione Microsoft OneLake.

  5. É possível ver todos os bancos de dados espelhados no espaço de trabalho do Fabric.

  6. Selecione o banco de dados espelhado que você deseja adicionar ao seu Lakehouse, como um atalho.

  7. Selecione as tabelas desejadas no banco de dados espelhado.

  8. Selecione Avançar e, em seguida, Criar.

  9. No Explorer, agora é possível ver os dados da tabela selecionada no Lakehouse. Captura de tela do portal Fabric, exibindo o Lakehouse Explorer exibindo as tabelas e dados espelhados do banco de dados.

    Dica

    É possível adicionar outros dados no Lakehouse diretamente ou usar atalhos como S3, ADLS Gen2. É possível navegar até o ponto de extremidade de análise SQL do Lakehouse e unir os dados em todas essas fontes com dados espelhados perfeitamente.

  10. Para explorar esses dados no Spark, selecione os ... pontos ao lado de qualquer tabela. Selecione Novo bloco de anotações ou Bloco de anotações existente para iniciar a análise. Captura de tela do portal do Fabric exibindo o menu de contexto para abrir uma tabela de banco de dados espelhada em um bloco de anotações.

  11. O bloco de anotações será aberto automaticamente e carregará o dataframe com uma consulta Spark SQL SELECT ... LIMIT 1000.

    • Os novos blocos de anotações podem levar até dois minutos para carregar completamente. É possível evitar esse atraso usando um bloco de anotações existente com uma sessão ativa. Captura de tela do portal do Fabric exibindo dados de uma tabela de banco de dados espelhada em um novo bloco de anotações com uma consulta SQL do Spark.