Ligar a origens de dados

Artigo
03/18/2024

Este artigo fornece recomendações opinativas sobre como os administradores e outros usuários avançados podem configurar conexões entre o Azure Databricks e fontes de dados. Se você estiver tentando determinar se tem acesso para ler dados de um sistema externo, comece examinando os dados aos quais você tem acesso em seu espaço de trabalho. Consulte Descobrir dados.

Você pode conectar sua conta do Azure Databricks a fontes de dados, como armazenamento de objetos na nuvem, sistemas de gerenciamento de banco de dados relacional, serviços de streaming de dados e plataformas corporativas, como CRMs. Os privilégios específicos necessários para configurar conexões dependem da fonte de dados, de como as permissões em seu espaço de trabalho do Azure Databricks são configuradas, das permissões necessárias para interagir com os dados na fonte, do seu modelo de governança de dados e do seu método preferido de conexão.

A maioria dos métodos requer privilégios elevados na fonte de dados e no espaço de trabalho do Azure Databricks para configurar as permissões necessárias para integrar sistemas. Os usuários sem essas permissões devem solicitar ajuda. Consulte Solicitar acesso a fontes de dados.

Configurar conexões de armazenamento de objetos

O armazenamento de objetos na nuvem fornece a base para armazenar a maioria dos dados no Azure Databricks. Para saber mais sobre o armazenamento de objetos na nuvem e onde o Azure Databricks armazena dados, consulte Onde o Azure Databricks grava dados?.

O Databricks recomenda o uso do Unity Catalog para configurar o acesso ao armazenamento de objetos na nuvem. O Unity Catalog fornece governança de dados para dados estruturados e não estruturados no armazenamento de objetos em nuvem. Consulte Conectar-se ao armazenamento de objetos na nuvem usando o Unity Catalog.

Os clientes que não usam o Unity Catalog devem configurar conexões usando métodos herdados. Consulte Configurar o acesso ao armazenamento de objetos na nuvem para o Azure Databricks.

Para configurar a rede para o armazenamento de objetos na nuvem, consulte Rede.

Configurar conexões com sistemas de dados externos

A Databricks recomenda várias opções para configurar conexões com sistemas de dados externos, dependendo de suas necessidades. A tabela a seguir fornece uma visão geral de alto nível dessas opções:

Opção	Description
Federação Lakehouse	Fornece acesso somente leitura a dados em sistemas de dados corporativos. As conexões são configuradas através do Unity Catalog no nível do catálogo ou do esquema, sincronizando várias tabelas com uma única configuração. Veja O que é Lakehouse Federation.
Conexão de parceiros	Aproveita as soluções de parceiros de tecnologia para se conectar a fontes de dados externas e automatizar a ingestão de dados para a casa do lago. Algumas soluções também incluem ETL reverso e acesso direto aos dados do lakehouse a partir de sistemas externos. Consulte O que é o Databricks Partner Connect?
Controladores	O Azure Databricks inclui drivers para sistemas de dados externos em cada Databricks Runtime. Opcionalmente, você pode instalar drivers de terceiros para acessar dados em outros sistemas. Você deve configurar conexões para cada tabela. Alguns drivers incluem acesso de gravação. Consulte Ligar a sistemas externos.
JDBC	Vários drivers incluídos para sistemas externos se baseiam no suporte nativo a JDBC, e a opção JDBC fornece opções extensíveis para configurar conexões com outros sistemas. Você deve configurar conexões para cada tabela. Consulte Consultar bancos de dados usando JDBC.

Conectar-se a fontes de dados de streaming

O Azure Databricks fornece conectores otimizados para muitos sistemas de streaming de dados.

Para todas as fontes de dados de streaming, você deve gerar credenciais que forneçam acesso e carregue essas credenciais no Azure Databricks. O Databricks recomenda armazenar credenciais usando segredos, porque você pode usar segredos para todas as opções de configuração e em todos os modos de acesso.

Todos os conectores de dados para fontes de streaming oferecem suporte à passagem de credenciais usando opções quando você define consultas de streaming. Consulte Configurar fontes de dados de streaming.

Solicitar acesso a fontes de dados

Em muitas organizações, a maioria dos usuários não tem privilégios suficientes no Azure Databricks ou em fontes de dados externas para configurar conexões de dados.

Sua organização pode já ter configurado o acesso a uma fonte de dados usando um dos padrões descritos nos artigos vinculados a partir desta página. Se sua organização tem um processo bem definido para solicitar acesso aos dados, o Databricks recomenda seguir esse processo.

Se você não tiver certeza de como obter acesso a uma fonte de dados, este procedimento pode ajudá-lo a:

Use o Gerenciador de Catálogos para exibir as tabelas e volumes que você pode acessar. Consulte O que é o Catalog Explorer?.
Pergunte aos seus colegas de equipe ou gerentes sobre as fontes de dados que eles podem acessar.
- A maioria das organizações usa grupos sincronizados de seu provedor de identidade (por exemplo: Okta ou Microsoft Entra ID (anteriormente Azure Ative Directory)) para gerenciar permissões para usuários do espaço de trabalho. Se outros membros da sua equipe puderem acessar fontes de dados às quais você precisa acessar, peça a um administrador do espaço de trabalho que o adicione ao grupo correto para conceder acesso.
- Se uma determinada tabela, volume ou fonte de dados tiver sido configurada por um colega de trabalho, essa pessoa deverá ter permissões para conceder acesso aos dados.
Algumas organizações configuram permissões de acesso a dados por meio de configurações em clusters de computação e armazéns SQL.
- O acesso às fontes de dados pode variar de acordo com a computação.
- Você pode visualizar o criador de computação na guia Computação . Entre em contato com o criador para perguntar sobre fontes de dados que devem ser acessíveis.