Partilhar via


Migrar aplicativos de dados para o Azure Databricks

Este artigo fornece uma introdução à migração de aplicativos de dados existentes para o Azure Databricks. O Azure Databricks fornece uma abordagem unificada que permite trabalhar com dados de vários sistemas de origem em uma única plataforma.

Para obter uma visão geral dos recursos da plataforma, consulte O que é o Azure Databricks?.

Para obter informações sobre como migrar entre versões do Databricks Runtime, consulte o guia de migração do Databricks Runtime.

Migrar trabalhos de ETL para o Azure Databricks

Você pode migrar trabalhos do Apache Spark usados para extrair, transformar e carregar dados de implementações locais ou nativas da nuvem para o Azure Databricks com apenas algumas etapas. Consulte Adaptar seu código Apache Spark existente para o Azure Databricks.

O Azure Databricks estende a funcionalidade do Spark SQL com integrações de código aberto pré-configuradas, integrações de parceiros e ofertas de produtos empresariais. Se suas cargas de trabalho de ETL forem escritas em SQL ou Hive, você poderá migrar para o Azure Databricks com refatoração mínima. Saiba mais sobre as ofertas SQL do Azure Databricks:

Para obter instruções específicas sobre como migrar de vários sistemas de origem para o Azure Databricks, consulte Migrar pipelines de ETL para o Azure Databricks.

Substitua seu data warehouse corporativo por um lakehouse

O Azure Databricks fornece valor e desempenho ideais quando as cargas de trabalho se alinham em torno dos dados armazenados na casa do lago. Muitas pilhas de dados corporativos incluem um data lake e um data warehouse corporativo, e as organizações criam fluxos de trabalho ETL complexos para tentar manter esses sistemas e dados sincronizados. O lakehouse permite que você use os mesmos dados, armazenados no data lake, em consultas e sistemas que geralmente dependem de um data warehouse separado. Para mais informações sobre a lakehouse, consulte O que é uma data lakehouse?. Para obter mais informações sobre armazenamento de dados no Databricks, consulte O que é armazenamento de dados no Azure Databricks?.

A migração de um data warehouse corporativo para o lakehouse geralmente envolve a redução da complexidade da arquitetura de dados e dos fluxos de trabalho, mas há algumas ressalvas e práticas recomendadas a serem lembradas ao concluir esse trabalho. Consulte Migrar seu data warehouse para o lago Databricks.

Unifique suas cargas de trabalho de ML, ciência de dados e análise

Como o lakehouse fornece acesso otimizado a arquivos de dados baseados em nuvem por meio de consultas de tabela ou caminhos de arquivos, você pode fazer ML, ciência de dados e análises em uma única cópia de seus dados. O Azure Databricks facilita a movimentação de cargas de trabalho de ferramentas de código aberto e proprietárias e mantém versões atualizadas de muitas das bibliotecas de código aberto usadas por analistas e cientistas de dados.

As cargas de trabalho do Pandas nos notebooks Jupyter podem ser sincronizadas e executadas usando as pastas Databricks Git. O Azure Databricks fornece suporte nativo para pandas em todas as versões do Databricks Runtime e configura muitas bibliotecas populares de ML e aprendizagem profunda no Databricks Runtime for Machine Learning. Se você sincronizar suas cargas de trabalho locais usando o Git e arquivos de espaço de trabalho em pastas Git, poderá usar os mesmos caminhos relativos para dados e bibliotecas personalizadas presentes em seu ambiente local.

Nota

Por padrão, o Azure Databricks mantém .ipynb extensões para blocos de anotações Jupyter sincronizados com pastas Git Databricks, mas converte automaticamente blocos de anotações Jupyter em blocos de anotações Databricks quando importados com a interface do usuário. Os notebooks Databricks são salvos com uma .py extensão, e assim podem viver lado a lado com os notebooks Jupyter em um repositório Git.