O que é o Azure Databricks?

O Azure Databricks é uma plataforma de análise unificada e aberta para criar, implementar, partilhar e manter dados, análises e soluções de IA de nível empresarial em escala. A Databricks Data Intelligence Platform integra-se com o armazenamento e a segurança na nuvem na sua conta na nuvem e gere e implementa a infraestrutura na nuvem em seu nome.

Como funciona uma plataforma de inteligência de dados?

O Azure Databricks usa IA generativa com o data lakehouse para entender a semântica exclusiva de seus dados. Em seguida, ele otimiza automaticamente o desempenho e gerencia a infraestrutura para atender às suas necessidades de negócios.

O processamento de linguagem natural aprende o idioma da sua empresa, para que você possa pesquisar e descobrir dados fazendo uma pergunta com suas próprias palavras. A assistência em linguagem natural ajuda você a escrever código, solucionar erros e encontrar respostas na documentação.

Finalmente, seus dados e aplicativos de IA podem contar com forte governança e segurança. Você pode integrar APIs como OpenAI sem comprometer a privacidade de dados e o controle de IP.

Para que é usado o Azure Databricks?

O Azure Databricks fornece ferramentas que ajudam você a conectar suas fontes de dados a uma plataforma para processar, armazenar, compartilhar, analisar, modelar e monetizar conjuntos de dados com soluções de BI a IA generativa.

O espaço de trabalho do Azure Databricks fornece uma interface unificada e ferramentas para a maioria das tarefas de dados, incluindo:

  • Programação e gestão do processamento de dados, em particular ETL
  • Geração de painéis e visualizações
  • Gerenciando segurança, governança, alta disponibilidade e recuperação de desastres
  • Descoberta, anotação e exploração de dados
  • Modelagem, acompanhamento e serviço de modelos de aprendizagem automática (ML)
  • Soluções de IA generativa

Integração gerenciada com código aberto

A Databricks tem um forte compromisso com a comunidade de código aberto. O Databricks gerencia atualizações de integrações de código aberto nas versões do Databricks Runtime. As seguintes tecnologias são projetos de código aberto originalmente criados por funcionários da Databricks:

Ferramentas e acesso programático

O Azure Databricks mantém várias ferramentas proprietárias que integram e expandem essas tecnologias para adicionar desempenho otimizado e facilidade de uso, como as seguintes:

Além da interface do usuário do espaço de trabalho, você pode interagir com o Azure Databricks programaticamente com as seguintes ferramentas:

  • API REST
  • CLI
  • Terraform

Como o Azure Databricks funciona com o Azure?

A arquitetura da plataforma Azure Databricks compreende duas partes principais:

  • A infraestrutura usada pelo Azure Databricks para implantar, configurar e gerenciar a plataforma e os serviços.
  • A infraestrutura de propriedade do cliente gerenciada em colaboração pelo Azure Databricks e sua empresa.

Ao contrário de muitas empresas de dados empresariais, o Azure Databricks não força você a migrar seus dados para sistemas de armazenamento proprietários para usar a plataforma. Em vez disso, você configura um espaço de trabalho do Azure Databricks configurando integrações seguras entre a plataforma Azure Databricks e sua conta de nuvem e, em seguida, o Azure Databricks implanta clusters de computação usando recursos de nuvem em sua conta para processar e armazenar dados no armazenamento de objetos e outros serviços integrados que você controla.

O Unity Catalog estende ainda mais essa relação, permitindo que você gerencie permissões para acessar dados usando a sintaxe SQL familiar de dentro do Azure Databricks.

Os espaços de trabalho do Azure Databricks atendem aos requisitos de segurança e rede de algumas das maiores e mais preocupadas com a segurança do mundo. O Azure Databricks facilita a entrada de novos usuários na plataforma. Ele elimina muitos dos encargos e preocupações de trabalhar com infraestrutura de nuvem, sem limitar as personalizações e o controle de dados, operações e equipes de segurança experientes.

Quais são os casos de uso comuns do Azure Databricks?

Os casos de uso no Azure Databricks são tão variados quanto os dados processados na plataforma e as muitas personas de funcionários que trabalham com dados como parte essencial de seu trabalho. Os casos de uso a seguir destacam como os usuários em toda a sua organização podem aproveitar o Azure Databricks para realizar tarefas essenciais para processar, armazenar e analisar os dados que impulsionam funções e decisões críticas de negócios.

Construa um data lakehouse corporativo

O data lakehouse combina os pontos fortes dos data warehouses corporativos e data lakes para acelerar, simplificar e unificar as soluções de dados corporativos. Engenheiros de dados, cientistas de dados, analistas e sistemas de produção podem usar o data lakehouse como sua única fonte de verdade, permitindo o acesso oportuno a dados consistentes e reduzindo as complexidades da construção, manutenção e sincronização de muitos sistemas de dados distribuídos. Consulte O que é um data lakehouse?.

ETL e engenharia de dados

Quer esteja a gerar dashboards ou a alimentar aplicações de inteligência artificial, a engenharia de dados fornece a espinha dorsal para empresas centradas em dados, certificando-se de que os dados estão disponíveis, limpos e armazenados em modelos de dados que permitem a deteção e utilização eficientes. O Azure Databricks combina o poder do Apache Spark com o Delta Lake e ferramentas personalizadas para fornecer uma experiência ETL (extrair, transformar, carregar) incomparável. Você pode usar SQL, Python e Scala para compor a lógica ETL e, em seguida, orquestrar a implantação de trabalho agendado com apenas alguns cliques.

O Delta Live Tables simplifica ainda mais o ETL, gerenciando de forma inteligente as dependências entre conjuntos de dados e implantando e dimensionando automaticamente a infraestrutura de produção para garantir a entrega oportuna e precisa de dados de acordo com suas especificações.

O Azure Databricks fornece várias ferramentas personalizadas para ingestão de dados, incluindo o Auto Loader, uma ferramenta eficiente e escalável para carregar dados de forma incremental e idempotente do armazenamento de objetos na nuvem e data lakes para o data lakehouse.

Aprendizado de máquina, IA e ciência de dados

O aprendizado de máquina do Azure Databricks expande a funcionalidade principal da plataforma com um conjunto de ferramentas adaptadas às necessidades de cientistas de dados e engenheiros de ML, incluindo MLflow e Databricks Runtime for Machine Learning.

Grandes modelos de linguagem e IA generativa

O Databricks Runtime for Machine Learning inclui bibliotecas como o Hugging Face Transformers que permitem integrar modelos pré-treinados existentes ou outras bibliotecas de código aberto ao seu fluxo de trabalho. A integração do Databricks MLflow facilita o uso do serviço de rastreamento MLflow com tubulações, modelos e componentes de processamento de transformadores. Além disso, você pode integrar modelos ou soluções OpenAI de parceiros como John Snow Labs em seus fluxos de trabalho Databricks.

Com o Azure Databricks, você pode personalizar um LLM em seus dados para sua tarefa específica. Com o suporte de ferramentas de código aberto, como Hugging Face e DeepSpeed, você pode fazer um LLM básico de forma eficiente e começar a treinar com seus próprios dados para ter mais precisão para seu domínio e carga de trabalho.

Além disso, o Azure Databricks fornece funções de IA que os analistas de dados SQL podem usar para acessar modelos LLM, inclusive da OpenAI, diretamente em seus pipelines de dados e fluxos de trabalho. Consulte Funções de IA no Azure Databricks.

Data warehousing, análise e BI

O Azure Databricks combina interfaces de usuário amigáveis com recursos de computação econômicos e armazenamento infinitamente escalável e acessível para fornecer uma plataforma poderosa para executar consultas analíticas. Os administradores configuram clusters de computação escaláveis como armazéns SQL, permitindo que os usuários finais executem consultas sem se preocupar com nenhuma das complexidades de trabalhar na nuvem. Os usuários do SQL podem executar consultas em dados na lakehouse usando o editor de consultas SQL ou em blocos de anotações. Os notebooks suportam Python, R e Scala, além de SQL, e permitem que os usuários incorporem as mesmas visualizações disponíveis em painéis herdados ao lado de links, imagens e comentários escritos em markdown.

Governação de dados e partilha segura de dados

O Unity Catalog fornece um modelo unificado de governança de dados para o data lakehouse. Os administradores de nuvem configuram e integram permissões de controle de acesso grosseiro para o Catálogo Unity e, em seguida, os administradores do Azure Databricks podem gerenciar permissões para equipes e indivíduos. Os privilégios são gerenciados com listas de controle de acesso (ACLs) por meio de interfaces de usuário amigáveis ou sintaxe SQL, tornando mais fácil para os administradores de banco de dados proteger o acesso aos dados sem a necessidade de dimensionar o gerenciamento de acesso a identidades (IAM) nativo da nuvem e a rede.

O Unity Catalog simplifica a execução de análises seguras na nuvem e fornece uma divisão de responsabilidades que ajuda a limitar a requalificação ou o aperfeiçoamento necessário para administradores e usuários finais da plataforma. Veja O que é o Unity Catalog?.

O lakehouse torna o compartilhamento de dados dentro de sua organização tão simples quanto conceder acesso de consulta a uma tabela ou exibição. Para compartilhar fora do seu ambiente seguro, o Unity Catalog apresenta uma versão gerenciada do Delta Sharing.

DevOps, CI/CD e orquestração de tarefas

Os ciclos de vida de desenvolvimento para pipelines de ETL, modelos de ML e painéis de análise apresentam seus próprios desafios exclusivos. O Azure Databricks permite que todos os seus usuários aproveitem uma única fonte de dados, o que reduz esforços duplicados e relatórios fora de sincronização. Além disso, fornecendo um conjunto de ferramentas comuns para controle de versão, automatização, agendamento, implantação de código e recursos de produção, você pode simplificar sua sobrecarga para monitoramento, orquestração e operações. Os fluxos de trabalho agendam blocos de anotações do Azure Databricks, consultas SQL e outros códigos arbitrários. As pastas Git permitem sincronizar projetos do Azure Databricks com vários provedores de git populares. Para obter uma visão geral completa das ferramentas, consulte Orientações e ferramentas para desenvolvedores.

Análise em tempo real e streaming

O Azure Databricks aproveita o Apache Spark Structured Streaming para trabalhar com dados de streaming e alterações incrementais de dados. O Streaming Estruturado integra-se perfeitamente com o Delta Lake, e essas tecnologias fornecem as bases para as Mesas Delta Live e o Auto Loader. Consulte Streaming no Azure Databricks.