Guia da Arquitetura de Dados do Azure

Este guia apresenta uma abordagem estruturada à criação de soluções centradas em dados no Microsoft Azure. Baseia-se em práticas comprovadas que derivam das interações com o cliente.

Introdução

A cloud está a mudar a forma como as aplicações são concebidas, incluindo os métodos de processamento e armazenamento dos dados. Em vez de uma única base de dados para fins gerais que processa todos os dados de uma solução, as soluções de persistência poliglota utilizam vários arquivos de dados especializados, cada um otimizado para oferecer capacidades específicas. Desta forma, a perspetiva sobre os dados na solução muda. Já não existem várias camadas de lógica de negócio que leem e escrevem numa camada de dados individual. Em vez disso, as soluções são concebidas em torno de um pipeline de dados que descreve a forma como os dados fluem através de uma solução, na qual são processados, e como são consumidos pelo componente seguinte no pipeline.

Como este guia está estruturado

Este guia está estruturado em torno de duas categorias gerais de solução de dados, as cargas de trabalho RDBMS tradicionais e as soluções de macrodados.

Cargas de trabalho de RDBMS tradicionais. Estas cargas de trabalho incluem o processamento de transações online (OLTP) e processamento analítico online (OLAP). Normalmente, os dados em sistemas OLTP são dados relacionais com um esquema predefinido e um conjunto de restrições para manter a integridade referencial. Muitas vezes, os dados de várias origens na organização podem ser consolidados num armazém de dados, utilizando um processo ETL para mover e transformar os dados de origem.

Cargas de trabalho RDBMS tradicionais

Soluções de macrodados. As arquiteturas de macrodados servem para processar a ingestão, o processamento e a análise de dados que sejam demasiado grandes ou complexos para os sistemas de base de dados tradicionais. Os dados podem ser processados em lotes ou em tempo real. Normalmente, as soluções de macrodados envolvem uma grande quantidade de dados não relacionais, como dados de chave-valor, documentos JSON ou dados de série de tempo. Muitas vezes, os sistemas RDBMS tradicionais não são adequados para armazenar este tipo de dados. O termo NoSQL refere-se à família de bases de dados concebidas para conter dados não relacionais. (O termo não é totalmente exato, porque muitos arquivos de dados não relacionais suportam consultas compatíveis com SQL.)

Soluções de macrodados

Estas duas categorias não são mutuamente exclusivas e não existe sobreposição entre elas, mas achamos que é uma forma útil de enquadrar o debate. Em cada categoria, o guia abrange cenários comuns, incluindo os serviços do Azure relevantes e a arquitetura adequada para o cenário. Além disso, o guia compara opções tecnológicas para soluções de dados no Azure, incluindo opções de código aberto. Em cada categoria, descrevemos os principais critérios de seleção e uma matriz de capacidade para ajudá-lo a escolher a tecnologia certa para o seu cenário.

Este guia não se destina a ensinar-lhe sobre ciência de dados ou teoria de base de dados. Já existem inúmeros livros sobre estes tópicos. Em vez disso, o objetivo consiste em ajudá-lo a selecionar a arquitetura de dados ou pipeline de dados certos para o seu cenário para, em seguida, selecionar os serviços e tecnologias do Azure mais adequados às suas necessidades. Se já tiver uma arquitetura em mente, pode avançar diretamente para as opções de tecnologia.