Considerações de armazenamento ao utilizar piscinas SQL sem servidor Azure Synapse

Concluído

À medida que as empresas implementam aplicações nativas de nuvem sensíveis ao desempenho, é importante ter opções para armazenamento de dados rentáveis em diferentes níveis de desempenho.

O armazenamento de blob de bloco azure oferece dois níveis de desempenho diferentes:

  • Premium: otimizado para altas taxas de transação e latência de armazenamento consistente de um dígito
  • Standard: otimizado para alta capacidade e alta produção

O armazenamento de blob de bloco de desempenho premium disponibiliza os dados através de hardware de alto desempenho. Os dados são armazenados em unidades de estado sólido (SSDs) que são otimizadas para baixa latência. Os SSDs fornecem uma produção mais elevada em comparação com os discos rígidos tradicionais.

O armazenamento de desempenho premium é ideal para cargas de trabalho que requerem tempos de resposta rápidos e consistentes. É melhor para cargas de trabalho que realizam muitas pequenas transações. Exemplo de cargas de trabalho incluem:

Cargas de trabalho interativas.

Estas cargas de trabalho requerem atualizações instantâneas e feedback do utilizador, como aplicações de e-commerce e mapeamento. Por exemplo, numa aplicação de e-commerce, os itens menos vistos provavelmente não são em cache. No entanto, devem ser exibidos instantaneamente ao cliente a pedido.

A análise.

Num cenário IoT, muitas operações de escrita menores podem ser empurradas para a nuvem a cada segundo. Grandes quantidades de dados podem ser recolhidos, agregados para fins de análise, e depois eliminados quase imediatamente. As elevadas capacidades de ingestão de blocos de armazenamento premium tornam-no eficiente para este tipo de carga de trabalho.

Inteligência artificial/aprendizagem automática (IA/ML).

A IA/ML trata do consumo e processamento de diferentes tipos de dados, como visuais, fala e texto. Este tipo de carga de trabalho de alta qualidade lida com grandes quantidades de dados que requerem uma resposta rápida e tempos de ingestão eficientes para análise de dados.

Transformação de dados.

Processos que requerem edição, modificação e conversão constante de dados requerem atualizações instantâneas. Para uma representação precisa dos dados, os consumidores destes dados devem ver estas alterações refletidas imediatamente.

A Azure Data Lake Storage Gen2 fornece o desempenho do sistema de ficheiros à escala de armazenamento de objetos e preços usando a funcionalidade hierárquica do espaço de identificação. Isto permite que a recolha de objetos/ficheiros dentro de uma conta seja organizada numa hierarquia de diretórios e subdiretórios aninhados da mesma forma que o sistema de ficheiros no seu computador está organizado. Com um espaço hierárquico habilitado, uma conta de armazenamento torna-se capaz de fornecer a escalabilidade e rentabilidade do armazenamento de objetos, com semântica do sistema de ficheiros que são familiares aos motores e estruturas de análise.

Os seguintes benefícios estão associados a sistemas de ficheiros que implementam um espaço hierárquico de nomes sobre dados blob:

  • Manipulação do diretório atómico: O objeto armazena aproximadamente uma hierarquia de diretório adotando uma convenção de incorporação de cortes (/) no nome do objeto para denotar segmentos de caminhos. Embora esta convenção trabalhe para a organização de objetos, a convenção não fornece assistência para ações como mover, renomear ou eliminar diretórios. Sem diretórios reais, as aplicações devem processar potencialmente milhões de bolhas individuais para realizar tarefas ao nível do diretório. Em contraste, um espaço hierárquico processa estas tarefas atualizando uma única entrada (o diretório principal).

Esta otimização dramática é especialmente significativa para muitos quadros de análise de dados grandes. Ferramentas como Hive, Spark, etc. muitas vezes escrevem a saída para locais temporários e, em seguida, renomeam a localização no final do trabalho. Sem um espaço hierárquico, este renome pode muitas vezes demorar mais tempo do que o próprio processo de análise. A menor latência do emprego equivale a um menor custo total de propriedade (TCO) para cargas de trabalho analíticas.

  • Estilo de Interface Familiar: Os sistemas de ficheiros são bem compreendidos tanto pelos desenvolvedores como pelos utilizadores. Não há necessidade de aprender um novo paradigma de armazenamento quando se muda para a nuvem, uma vez que a interface do sistema de ficheiros exposta pela Data Lake Storage Gen2 é o mesmo paradigma usado pelos computadores, grandes e pequenos.

Uma das razões pelas quais as lojas de objetos não têm historicamente suportado um espaço hierárquico de nomes é que uma escala hierárquica de espaço de nome. No entanto, o espaço hierárquico de armazenamento de dados Gen2 escala linearmente e não degrada nem a capacidade de dados nem o desempenho.

Praticamente falando, se você está procurando o melhor desempenho para piscina SQL sem servidor você deve ir para O nível premium de armazenamento de dados de dados de dados gen2. Por favor, note que esta oferta tem o maior custo.