O que é Azure Synapse Data Explorer? (Pré-visualização)

Artigo
09/08/2023

Azure Synapse Data Explorer fornece aos clientes uma experiência de consulta interativa para desbloquear informações de dados de registo e telemetria. Para complementar os motores de runtime de análise do SQL e do Apache Spark existentes, o Data Explorer runtime de análise é otimizado para análise de registos eficiente com tecnologia de indexação avançada para indexar automaticamente dados semiestruturados e de texto livre, normalmente encontrados em dados telemétricos.

Diagrama a mostrar a arquitetura Azure Synapse.

Para saber mais, veja o seguinte vídeo:

O que torna Azure Synapse Data Explorer exclusivo?

Ingestão fácil - Data Explorer oferece integrações incorporadas para ingestão de dados sem código/baixo código, ingestão de dados de alto débito e colocação em cache de dados de origens em tempo real. Os dados podem ser ingeridos a partir de origens como Hubs de Eventos do Azure, Kafka, Azure Data Lake, open source agentes como Fluentd/Fluent Bit e uma grande variedade de origens de dados na cloud e no local.
Sem modelação de dados complexa – com Data Explorer, não é necessário criar modelos de dados complexos e não é necessário criar scripts complexos para transformar dados antes de serem consumidos.
Sem manutenção de índices – não é necessário que as tarefas de manutenção otimizem os dados para o desempenho das consultas e não sejam necessários para a manutenção do índice. Com Data Explorer, todos os dados não processados estão disponíveis imediatamente, o que lhe permite executar consultas de alto desempenho e de elevada simultaneidade na sua transmissão em fluxo e dados persistentes. Pode utilizar estas consultas para criar dashboards e alertas quase em tempo real e ligar dados de análise operacional com o resto da plataforma de análise de dados.
Democratizar a análise de dados - Data Explorer democratiza a análise personalizada e de macrodados com o Linguagem de Pesquisa Kusto intuitivo (KQL) que proporciona a expressividade e o poder do SQL com a simplicidade do Excel. O KQL está altamente otimizado para explorar dados de telemetria e série temporal não processados ao tirar partido da melhor tecnologia de indexação de texto da Data Explorer para uma pesquisa eficiente de texto livre e regex, bem como capacidades de análise abrangentes para consultar rastreios\dados de texto e dados semiestruturados JSON, incluindo matrizes e estruturas aninhadas. O KQL oferece suporte de série temporal avançada para criar, manipular e analisar várias séries temporais com suporte de execução python no motor para classificação de modelos.
Tecnologia comprovada à escala de petabytes - Data Explorer é um sistema distribuído com recursos de computação e armazenamento que pode ser dimensionado de forma independente, permitindo análises em gigabytes ou petabytes de dados.
Integrado - Azure Synapse Analytics fornece interoperabilidade entre dados entre Data Explorer, Apache Spark e motores SQL que capacitam engenheiros de dados, cientistas de dados e analistas de dados para aceder e colaborar facilmente e de forma segura nos mesmos dados no data lake.

Quando utilizar Azure Synapse Data Explorer?

Utilize Data Explorer como uma plataforma de dados para criar análises de registos quase em tempo real e soluções de análise de IoT para:

Consolidar e correlacionar os dados de registos e eventos em origens de dados no local, na cloud e em terceiros.
Acelere o percurso das Operações de IA (reconhecimento de padrões, deteção de anomalias, previsão e muito mais).
Substitua as soluções de pesquisa de registos baseadas em infraestrutura para poupar custos e aumentar a produtividade.
Crie soluções de análise de IoT para os seus dados IoT.
Crie soluções SaaS de análise para oferecer serviços aos seus clientes internos e externos.

arquitetura do conjunto de Data Explorer

Data Explorer conjuntos implementam uma arquitetura de escalamento horizontal ao separar os recursos de computação e armazenamento. Isto permite-lhe dimensionar cada recurso de forma independente e, por exemplo, executar vários cálculos só de leitura nos mesmos dados. Data Explorer conjuntos consistem num conjunto de recursos de computação que executam o motor responsável pela indexação automática, compressão, colocação em cache e serviço de consultas distribuídas. Também têm um segundo conjunto de recursos de computação a executar o serviço de gestão de dados responsável por tarefas de sistema em segundo plano e ingestão de dados geridos e em fila. Todos os dados são mantidos em contas de armazenamento de blobs geridas com um formato columnar comprimido.

Data Explorer conjuntos suportam um ecossistema avançado para ingerir dados com conectores, SDKs, APIs REST e outras capacidades geridas. Oferece várias formas de consumir dados para consultas ad hoc, relatórios, dashboards, alertas, APIs REST e SDKs.

arquitetura de conjuntos de Data Explorer

Existem muitas capacidades exclusivas que tornam a Exploração de Dados o melhor motor analítico para análise de séries de registos e tempo no Azure.

As secções seguintes realçam os principais diferenciadores.

A indexação de dados semiestruturados e texto livre permite consultas simultâneas e de elevado desempenho quase em tempo real

Data Explorer indexa dados semiestruturados (JSON) e dados não estruturados (texto livre), o que faz com que as consultas em execução funcionem bem neste tipo de dados. Por predefinição, todos os campos são indexados durante a ingestão de dados com a opção de utilizar uma política de codificação de baixo nível para ajustar ou desativar o índice para campos específicos. O âmbito do índice é uma única partição horizontal de dados.

A implementação do índice depende do tipo do campo, da seguinte forma:

Tipo de campo	Implementação da indexação
String	O motor cria um índice de termos invertido para valores de colunas de cadeia. Cada valor de cadeia é analisado e dividido em termos normalizados e é registada uma lista ordenada de posições lógicas, que contêm ordinais de registos, para cada termo. A lista ordenada resultante de termos e respetivas posições associadas é armazenada como uma árvore B imutável.
Numérico DateTime TimeSpan	O motor cria um índice de reencaminhamento simples baseado no intervalo. O índice regista os valores mínimo/máximo para cada bloco, para um grupo de blocos e para toda a coluna dentro da partição horizontal de dados.
Dinâmico	O processo de ingestão enumera todos os elementos "atómicos" dentro do valor dinâmico, como nomes de propriedades, valores e elementos de matriz, e reencaminha-os para o construtor de índices. Os campos dinâmicos têm o mesmo índice de termos invertidos que os campos de cadeia.

Estas capacidades de indexação eficientes permitem que o Data Explore disponibilize os dados em tempo quase real para consultas de alto desempenho e de elevada simultaneidade. O sistema otimiza automaticamente as partições horizontais de dados para aumentar ainda mais o desempenho.

Kusto Query Language

A KQL tem uma comunidade grande e em crescimento com a rápida adoção do Log Analytics do Azure Monitor e do Application Insights, Microsoft Sentinel, Data Explorer do Azure e outras ofertas da Microsoft. O idioma foi bem concebido com uma sintaxe fácil de ler e proporciona uma transição suave de consultas simples de processamento de dados one-liner para complexas. Isto permite Data Explorer fornecer suporte avançado do Intellisense e um conjunto avançado de construções linguísticas e capacidades incorporadas para agregações, séries de tempo e análise de utilizadores que não estão disponíveis no SQL para exploração rápida de dados telemétricos.

Share via