Como funciona o Azure Data Explorer

Concluído

Nesta unidade, examinamos como o Azure Data Explorer funciona nos bastidores, discutindo os principais componentes do sistema. Em seguida, você aprenderá sobre como interagir com o serviço explorando um fluxo de trabalho comum:

  • Ingestão de dados
  • Linguagem de Consulta Kusto
  • Visualização de dados

Esse conhecimento ajuda você a decidir se o Azure Data Explorer é adequado às suas necessidades de dados.

Image representing architecture of Azure Data Explorer and data connections in and out of the service.

Principais componentes

Um cluster do Azure Data Explorer faz todo o trabalho para ingerir, processar e consultar seus dados. Os clusters são autoescaláveis de acordo com as suas necessidades. O Azure Data Explorer também armazena os dados no Armazenamento do Azure e armazena em cache alguns desses dados nos nós de computação do cluster para obter o desempenho ideal da consulta.

O que há em um cluster do Azure Data Explorer?

Cada cluster do Azure Data Explorer pode conter até 10.000 bancos de dados e cada banco de dados até 10.000 tabelas. Os dados em cada tabela são armazenados em fragmentos de dados, também chamados de extensões. Todos os dados são automaticamente indexados e particionados com base no tempo de ingestão. Ao contrário de um banco de dados relacional, não há restrições primárias de chave estrangeira ou quaisquer outras restrições, como exclusividade. Esse design significa que você pode armazenar grandes quantidades de dados variados. E devido à forma como é armazenado, você tem acesso rápido para consultá-lo.

A estrutura lógica de um banco de dados é semelhante a muitos outros bancos de dados relacionais. Um banco de dados do Azure Data Explorer pode conter:

  • Tabelas: Compostas por um conjunto de colunas. Cada coluna tem um dos nove tipos de dados diferentes.
  • Tabelas externas: tabelas cujo armazenamento subjacente está em outros locais, como o Azure Data Lake.

Conheça o fluxo de trabalho geral

De um modo geral, quando interage com o Azure Data Explorer, passa pelo seguinte fluxo de trabalho: Primeiro, você ingere seus dados para obtê-los no sistema. Em seguida, você analisa seus dados. Em seguida, você visualiza os resultados da sua análise. A qualquer momento, você também pode se envolver com os recursos de gerenciamento de dados. Esse trabalho com o Azure Data Explorer é feito por meio da interação com o cluster. Você pode acessar esses recursos na interface do usuário da Web ou usando SDKs.

Como faço para obter meus dados no Azure Data Explorer?

A ingestão de dados é o processo usado para carregar registros de dados de uma ou mais fontes em uma tabela no Azure Data Explorer. A manipulação adicional de dados inclui esquema de correspondência, organização, indexação, codificação e compactação dos dados. Em seguida, o Gerenciador de Dados confirma a ingestão de dados no mecanismo, onde está disponível para consulta.

Além do assistente nativo da interface do usuário da Web, há várias ferramentas de ingestão disponíveis. Incluindo os pipelines gerenciados, a Grade de Eventos, o Hub IoT e o Azure Data Factory. Você pode usar conectores e plug-ins, como o plug-in Logstash, conector Kafka, Power Automate e conector Apache Spark. Você também pode usar a ingestão programática usando SDKs ou LightIngest.

Os dados podem ser ingeridos em dois modos: Batching ou Streaming. A ingestão em lote é otimizada para alta taxa de transferência de ingestão e resultados de consulta rápidos. A ingestão de streaming permite latência quase em tempo real para pequenos conjuntos de dados por tabela.

Como analiso os meus dados?

O Azure Data Explorer usa a KQL (Kusto Query Language) proprietária para analisar dados. É amplamente utilizado na Microsoft (Azure Monitor - Log Analytics and Application Insights, Microsoft Sentinel e Microsoft Defender XDR). O KQL é otimizado para exploração de big data diversificada e de fluxo rápido. As consultas fazem referência a tabelas, modos de exibição, funções e quaisquer outras expressões tabulares. Incluindo tabelas em diferentes bancos de dados ou até mesmo clusters. As consultas podem ser executadas usando a interface do usuário da Web, várias ferramentas de consulta ou com um dos SDKs do Azure Data Explorer.

Como funciona a Kusto Query Language?

Kusto Query Language é uma linguagem de consulta expressiva, intuitiva e altamente produtiva. Ele oferece uma transição suave de simples one-liners para scripts complexos de processamento de dados e suporta a consulta de dados estruturados, semiestruturados e não estruturados (pesquisa de texto). Há uma grande variedade de operadores e funções de linguagem de consulta (agregação, filtragem, funções de séries temporais, funções geoespaciais, junções, uniões e muito mais) na linguagem. O KQL suporta consultas entre clusters e bancos de dados, e é rico em recursos de uma perspetiva de análise (json, XML, etc.). Além disso, a linguagem suporta nativamente análises avançadas.

Como posso apresentar os resultados da minha consulta?

A interface do usuário da Web do Azure Data Explorer foi projetada com big data em mente, permitindo que você execute consultas e crie painéis. Ele suporta uma exibição de até 500-K registros e milhares de colunas. É altamente escalável e rico em funcionalidades que o ajudam a obter informações rápidas a partir dos seus dados. Você também pode usar diferentes exibições visuais de seus dados em seus Painéis do Azure Data Explorer. Você também pode exibir seus resultados usando conectores nativos para alguns dos principais serviços de visualização disponíveis atualmente, como o Power BI e o Grafana. O Azure Data Explorer também tem suporte a conectores ODBC e JDBC para ferramentas como Tableau e Qlik.

Como faço para gerenciar meus dados?

Os administradores querem executar várias tarefas de manutenção e política em seus clusters do Azure Data Explorer, e os comandos Control lhes dão a capacidade de fazê-lo. Usando comandos Control, eles podem criar novos clusters ou bancos de dados, estabelecer conexões de dados, executar dimensionamento automático e ajustar configurações de cluster. Eles também podem controlar e modificar entidades, objetos de metadados, permissões de gerenciamento e políticas de segurança. Além disso, eles podem modificar visualizações materializadas (exibições filtradas continuamente atualizadas de outras tabelas), funções (funções armazenadas e funções definidas pelo usuário) e a política de atualização (funções que são acionadas após a ingestão).

Os comandos de controle são executados diretamente no mecanismo usando a WebUI, o portal do Azure, várias ferramentas de consulta ou um dos SDKs do Azure Data Explorer.