Consultar dados frios com janelas frequentes

As janelas quentes permitem-lhe consultar dados a frio de forma eficiente sem a necessidade de exportar dados ou de utilizar outras ferramentas. Utilize janelas quentes quando o tamanho dos dados frios for grande e os dados relevantes forem provenientes de qualquer altura do passado. As janelas de acesso frequente são definidas na política de cache.

O Azure Data Explorer armazena os respetivos dados num armazenamento fiável a longo prazo e coloca em cache uma parte destes dados nos nós de cluster. A política de cache rege os dados que são colocados em cache. Os dados em cache são considerados frequentes, enquanto os restantes dados são considerados frios.

Para consultar dados a frio, o Azure Data Explorer processar um passo de carregamento que requer o acesso a uma camada de armazenamento com uma latência muito superior à do disco local. Quando a consulta está limitada a uma pequena janela de tempo, muitas vezes denominada consultas de "ponto anterior no tempo", a quantidade de dados a obter será geralmente pequena e a consulta será concluída rapidamente. Por exemplo, as análises forenses que consultam a telemetria num determinado dia no passado enquadram-se nesta categoria. O impacto na duração da consulta depende do tamanho dos dados extraídos do armazenamento e pode ser significativo. Se estiver a analisar uma grande quantidade de dados frios, o desempenho das consultas poderá beneficiar da utilização de janelas de acesso frequente.

Este documento mostra-lhe como utilizar janelas de acesso frequente para consultar dados a frio.

Pré-requisitos

Configurar o dimensionamento automático no cluster

Depois de alterar a política de cache, o cluster coloca automaticamente em cache os dados relevantes nos respetivos discos. Terá de dimensionar o cluster para acomodar o disco extra necessário para a nova definição de cache. Recomendamos que configure o cluster para utilizar as definições de otimização do dimensionamento automático .

  1. Na portal do Azure, aceda ao recurso de cluster do Azure Data Explorer. Em Definições, selecione Aumentar horizontalmente.

  2. Na janela Aumentar horizontalmente, selecione Dimensionamento automático otimizado.

  3. Selecione uma contagem mínima de instâncias e uma contagem máxima de instâncias. O dimensionamento automático do cluster varia entre esses dois números, com base na carga.

  4. Selecione Guardar.

    Método de dimensionamento automático otimizado.

Agora, pode esperar um desempenho ideal durante a utilização de janelas de acesso frequente.

Definir janelas quentes

As janelas de acesso frequente fazem parte da sintaxe dos comandos da política de cache e são definidas com o .alter policy caching comando .

Nota

Pode demorar até uma hora a atualizar totalmente a cache do disco do cluster com base na definição da política de cache atualizada.

  1. Tome nota da política de colocação em cache inicial com o .show policy caching comando .

    .show table MyDatabase.MyTable policy caching 
    
  2. Altere a política de cache com a seguinte sintaxe. Podem ser definidas várias janelas de acesso frequente para uma única base de dados ou tabela.

    .alter <entity_type> <database_or_table_or_materialized-view_name> policy caching 
          hot = <timespan> 
          [, hot_window = datetime(*from*) .. datetime(*to*)] 
          [, hot_window = datetime(*from*) .. datetime(*to*)] 
          ...
    

    Em que:

    • from: hora de início da janela de atalho (datetime)
    • to: Hora de fim da janela de atalho (datetime)

    Por exemplo, as consultas executadas nas seguintes definições examinarão os últimos 14 dias de dados, em dados que são mantidos durante três anos.

    .alter table MyTable policy caching 
            hot = 14d,
            hot_window = datetime(2021-01-01) .. datetime(2021-02-01),
            hot_window = datetime(2021-04-01) .. datetime(2021-05-01)
    

Executar consulta

Execute a consulta ou as consultas pretendidas ao longo do período de tempo especificado nas janelas de acesso frequente.

Reverter definições

  1. Utilize as definições de cache originais obtidas acima em Definir janelas de acesso frequente.
  2. Reverta a política de cache para as definições originais com o .alter policy caching comando .

Uma vez que configurou o dimensionamento automático otimizado para esse cluster, o cluster diminuirá para o tamanho original.