Monitorar tabelas métricas

Artigo
03/06/2024

Importante

Esta funcionalidade está em Pré-visualização Pública.

Esta página descreve as tabelas métricas criadas pelo Databricks Lakehouse Monitoring. Para obter informações sobre o painel criado por um monitor, consulte Usar o painel SQL gerado.

Quando um monitor é executado em uma tabela Databricks, ele cria ou atualiza duas tabelas métricas: uma tabela de métricas de perfil e uma tabela de métricas de deriva.

A tabela de métricas de perfil contém estatísticas de resumo para cada coluna e para cada combinação de janela de tempo, fatia e colunas de agrupamento. Para InferenceLog análise, a tabela de análise também contém métricas de precisão do modelo.
A tabela de métricas de desvio contém estatísticas que controlam as alterações na distribuição de uma métrica. As tabelas de desvio podem ser usadas para visualizar ou alertar sobre alterações nos dados em vez de valores específicos. São calculados os seguintes tipos de deriva:
- O desvio consecutivo compara uma janela com a janela de tempo anterior. O desvio consecutivo só é calculado se existir uma janela de tempo consecutiva após a agregação de acordo com as granularidades especificadas.
- O desvio da linha de base compara uma janela com a distribuição da linha de base determinada pela tabela da linha de base. O desvio da linha de base só é calculado se for fornecida uma tabela de base.

Onde as tabelas métricas estão localizadas

As tabelas métricas do monitor são salvas em {output_schema}.{table_name}_profile_metrics e {output_schema}.{table_name}_drift_metrics, onde:

{output_schema} é o catálogo e o esquema especificados por output_schema_name.
{table_name} é o nome da tabela que está sendo monitorada.

Como as estatísticas do monitor são calculadas

Cada estatística e métrica nas tabelas métricas é calculada para um intervalo de tempo especificado (chamado de "janela"). Para Snapshot análise, a janela de tempo é um único ponto no tempo correspondente ao tempo em que a métrica foi atualizada. Para TimeSeries e InferenceLog análise, a janela de tempo é baseada nas granularidades especificadas e create_monitor nos valores especificados timestamp_col no profile_type argumento.

As métricas são sempre calculadas para toda a tabela. Além disso, se você fornecer uma expressão de fatiamento, as métricas serão calculadas para cada fatia de dados definida por um valor da expressão.

Por exemplo:

slicing_exprs=["col_1", "col_2 > 10"]

gera as seguintes fatias: uma para col_2 > 10, uma para col_2 <= 10e uma para cada valor exclusivo em col1.

As fatias são identificadas nas tabelas de métricas pelos nomes slice_key das colunas e slice_value. Neste exemplo, uma chave de fatia seria "col_2 > 10" e os valores correspondentes seriam "true" e "false". A tabela inteira é equivalente a slice_key = NULL e slice_value = NULL. As fatias são definidas por uma única chave de fatia.

As métricas são calculadas para todos os grupos possíveis definidos pelas janelas de tempo e chaves e valores de fatia. Além disso, para InferenceLog análise, as métricas são calculadas para cada id do modelo. Para obter detalhes, consulte Esquemas de coluna para tabelas geradas.

Estatísticas adicionais para monitorização da precisão do modelo (`InferenceLog` apenas análise)

Estatísticas adicionais são calculadas para InferenceLog análise.

A qualidade do modelo é calculada se ambos label_col forem prediction_col fornecidos.
As fatias são criadas automaticamente com base nos valores distintos de model_id_col.
Para modelos de classificação, as estatísticas de equidade e viés são calculadas para fatias que têm um valor booleano.

Análise de consultas e tabelas de métricas de desvio

Você pode consultar as tabelas de métricas diretamente. O exemplo a seguir é baseado na InferenceLog análise:

SELECT
  window.start, column_name, count, num_nulls, distinct_count, frequent_items
FROM census_monitor_db.adult_census_profile_metrics
WHERE model_id = 1    — Constrain to version 1
  AND slice_key IS NULL    — look at aggregate metrics over the whole data
  AND column_name = "income_predicted"
ORDER BY window.start

Esquemas de coluna para tabelas geradas

Para cada coluna da tabela primária, as tabelas de métricas contêm uma linha para cada combinação de colunas de agrupamento. A coluna associada a cada linha é mostrada na coluna column_name.

Para métricas baseadas em mais de uma coluna, como métricas de precisão do modelo, column_name é definido como :table.

Para métricas de perfil, as seguintes colunas de agrupamento são usadas:

Janela de tempo
granularidade (TimeSeriesInferenceLog apenas e análise)
tipo de log - tabela de entrada ou tabela de linha de base
Chave e valor da fatia
ID do modelo (InferenceLog apenas análise)

Para métricas de desvio, as seguintes colunas de agrupamento adicionais são usadas:

janela de tempo de comparação
tipo de desvio (comparação com a janela anterior ou comparação com a tabela de linha de base)

Os esquemas das tabelas métricas são mostrados abaixo e também são mostrados na documentação de referência da API de monitoramento do Databricks Lakehouse.

Esquema da tabela de métricas de perfil

A tabela a seguir mostra o esquema da tabela de métricas de perfil. Quando uma métrica não é aplicável a uma linha, a célula correspondente é nula.

Nome da coluna	Tipo	Description
Agrupamento de colunas
janela	Estruturar. Ver [1] infra.	Janela de tempo.
granularidade	string	Duração da janela, definida por `granularities` parâmetro. [2]
model_id_col	string	Opcional. Usado apenas para `InferenceLog` o tipo de análise.
log_type	string	Tabela usada para calcular métricas. LINHA DE BASE ou ENTRADA.
slice_key	string	Expressão de fatia. NULL por padrão, que são todos os dados.
slice_value	string	Valor da expressão de fatiamento.
column_name	string	Nome da coluna na tabela primária. `:table` é um nome especial para métricas que se aplicam a toda a tabela, como precisão do modelo.
data_type	string	Tipo de dados Spark de `column_name`.
logging_table_commit_version	número inteiro	Ignorar.
monitor_version	bigint	Versão da configuração do monitor usada para calcular as métricas na linha. Ver [3] infra para mais pormenores.
Colunas de métricas - estatísticas de resumo
contagem	bigint	Número de valores não nulos.
num_nulls	bigint	Número de valores nulos em `column_name`.
avg	duplo	Média aritmética da coluna, ingorando nulos.
Quantis	`array<double>`	Matriz de 1000 quantis. Ver [4] infra.
distinct_count	bigint	Número de valores distintos em `column_name`.
min	duplo	Valor mínimo em `column_name`.
max	duplo	Valor máximo em `column_name`.
Stddev	duplo	Desvio padrão de `column_name`.
num_zeros	bigint	Número de zeros em `column_name`.
num_nan	bigint	Número de valores de NaN em `column_name`.
min_size	duplo	Tamanho mínimo de matrizes ou estruturas em `column_name`.
max_size	duplo	Tamanho máximo de matrizes ou estruturas em `column_name`.
avg_size	duplo	Tamanho médio de matrizes ou estruturas em `column_name`.
min_len	duplo	Comprimento mínimo da cadeia de caracteres e valores binários em `column_name`.
max_len	duplo	Comprimento máximo da cadeia de caracteres e valores binários em `column_name`.
avg_len	duplo	Comprimento médio da cadeia de caracteres e valores binários em `column_name`.
frequent_items	Estruturar. Ver [1] infra.	Top 100 itens que ocorrem com mais frequência.
non_null_columns	`array<string>`	Lista de colunas com pelo menos um valor não nulo.
mediana	duplo	Valor mediano de `column_name`.
percent_null	duplo	Porcentagem de valores nulos em `column_name`.
percent_zeros	duplo	Porcentagem de valores que são zero em `column_name`.
percent_distinct	duplo	Porcentagem de valores distintos em `column_name`.
Colunas métricas - precisão do modelo de classificação [5]
accuracy_score	duplo	Precisão do modelo, calculada como (número de previsões corretas / número total de previsões), ignorando valores nulos.
confusion_matrix	Estruturar. Ver [1] infra.
precisão	Estruturar. Ver [1] infra.
revocação	Estruturar. Ver [1] infra.
f1_score	Estruturar. Ver [1] infra.
Colunas métricas - precisão do modelo de regressão [5]
mean_squared_error	duplo	Erro quadrático médio entre `prediction_col` e `label_col`.
root_mean_squared_error	duplo	Erro quadrático médio da raiz entre `prediction_col` e `label_col`.
mean_average_error	duplo	Erro médio médio entre `prediction_col` e `label_col`.
mean_absolute_percentage_error	duplo	Erro percentual absoluto médio entre `prediction_col` e `label_col`.
r2_score	duplo	Pontuação R-quadrada entre `prediction_col` e `label_col`.
Colunas de métricas - equidade e parcialidade [6]
predictive_parity	duplo	Mede se os dois grupos têm precisão igual em todas as classes previstas. `label_col` é obrigatório.
predictive_equality	duplo	Mede se os dois grupos têm igual taxa de falsos positivos em todas as classes previstas. `label_col` é obrigatório.
equal_opportunity	duplo	Mede se os dois grupos têm igual recordação em todas as classes previstas. `label_col` é obrigatório.
statistical_parity	duplo	Mede se os dois grupos têm igual taxa de aceitação. A taxa de aceitação aqui é definida como a probabilidade empírica de ser prevista como uma determinada classe, em todas as classes previstas.

[1] Formato do struct para confusion_matrix, precision, recall, e f1_score:

Nome da coluna	Type
janela	`struct<start: timestamp, end: timestamp>`
frequent_items	`array<struct<item: string, count: bigint>>`
confusion_matrix	`struct<prediction: string, label: string, count: bigint>`
precisão	`struct<one_vs_all: map<string,double>, macro: double, weighted: double>`
revocação	`struct<one_vs_all: map<string,double>, macro: double, weighted: double>`
f1_score	`struct<one_vs_all: map<string,double>, macro: double, weighted: double>`

[2] Para séries cronológicas ou perfis de inferência, o monitor analisa 30 dias a partir do momento em que é criado. Devido a este ponto de corte, a primeira análise pode incluir uma janela parcial. Por exemplo, o limite de 30 dias pode cair a meio de uma semana ou mês, caso em que a semana ou mês completo não é incluído no cálculo. Esse problema afeta apenas a primeira janela.

[3] A versão mostrada nesta coluna é a versão que foi usada para calcular as estatísticas na linha e pode não ser a versão atual do monitor. Cada vez que você atualiza as métricas, o monitor tenta recalcular métricas calculadas anteriormente usando a configuração atual do monitor. A versão atual do monitor aparece nas informações do monitor retornadas pela API e pelo Python Client.

[4] Código de exemplo para recuperar o percentil 50: SELECT element_at(quantiles, int((size(quantiles)+1)/2)) AS p50 ... ou SELECT quantiles[500] ... .

[5] Apenas mostrado se o monitor tiver InferenceLog tipo de análise e ambos label_col e prediction_col são fornecidos.

[6] Apenas apresentado se o monitor tiver InferenceLog o tipo de análise e problem_type for classification.

Esquema da tabela de métricas de desvio

A tabela a seguir mostra o esquema da tabela de métricas de deriva. A tabela de desvio só é gerada se uma tabela de linha de base for fornecida, ou se existir uma janela de tempo consecutiva após a agregação de acordo com as granularidades especificadas.

Nome da coluna	Tipo	Description
Agrupamento de colunas
janela	`struct<start: timestamp, end: timestamp>`	Janela de tempo.
window_cmp	`struct<start: timestamp, end: timestamp>`	Janela de comparação para drift_type `CONSECUTIVE`.
drift_type	string	LINHA DE BASE ou CONSECUTIVA. Se as métricas de desvio se comparam com a janela de tempo anterior ou com a tabela de linha de base.
granularidade	string	Duração da janela, definida por `granularities` parâmetro. [7]
model_id_col	string	Opcional. Usado apenas para `InferenceLog` o tipo de análise.
slice_key	string	Expressão de fatia. NULL por padrão, que são todos os dados.
slice_value	string	Valor da expressão de fatiamento.
column_name	string	Nome da coluna na tabela primária. `:table` é um nome especial para métricas que se aplicam a toda a tabela, como precisão do modelo.
data_type	string	Tipo de dados Spark de `column_name`.
monitor_version	bigint	Versão da configuração do monitor usada para calcular as métricas na linha. Ver [8] infra para mais pormenores.
Colunas de métricas - desvio		As diferenças são calculadas como janela atual - janela de comparação.
count_delta	duplo	Diferença em `count`.
avg_delta	duplo	Diferença em `avg`.
percent_null_delta	duplo	Diferença em `percent_null`.
percent_zeros_delta	duplo	Diferença em `percent_zeros`.
percent_distinct_delta	duplo	Diferença em `percent_distinct`.
non_null_columns_delta	`struct<added: int, missing: int>`	Número de colunas com qualquer aumento ou diminuição em valores não nulos.
chi_squared_test	`struct<statistic: double, pvalue: double>`	Teste qui-quadrado para desvio na distribuição.
ks_test	`struct<statistic: double, pvalue: double>`	Teste KS para deriva na distribuição. Calculado apenas para colunas numéricas.
tv_distance	duplo	Distância de variação total para deriva na distribuição.
l_infinity_distance	duplo	Distância L-infinito para deriva na distribuição.
js_distance	duplo	Distância Jensen-Shannon para deriva na distribuição. Calculado apenas para colunas categóricas.
wasserstein_distance	duplo	Deriva entre duas distribuições numéricas usando a métrica de distância de Wasserstein.
population_stability_index	duplo	Métrica para comparar a deriva entre duas distribuições numéricas usando a métrica do índice de estabilidade populacional. Ver [9] infra para mais pormenores.

[7] Para séries cronológicas ou perfis de inferência, o monitor analisa 30 dias a partir do momento em que é criado. Devido a este ponto de corte, a primeira análise pode incluir uma janela parcial. Por exemplo, o limite de 30 dias pode cair a meio de uma semana ou mês, caso em que a semana ou mês completo não é incluído no cálculo. Esse problema afeta apenas a primeira janela.

[8] A versão apresentada nesta coluna é a versão que foi utilizada para calcular as estatísticas na linha e pode não ser a versão atual do monitor. Cada vez que você atualiza as métricas, o monitor tenta recalcular métricas calculadas anteriormente usando a configuração atual do monitor. A versão atual do monitor aparece nas informações do monitor retornadas pela API e pelo Python Client.

[9] A produção do índice de estabilidade da população é um valor numérico que representa a diferença entre duas distribuições. O intervalo é [0, inf). PSI < 0.1 significa que não houve alteração significativa da população. O PSI < 0.2 indica uma mudança moderada da população. PSI >= 0,2 indica mudança populacional significativa.

Share via

Monitorar tabelas métricas

Onde as tabelas métricas estão localizadas

Como as estatísticas do monitor são calculadas

Estatísticas adicionais para monitorização da precisão do modelo (`InferenceLog` apenas análise)

Análise de consultas e tabelas de métricas de desvio

Esquemas de coluna para tabelas geradas

Esquema da tabela de métricas de perfil

Esquema da tabela de métricas de desvio

Recursos adicionais

Share via

Monitorar tabelas métricas

Onde as tabelas métricas estão localizadas

Como as estatísticas do monitor são calculadas

Estatísticas adicionais para monitorização da precisão do modelo (InferenceLog apenas análise)

Análise de consultas e tabelas de métricas de desvio

Esquemas de coluna para tabelas geradas

Esquema da tabela de métricas de perfil

Esquema da tabela de métricas de desvio

Recursos adicionais

Estatísticas adicionais para monitorização da precisão do modelo (`InferenceLog` apenas análise)