Procedura: Eseguire l'onboarding dei dati delle metriche in Advisor metriche

Usare questo articolo per informazioni sull'onboarding dei dati in Advisor metriche.

Requisiti e configurazione dello schema di dati

Advisor metriche di Azure è un servizio per il rilevamento anomalie delle serie temporali, la diagnostica e l'analisi. Come servizio basato su intelligenza artificiale, usa i dati per eseguire il training del modello usato. Il servizio accetta tabelle di dati aggregati con le colonne seguenti:

  • Misura (obbligatorio): una misura è un termine fondamentale o specifico dell'unità e un valore quantificabile della metrica. Significa che una o più colonne contenenti valori numerici.
  • Timestamp (facoltativo): zero o una colonna, con tipo o DateTimeString. Quando questa colonna non è impostata, il timestamp viene impostato come ora di inizio di ogni periodo di inserimento. Formattare il timestamp come indicato di seguito: . yyyy-MM-ddTHH:mm:ssZ
  • Dimensione (facoltativa): una dimensione è uno o più valori categorici. La combinazione di questi valori identifica una determinata serie temporale univariata , ad esempio paese, lingua e tenant. Le colonne della dimensione possono essere di qualsiasi tipo di dati. Prestare attenzione quando si lavora con grandi volumi di colonne e valori, per evitare l'elaborazione di un numero eccessivo di dimensioni.

Se si usano origini dati come Azure Data Lake Storage o Archiviazione BLOB di Azure, è possibile aggregare i dati per allinearli allo schema delle metriche previsto. Ciò è dovuto al fatto che queste origini dati usano un file come input delle metriche.

Se si usano origini dati come Azure SQL o Esplora dati di Azure, è possibile usare le funzioni di aggregazione per aggregare i dati nel proprio schema previsto. Ciò è dovuto al fatto che queste origini dati supportano l'esecuzione di una query per ottenere i dati delle metriche dalle origini.

Se non si è certi di alcuni termini, fare riferimento al glossario.

Evitare il caricamento di dati parziali

I dati parziali sono causati da incoerenze tra i dati archiviati in Advisor metriche e l'origine dati. Questa situazione può verificarsi quando l'origine dati viene aggiornata dopo che Advisor metriche ha terminato il pull dei dati. Advisor metriche esegue il pull dei dati da una determinata origine dati una sola volta.

Ad esempio, se una metrica è stata inserita in Advisor metriche per il monitoraggio. Advisor metriche recupera correttamente i dati delle metriche al timestamp A ed esegue il rilevamento anomalie su di esso. Tuttavia, se i dati delle metriche di quel determinato timestamp A sono stati aggiornati dopo l'inserimento dei dati. Il nuovo valore di dati non verrà recuperato.

È possibile provare a eseguire il backfill dei dati cronologici (descritti più avanti) per attenuare le incoerenze, ma questo non attiverà nuovi avvisi di anomalia, se gli avvisi per tali punti temporali sono già stati attivati. Questo processo può aggiungere un carico di lavoro aggiuntivo al sistema e non è automatico.

Per evitare il caricamento di dati parziali, è consigliabile adottare due approcci:

  • Generare dati in una transazione:

    Verificare che i valori delle metriche per tutte le combinazioni di dimensioni contemporaneamente vengano archiviati nell'origine dati in una transazione. Nell'esempio precedente attendere fino a quando i dati di tutte le origini dati sono pronti e quindi caricarlo in Advisor metriche in una transazione. Advisor metriche può eseguire regolarmente il polling del feed di dati fino a quando i dati non vengono recuperati correttamente (o parzialmente).

  • Ritardare l'inserimento dei dati impostando un valore appropriato per il parametro di offset del tempo di inserimento :

    Impostare il parametro Di offset del tempo di inserimento per il feed di dati per ritardare l'inserimento fino a quando i dati non vengono preparati completamente. Ciò può essere utile per alcune origini dati che non supportano transazioni come Archiviazione tabelle di Azure. Per informazioni dettagliate, vedere Impostazioni avanzate .

Iniziare aggiungendo un feed di dati

Dopo aver eseguito l'accesso al portale di Advisor metriche e aver scelto l'area di lavoro, fare clic su Inizia. Quindi, nella pagina principale dell'area di lavoro fare clic su Aggiungi feed di dati dal menu a sinistra.

Aggiungere le impostazioni di connessione

1. Impostazioni di base

Successivamente verrà immesso un set di parametri per connettere l'origine dati della serie temporale.

  • Tipo di origine: il tipo di origine dati in cui sono archiviati i dati della serie temporale.
  • Granularità: intervallo tra i punti dati consecutivi nei dati delle serie temporali. Attualmente Advisor metriche supporta: annuale, mensile, settimanale, giornaliera, oraria e personalizzata. L'intervallo più basso supportato dall'opzione di personalizzazione è 300 secondi.
    • Secondi: numero di secondi in cui granularityName è impostato su Personalizza.
  • Inserire dati dall'ora UTC: ora di inizio prevista per l'inserimento dei dati. startOffsetInSeconds viene spesso usato per aggiungere un offset per facilitare la coerenza dei dati.

2. Specificare la stringa di connessione

Sarà quindi necessario specificare le informazioni di connessione per l'origine dati. Per informazioni dettagliate sugli altri campi e sulla connessione di diversi tipi di origini dati, vedere Procedura: Connettere origini dati diverse.

3. Specificare la query per un singolo timestamp

Per informazioni dettagliate sui diversi tipi di origini dati, vedere Procedura: Connettere origini dati diverse.

Caricare i dati

Dopo aver immesso la stringa di connessione e la stringa di query, selezionare Carica dati. All'interno di questa operazione, Advisor metriche verificherà la connessione e l'autorizzazione per caricare i dati, controllare i parametri necessari (@IntervalStart e @IntervalEnd) che devono essere usati nella query e controllare il nome della colonna dall'origine dati.

Se si verifica un errore in questo passaggio:

  1. Verificare prima di tutto se la stringa di connessione è valida.
  2. Controllare quindi se sono presenti autorizzazioni sufficienti e che all'indirizzo IP del ruolo di lavoro di inserimento sia concesso l'accesso.
  3. Controllare quindi se i parametri obbligatori (@IntervalStart e @IntervalEnd) vengono usati nella query.

Configurazione dello schema

Dopo aver caricato lo schema dei dati, selezionare i campi appropriati.

Se il timestamp di un punto dati viene omesso, Advisor metriche userà il timestamp quando il punto dati viene inserito. Per ogni feed di dati, è possibile specificare al massimo una colonna come timestamp. Se viene visualizzato un messaggio che indica che una colonna non può essere specificata come timestamp, controllare la query o l'origine dati e se sono presenti più timestamp nel risultato della query, non solo nei dati di anteprima. Quando si esegue l'inserimento dati, Advisor metriche può usare un solo blocco (ad esempio un giorno, un'ora, in base alla granularità) dei dati delle serie temporali dell'origine specificata ogni volta.

Selezione Descrizione Note
Nome visualizzato Nome da visualizzare nell'area di lavoro anziché il nome della colonna originale. facoltativo.
Timestamp Timestamp di un punto dati. Se omesso, Advisor metriche userà il timestamp quando il punto dati viene inserito. Per ogni feed di dati, è possibile specificare al massimo una colonna come timestamp. facoltativo. Deve essere specificato con al massimo una colonna. Se non è possibile specificare una colonna come errore timestamp , controllare la query o l'origine dati per i timestamp duplicati.
Measure Valori numerici nel feed di dati. Per ogni feed di dati è possibile specificare più misure, ma almeno una colonna deve essere selezionata come misura. Deve essere specificato con almeno una colonna.
Dimensione Valori di categoria. Una combinazione di valori diversi identifica una particolare serie temporale unidimensionale, ad esempio paese, lingua, tenant. È possibile selezionare zero o più colonne come dimensioni. Nota: prestare attenzione quando si seleziona una colonna non stringa come dimensione. facoltativo.
Ignora Ignora la colonna selezionata. facoltativo. Per il supporto delle origini dati tramite una query per ottenere i dati, non è disponibile alcuna opzione "Ignora".

Per ignorare le colonne, è consigliabile aggiornare la query o l'origine dati per escludere tali colonne. È anche possibile ignorare le colonne usando Ignora colonne e quindi Ignora nelle colonne specifiche. Se una colonna deve essere una dimensione e viene impostata erroneamente come Ignorata, Metrics Advisor potrebbe terminare l'inserimento di dati parziali. Si supponga, ad esempio, che i dati della query siano i seguenti:

ID riga Timestamp Paese Linguaggio Income
1 2019/11/10 Cina ZH-CN 10000
2 2019/11/10 Cina EN-US 1000
3 2019/11/10 Stati Uniti ZH-CN 12000
4 2019/11/11 Stati Uniti EN-US 23000
... ... ... ... ...

Se Country è una dimensione e Language viene impostato come Ignorato, le prime e le seconde righe avranno le stesse dimensioni per un timestamp. Advisor metriche userà arbitrariamente un valore dalle due righe. Metrics Advisor non aggrega le righe in questo caso.

Dopo aver configurato lo schema, selezionare Verifica schema. All'interno di questa operazione, Metrics Advisor eseguirà i controlli seguenti:

  • Se il timestamp dei dati sottoposti a query rientra in un singolo intervallo.
  • Se sono presenti valori duplicati restituiti per la stessa combinazione di dimensioni entro un intervallo di metriche.

Impostazioni di rollup automatico

Importante

Se si vuole abilitare l'analisi della causa radice e altre funzionalità di diagnostica, è necessario configurare le impostazioni di roll up automatiche . Una volta abilitate, non è possibile modificare le impostazioni di roll-up automatiche.

Metrics Advisor può eseguire automaticamente aggregazioni(ad esempio SUM, MAX, MIN) in ogni dimensione durante l'inserimento, quindi compila una gerarchia che verrà usata nell'analisi dei case radice e in altre funzionalità di diagnostica.

Esaminare gli scenari seguenti:

  • "Non è necessario includere l'analisi di roll-up per i dati".

    Non è necessario usare il roll-up di Metrics Advisor.

  • "I dati sono già stati distribuiti e il valore della dimensione è rappresentato da: NULL o Empty (Default), SOLO NULL, Altri."

    Questa opzione indica che Metrics Advisor non deve eseguire il roll up dei dati perché le righe sono già sommate. Ad esempio, se si seleziona SOLO NULL, la seconda riga di dati nell'esempio seguente verrà vista come aggregazione di tutti i paesi e del linguaggio EN-US; la quarta riga di dati che ha un valore vuoto per Paese , tuttavia, verrà vista come una riga normale che potrebbe indicare dati incompleti.

    Paese Linguaggio Income
    Cina ZH-CN 10000
    (NULL) EN-US 999999
    Stati Uniti EN-US 12000
    EN-US 5000
  • "Ho bisogno di Metrics Advisor per eseguire il roll up dei dati calcolando Sum/Max/Min/Min/Avg/Count e rappresentarlo con {qualche stringa}".

    Alcune origini dati, ad esempio Cosmos DB o Archiviazione BLOB di Azure, non supportano determinati calcoli come il gruppo per o il cubo. Metrics Advisor offre l'opzione di roll up per generare automaticamente un cubo dati durante l'inserimento. Questa opzione significa che è necessario Metrics Advisor per calcolare il roll-up usando l'algoritmo selezionato e usare la stringa specificata per rappresentare l'roll-up in Metrics Advisor. Questo non modifica i dati nell'origine dati. Si supponga, ad esempio, di avere un set di serie temporali che corrisponde alle metriche Sales con la dimensione (Paese, Area). Per un timestamp specificato, potrebbe essere simile al seguente:

    Country Region Sales
    Canada Alberta 100
    Canada British Columbia 500
    Stati Uniti Montana 100

    Dopo aver abilitato l'implementazione automatica con Sum, Metrics Advisor calcola le combinazioni di dimensioni e somma le metriche durante l'inserimento dei dati. Il risultato potrebbe essere:

    Country Region Sales
    Canada Alberta 100
    NULL Alberta 100
    Canada British Columbia 500
    NULL British Columbia 500
    Stati Uniti Montana 100
    NULL Montana 100
    NULL NULL 700
    Canada NULL 600
    Stati Uniti NULL 100

    (Country=Canada, Region=NULL, Sales=600) indica che la somma di Sales in Canada (tutte le aree) è 600.

    Di seguito è riportata la trasformazione nel linguaggio SQL.

    SELECT
        dimension_1,
        dimension_2,
        ...
        dimension_n,
        sum (metrics_1) AS metrics_1,
        sum (metrics_2) AS metrics_2,
        ...
        sum (metrics_n) AS metrics_n
    FROM
        each_timestamp_data
    GROUP BY
        CUBE (dimension_1, dimension_2, ..., dimension_n);
    

    Prima di usare la funzionalità di rollup automatico, tenere presente quanto segue:

    • Se si vuole usare SUM per aggregare i dati, assicurarsi che le metriche siano aggiuntive in ogni dimensione. Ecco alcuni esempi di metriche non additive :
      • Metriche basate su frazioni. Ciò include rapporto, percentuale e così via. Ad esempio, non si dovrebbe aggiungere il tasso di disoccupazione di ogni stato per calcolare il tasso di disoccupazione dell'intero paese.
      • Sovrapposizione nella dimensione. Ad esempio, non è consigliabile aggiungere il numero di persone in ogni sport per calcolare il numero di persone che amano lo sport, perché c'è una sovrapposizione tra di loro, una persona può come più sport.
    • Per garantire l'integrità dell'intero sistema, le dimensioni del cubo sono limitate. Attualmente, il limite è 100.000. Se i dati superano tale limite, l'inserimento avrà esito negativo per tale timestamp.

Impostazioni avanzate

Esistono diverse impostazioni avanzate per abilitare i dati inseriti in modo personalizzato, ad esempio specificando l'offset di inserimento o la concorrenza. Per altre informazioni, vedere la sezione Impostazioni avanzate nell'articolo sulla gestione dei feed di dati.

Specificare un nome per il feed di dati e controllare lo stato di avanzamento dell'inserimento

Assegnare al feed di dati un nome personalizzato, che verrà visualizzato nell'area di lavoro. Fare quindi clic su Invia. Nella pagina dei dettagli del feed di dati è possibile usare la barra di stato di inserimento per visualizzare le informazioni sullo stato.

Ingestion progress bar

Per controllare i dettagli dell'errore di inserimento:

  1. Fare clic su Mostra dettagli.
  2. Fare clic su Stato e quindi scegliere Non riuscito o Errore.
  3. Passare il puntatore del mouse su un inserimento non riuscito e visualizzare il messaggio dei dettagli visualizzato.

Check failed ingestion

Uno stato non riuscito indica che l'inserimento per questa origine dati verrà ritentato in un secondo momento. Uno stato errore indica che Advisor metriche non riprova per l'origine dati. Per ricaricare i dati, è necessario attivare manualmente un riempimento/ricaricamento.

È anche possibile ricaricare lo stato di avanzamento di un inserimento facendo clic su Aggiorna stato. Al termine dell'inserimento dati, è possibile fare clic sulle metriche e controllare i risultati del rilevamento anomalie.

Passaggi successivi