Archiviazione dati

Articolo
06/01/2023

Nota

Il servizio Time Series Insights (TSI) non sarà più supportato dopo marzo 2025. Valutare la possibilità di eseguire la migrazione di ambienti TSI esistenti a soluzioni alternative il prima possibile. Per altre informazioni sulla deprecazione e la migrazione, vedere la documentazione.

Questo articolo descrive l'archiviazione dei dati in Azure Time Series Insights Gen2. Vengono illustrate le procedure consigliate, la disponibilità dei dati e l'accesso frequente e sporadico.

Provisioning

Quando si crea un ambiente Azure Time Series Insights Gen2, sono disponibili le opzioni seguenti:

Archiviazione dati ad accesso sporadico:
- Creare una nuova risorsa di Archiviazione di Azure nella sottoscrizione e nell'area scelta per l'ambiente.
- Collegare un account di archiviazione di Azure preesistente. Questa opzione è disponibile solo distribuendo da un modello di Azure Resource Manager e non è visibile nella portale di Azure.
Archiviazione dei dati ad accesso frequente:
- Un archivio ad accesso frequente è facoltativo e può essere abilitato o disabilitato durante o dopo il provisioning. Se si decide di abilitare l'archivio ad accesso frequente in un secondo momento e sono già presenti dati nell'archivio ad accesso sporadico, esaminare questa sezione di seguito per comprendere il comportamento previsto. Il tempo di conservazione dei dati dell'archivio ad accesso frequente può essere configurato per 7-31 giorni e può anche essere regolato in base alle esigenze.

Quando viene inserito un evento, viene indicizzato sia nell'archivio ad accesso frequente (se abilitato) che nell'archivio ad accesso sporadico.

Avviso

In qualità di proprietario dell'account di Archiviazione BLOB di Azure in cui si trovano i dati dell'archivio ad accesso sporadico, l'utente ha completo accesso a tutti i dati dell'account. Questo accesso include le autorizzazioni di scrittura ed eliminazione. Non modificare o eliminare i dati che Azure Time Series Insights Gen2 scrive perché ciò può causare la perdita di dati.

Disponibilità dei dati

Azure Time Series Insights partizioni Gen2 e indicizza i dati per ottenere prestazioni ottimali delle query. I dati diventano disponibili per la query sia dall'archivio ad accesso frequente (se abilitato) che dall'archivio ad accesso sporadico dopo l'indicizzazione. La quantità di dati inseriti e la velocità effettiva per partizione può influire sulla disponibilità. Esaminare le limitazioni della velocità effettiva dell'origine eventi e le procedure consigliate per ottenere prestazioni ottimali. È anche possibile configurare un avviso di ritardo per ricevere una notifica se l'ambiente sta riscontrando problemi durante l'elaborazione dei dati.

Importante

È possibile che si verifichi un periodo di tempo massimo di 60 secondi prima che i dati diventino disponibili tramite le API di query time series. Se si verifica una latenza significativa superiore a 60 secondi, inviare un ticket di supporto tramite il portale di Azure.

È possibile che si verifichi un periodo di tempo massimo di 5 minuti prima che i dati diventino disponibili quando si accede direttamente ai file Parquet all'esterno di Azure Time Series Insights Gen2. Per altre informazioni, vedere la sezione Formato di file Parquet .

Archivio ad accesso frequente

I dati nell'archivio ad accesso frequente sono disponibili solo tramite le API di query Time Series, il Azure Time Series Insights Tsi Explorer o il connettore Power BI. Le query dell'archivio ad accesso frequente sono gratuite e non esiste alcuna quota, ma esiste un limite di 30 richieste simultanee.

Comportamento dell'archivio ad accesso frequente

Se abilitata, tutti i dati trasmessi nell'ambiente verranno indirizzati all'archivio ad accesso frequente, indipendentemente dal timestamp dell'evento. Si noti che la pipeline di inserimento di streaming è compilata per lo streaming quasi in tempo reale e l'inserimento di eventi cronologici non è supportato.
Il periodo di conservazione viene calcolato in base al momento in cui l'evento è stato indicizzato nell'archivio ad accesso frequente, non al timestamp dell'evento. Ciò significa che i dati non sono più disponibili nell'archivio ad accesso frequente dopo che è trascorso il periodo di conservazione, anche se il timestamp dell'evento è per il futuro.
- Esempio: un evento con previsioni meteo di 10 giorni viene inserito e indicizzato in un contenitore di archiviazione ad accesso frequente configurato con un periodo di conservazione di 7 giorni. Dopo sette giorni, la stima non è più accessibile nell'archivio ad accesso frequente, ma può essere eseguita una query da freddo.
Se si abilita l'archivio ad accesso frequente in un ambiente esistente con dati recenti indicizzati nell'archiviazione ad accesso sporadico, si noti che l'archivio ad accesso frequente non verrà riempito di nuovo con questi dati.
Se è stato appena abilitato l'archivio ad accesso frequente e si verificano problemi durante la visualizzazione dei dati recenti in Esplora risorse, è possibile disattivare temporaneamente le query dell'archivio ad accesso frequente:

Archivio ad accesso sporadico

Questa sezione descrive i dettagli di Archiviazione di Azure rilevanti per Azure Time Series Insights Gen2.

Per una descrizione completa dell'Archiviazione BLOB di Azure, vedere l'introduzione ai BLOB di archiviazione .

Account di archiviazione ad accesso sporadico

Azure Time Series Insights Gen2 mantiene fino a due copie di ogni evento nell'account di archiviazione di Azure. Una copia archivia gli eventi ordinati in base al momento dell'inserimento, consentendo sempre l'accesso agli eventi in una sequenza temporale ordinata. Nel tempo, Azure Time Series Insights Gen2 crea anche una copia ripartizionata dei dati per ottimizzare le query con prestazioni elevate.

Tutti i dati vengono archiviati per un periodo illimitato nell'account di archiviazione di Azure.

Avviso

Non limitare l'accesso a Internet pubblico all'account di archiviazione usato da Time Series Insights o la connessione necessaria verrà interrotta.

Scrittura e modifica di BLOB

Per garantire prestazioni delle query e disponibilità dei dati, non modificare o eliminare BLOB creati Azure Time Series Insights Gen2.

Accesso ai dati dell'archivio ad accesso sporadico

Oltre ad accedere ai dati dalle API di query di Azure Time Series Insights Explorer e Time Series, è anche possibile accedere ai dati direttamente dai file Parquet archiviati nell'archivio ad accesso sporadico. Ad esempio, è possibile leggere, trasformare e pulire i dati in un notebook di Jupyter, e poi usarli per eseguire il training del modello di Azure Machine Learning nello stesso flusso di lavoro Spark.

Per accedere ai dati direttamente dall'account di archiviazione di Azure, è necessario accedere in lettura all'account usato per archiviare i dati di Azure Time Series Insights Gen2. È quindi possibile leggere i dati selezionati in base all'ora di creazione del file parquet presente nella cartella PT=Time descritta di seguito nella sezione dedicata al formato di file parquet. Per altre informazioni sull'abilitazione dell'accesso in lettura all'account di archiviazione, vedere Gestire l'accesso alle risorse dell'account di archiviazione.

Eliminazione di dati

Non eliminare i file Azure Time Series Insights Gen2. Gestire i dati correlati solo da Azure Time Series Insights Gen2.

Formato di file parquet e struttura della cartelle

Parquet è un formato di file open source a colonne progettato per archiviazioni e prestazioni efficienti. Azure Time Series Insights Gen2 usa Parquet per abilitare le prestazioni delle query basate su ID serie temporali su larga scala.

Per altre informazioni sul tipo di file parquet, vedere la documentazione relativa a parquet.

Azure Time Series Insights Gen2 archivia le copie dei dati come indicato di seguito:

La PT=Time cartella viene partizionata in base al tempo di inserimento e archivia i dati approssimativamente in ordine di arrivo. Questi dati vengono conservati nel tempo ed è possibile accedervi direttamente dall'esterno di Azure Time Series Insight Gen2, ad esempio dai notebook Spark. Il timestamp <YYYYMMDDHHMMSSfff> corrisponde all'ora di inserimento dei dati. e <MinEventTimeStamp><MaxEventTimeStamp> corrispondono all'intervallo di timestamp degli eventi inclusi nel file. Il percorso e il nome file sono formattati come segue:

V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
Le PT=Live cartelle e PT=Tsid contengono una seconda copia dei dati, ripartizionata per le prestazioni delle query di serie temporali su larga scala. Questi dati sono ottimizzati nel tempo e non sono statici. Durante la ripartizione, alcuni eventi potrebbero essere presenti in più BLOB e i nomi dei BLOB potrebbero cambiare. Queste cartelle vengono usate da Azure Time Series Insights Gen2 e non devono essere accessibili direttamente. A tale scopo è consigliabile usare PT=Time solo .