Gegevensopslag

Artikel
06/01/2023

Notitie

De TSI-service (Time Series Insights) wordt na maart 2025 niet meer ondersteund. Overweeg om bestaande TSI-omgevingen zo snel mogelijk te migreren naar alternatieve oplossingen. Raadpleeg onze documentatie voor meer informatie over de afschaffing en migratie.

In dit artikel worden gegevensopslag in Azure Time Series Insights Gen2 beschreven. Het omvat warm en koud, beschikbaarheid van gegevens en best practices.

Inrichten

Wanneer u een Azure Time Series Insights Gen2-omgeving maakt, hebt u de volgende opties:

Koude gegevensopslag:
- Maak een nieuwe Azure Storage-resource in het abonnement en de regio die u hebt gekozen voor uw omgeving.
- Een bestaand Azure Storage-account koppelen. Deze optie is alleen beschikbaar door te implementeren vanuit een Azure Resource Manager-sjabloon en is niet zichtbaar in de Azure Portal.
Warme gegevensopslag:
- Een warm archief is optioneel en kan worden in- of uitgeschakeld tijdens of na het inrichten. Als u besluit warm bewaren op een later tijdstip in te schakelen en er al gegevens in uw koelopslag zijn, raadpleegt u deze sectie hieronder om inzicht te hebben in het verwachte gedrag. De bewaartijd van de gegevens in de warme opslag kan worden geconfigureerd voor 7 tot 31 dagen, en dit kan indien nodig ook worden aangepast.

Wanneer een gebeurtenis wordt opgenomen, wordt deze geïndexeerd in zowel warm opslag (indien ingeschakeld) als in koelopslag.

Waarschuwing

Als eigenaar van het Azure Blob Storage-account waarin de gegevens in de koelcel zich bevinden, hebt u volledige toegang tot alle gegevens in het account. Deze toegang omvat schrijf- en verwijdermachtigingen. Bewerk of verwijder de gegevens die Azure Time Series Insights Gen2 schrijft niet, omdat dit gegevensverlies kan veroorzaken.

Beschikbaarheid van gegevens

Azure Time Series Insights Gen2 partitioneert en indexeert gegevens voor optimale queryprestaties. Gegevens worden beschikbaar voor query's vanuit zowel warm (indien ingeschakeld) als koelopslag nadat deze zijn geïndexeerd. De hoeveelheid gegevens die wordt opgenomen en de doorvoersnelheid per partitie kunnen van invloed zijn op de beschikbaarheid. Bekijk de doorvoerbeperkingen en best practices voor de gebeurtenisbron voor de beste prestaties. U kunt ook een vertragingswaarschuwing configureren om een melding te ontvangen als uw omgeving problemen ondervindt met het verwerken van gegevens.

Belangrijk

Het kan tot 60 seconden duren voordat gegevens beschikbaar komen via de Time Series Query-API's. Als u een aanzienlijke latentie van meer dan 60 seconden ondervindt, dient u een ondersteuningsticket in via de Azure Portal.

Het kan tot vijf minuten duren voordat gegevens beschikbaar zijn wanneer u de Parquet-bestanden buiten Azure Time Series Insights Gen2 rechtstreeks opent. Zie de sectie Parquet-bestandsindeling voor meer informatie.

Warme opslag

Gegevens in uw warme archief zijn alleen beschikbaar via de Time Series Query-API's, de Azure Time Series Insights TSI Explorer of de Power BI-connector. Warme opslagquery's zijn gratis en er is geen quotum, maar er is een limiet van 30 gelijktijdige aanvragen.

Gedrag van warme opslag

Wanneer deze optie is ingeschakeld, worden alle gegevens die naar uw omgeving worden gestreamd, doorgestuurd naar uw warme opslag, ongeacht de tijdstempel van de gebeurtenis. Houd er rekening mee dat de pijplijn voor streamingopname is gemaakt voor streaming in bijna realtime en het opnemen van historische gebeurtenissen wordt niet ondersteund.
De bewaarperiode wordt berekend op basis van wanneer de gebeurtenis is geïndexeerd in de warme opslag, niet op basis van de tijdstempel van de gebeurtenis. Dit betekent dat gegevens niet meer beschikbaar zijn in de warme opslag nadat de bewaarperiode is verstreken, zelfs niet als de tijdstempel van de gebeurtenis voor de toekomst is.
- Voorbeeld: een gebeurtenis met 10-daagse weersvoorspellingen wordt opgenomen en geïndexeerd in een warme opslagcontainer die is geconfigureerd met een bewaarperiode van 7 dagen. Na zeven dagen is de voorspelling niet meer toegankelijk in warme opslag, maar kan deze worden opgevraagd vanuit koude opslag.
Als u warm opslaan inschakelt in een bestaande omgeving waarin al recente gegevens zijn geïndexeerd in koude opslag, moet u er rekening mee houden dat uw warme opslag niet weer wordt gevuld met deze gegevens.
Als u warm archief zojuist hebt ingeschakeld en problemen ondervindt met het weergeven van uw recente gegevens in de Explorer, kunt u query's voor warme opslag tijdelijk uitschakelen:

Koelcel

In deze sectie worden details van Azure Storage beschreven die relevant zijn voor Azure Time Series Insights Gen2.

Lees de inleiding tot opslagblobs voor een uitgebreide beschrijving van Azure Blob Storage.

Uw koude opslagaccount

Azure Time Series Insights Gen2 bewaart maximaal twee exemplaren van elke gebeurtenis in uw Azure Storage-account. In één exemplaar worden gebeurtenissen opgeslagen op volgorde van opnametijd, waarbij altijd toegang tot gebeurtenissen in een volgorde van tijd is toegestaan. Na verloop van tijd maakt Azure Time Series Insights Gen2 ook een opnieuw gepartitioneerde kopie van de gegevens om te optimaliseren voor actieve query's.

Al uw gegevens worden voor onbepaalde tijd opgeslagen in uw Azure Storage-account.

Waarschuwing

Beperk de openbare internettoegang niet tot het opslagaccount dat wordt gebruikt door Time Series Insights, anders wordt de benodigde verbinding verbroken.

Blobs schrijven en bewerken

Bewerk of verwijder geen blobs die Azure Time Series Insights Gen2 maakt om queryprestaties en beschikbaarheid van gegevens te garanderen.

Toegang tot koelopslaggegevens

Naast toegang tot uw gegevens vanuit de API's van Azure Time Series Insights Explorer en Time Series Query, wilt u mogelijk ook rechtstreeks toegang krijgen tot uw gegevens vanuit de Parquet-bestanden die zijn opgeslagen in de koelopslag. U kunt bijvoorbeeld gegevens in een Jupyter-notebook lezen, transformeren en opschonen en deze vervolgens gebruiken om uw Azure Machine Learning-model te trainen in dezelfde Spark-werkstroom.

Als u gegevens rechtstreeks vanuit uw Azure Storage-account wilt openen, hebt u leestoegang nodig tot het account dat wordt gebruikt voor het opslaan van uw Azure Time Series Insights Gen2-gegevens. Vervolgens kunt u geselecteerde gegevens lezen op basis van de aanmaaktijd van het Parquet-bestand in de PT=Time map die hieronder wordt beschreven in de sectie Parquet-bestandsindeling . Zie Toegang tot de resources van uw opslagaccount beheren voor meer informatie over het inschakelen van leestoegang tot uw opslagaccount.

Gegevens verwijderen

Verwijder uw Azure Time Series Insights Gen2-bestanden niet. Gerelateerde gegevens alleen beheren vanuit Azure Time Series Insights Gen2.

Parquet-bestandsindeling en mapstructuur

Parquet is een opensource-bestandsindeling voor kolommen die is ontworpen voor efficiënte opslag en prestaties. Azure Time Series Insights Gen2 gebruikt Parquet om queryprestaties op schaal op basis van time series-id's in te schakelen.

Lees de Parquet-documentatie voor meer informatie over het Parquet-bestandstype.

Azure Time Series Insights Gen2 slaat als volgt kopieën van uw gegevens op:

De PT=Time map wordt gepartitioneerd op basis van opnametijd en slaat gegevens ongeveer op in volgorde van aankomst. Deze gegevens worden in de loop van de tijd bewaard en u kunt deze rechtstreeks openen van buiten Azure Time Series Insight Gen2, zoals vanuit uw Spark-notebooks. De tijdstempel <YYYYMMDDHHMMSSfff> komt overeen met de opnametijd van de gegevens. De <MinEventTimeStamp> en <MaxEventTimeStamp> komen overeen met het bereik van gebeurtenistijdstempels dat is opgenomen in het bestand. Het pad en de bestandsnaam zijn ingedeeld als:

V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
De PT=Live mappen en PT=Tsid bevatten een tweede kopie van uw gegevens, opnieuw gepartitioneerd voor de prestaties van tijdreeksquery's op schaal. Deze gegevens worden in de loop van de tijd geoptimaliseerd en zijn niet statisch. Tijdens het opnieuw partitioneren kunnen sommige gebeurtenissen aanwezig zijn in meerdere blobs en kunnen de blobnamen veranderen. Deze mappen worden gebruikt door Azure Time Series Insights Gen2 en mogen niet rechtstreeks worden geopend. Gebruik PT=Time deze mappen alleen voor dat doel.