Datenspeicherung und -eingang in Azure Time Series Insights PreviewData storage and ingress in Azure Time Series Insights Preview

In diesem Artikel werden Updates für Datenspeicherung und Dateneingang für Azure Time Series Insights Preview beschrieben.This article describes updates to data storage and ingress for Azure Time Series Insights Preview. Es werden die zugrunde liegende Speicherstruktur, das Dateiformat und die „Time Series-ID“-Eigenschaft besprochen.It covers the underlying storage structure, file format, and Time Series ID property. Der Artikel erläutert auch den zugrunde liegenden eingehenden Prozess, Best Practices und aktuelle Einschränkungen der Vorschau.It also discusses the underlying ingress process, best practices, and current preview limitations.

DateneingangData ingress

Ihre Azure Time Series Insights-Umgebung (TSI) enthält eine Erfassungs-Engine, mit der Zeitreihendaten gesammelt, verarbeitet und gespeichert werden.Your Azure Time Series Insights environment contains an Ingestion Engine to collect, process, and store time-series data. Beim Planen Ihrer Umgebung sind einige Aspekte zu berücksichtigen, um die Verarbeitung aller eingehenden Daten sicherzustellen, ein hohes Eingangsvolumen zu erzielen und die Latenz bei der Erfassung zu minimieren (dies ist die Zeit, die TSI benötigt, um Daten aus der Ereignisquelle zu lesen und zu verarbeiten).When planning your environment, there are some considerations to take into account in order to ensure that all incoming data is processed, and to achieve high ingress scale and minimize ingestion latency (the time taken by TSI to read and process data from the event source). In Time Series Insights Preview bestimmen Richtlinien für den Dateneingang, aus welchen Quellen Daten bezogen werden können und welches Format diese Daten haben müssen.In Time Series Insights Preview, data ingress policies determine where data can be sourced from and what format the data should have.

EingangsrichtlinienIngress policies

Time Series Insights Preview unterstützt die folgenden Ereignisquellen:Time Series Insights Preview supports the following event sources:

Time Series Insights Preview unterstützt maximal zwei Ereignisquellen pro Instanz.Time Series Insights Preview supports a maximum of two event sources per instance.

Azure Time Series Insights unterstützt JSON-Daten, die über Azure IoT Hub oder Azure Event Hubs übermittelt werden.Azure Time Series Insights supports JSON submitted through Azure IoT Hub or Azure Event Hubs.

Warnung

Wenn Sie eine neue Ereignisquelle an Ihre Time Series Insights Preview-Umgebung anfügen, werden Sie möglicherweise eine hohe Latenz bei der ersten Erfassung feststellen, je nachdem, wie viele Ereignisse sich derzeit in Ihrer IoT Hub- oder Event Hub-Instanz befinden.When attaching a new event source to your Time Series Insights Preview environment, depending on the number of events currently in your IoT Hub or Event Hub, you may experience high initial ingestion latency. Im Lauf der Datenerfassung sollte dieser hohe Latenzwert sinken. Wenn dies nicht der Fall ist, kontaktieren Sie uns, indem Sie im Azure-Portal ein Supportticket übermitteln.As data is ingested, you should expect this high latency to subside, but if your experience indicates otherwise please contact us by submitting a support ticket through the Azure portal.

Best Practices für den DateneingangIngress best practices

Folgende Best Practices werden empfohlen:We recommend that you employ the following best practices:

  • Konfigurieren Sie Time Series Insights und eine IoT Hub- oder Event Hub-Instanz in derselben Region.Configure Time Series Insights and an IoT hub or event hub in the same region. So reduzieren Sie die durch das Netzwerk verursachte Erfassungslatenz.This will reduce ingestion latency incurred due to the network.
  • Planen Sie Ihre Anforderungen an das Eingangsvolumen, indem Sie die erwartete Erfassungsrate berechnen und überprüfen, ob diese sich innerhalb der unterstützten Rate befindet, wie weiter unten erläutert.Plan for your scale needs by calculating your anticipated ingestion rate and verifying that it falls within the supported rate listed below
  • Informieren Sie sich unter Gestalten von JSON für Abfragen über die Optimierung und Gestaltung Ihrer JSON-Daten sowie über die aktuellen Einschränkungen der Vorschau.Understand how to optimize and shape your JSON data, as well as the current limitations in preview, by reading how to shape JSON for ingress and query.

Dateneingangsvolumen und Einschränkungen der VorschauversionIngress scale and limitations in preview

Standardmäßig unterstützt Time Series Insights Preview beim anfänglichen Dateneingang ein Volumen von 1 Megabyte pro Sekunde (MB/s) pro Umgebung.By default, Time Series Insights Preview supports an initial ingress scale of up to 1 megabyte per second (MB/s) per environment. Bei Bedarf steht ein Durchsatz von bis zu 16 MB/s zur Verfügung. Kontaktieren Sie uns in diesem Fall, indem Sie im Azure-Portal ein Supportticket übermitteln.Up to 16 MB/s throughput is available if required, please contact us by submitting a support ticket in the Azure portal if this is needed. Darüber hinaus besteht ein Limit von 0,5 MB/s pro Partition.Additionally, there is a per-partition limit of 0.5 MB/s. Angesichts der Affinität zwischen einem IoT Hub-Gerät und einer Partition kann dies umfassende Auswirkungen auf Kunden haben, die in großem Umfang IoT Hub verwenden.This has implications for customers using IoT Hub specifically, given the affinity between an IoT Hub device an partition. In Szenarien, in denen ein Gatewaygerät Nachrichten unter Verwendung der eigenen Geräte-ID und einer eigenen Verbindungszeichenfolge an den Hub weiterleitet, besteht die Gefahr, dass der Grenzwert von 0,5 MB/s erreicht wird. Dies liegt daran, dass die Nachrichten bei einer einzelnen Partition eintreffen, auch wenn die Ereignisnutzlast verschiedene Time Series-IDs angibt.In scenarios where one gateway device is forwarding messages to hub using it's own device ID and connection string, there is the danger of reaching the 0.5 MB/s limit given that messages will arrive in a single partition, even if the event payload specifies different TS IDs. Im Allgemeinen wird die Eingangsrate als Faktor der Anzahl von Geräten in Ihrer Organisation, der Häufigkeit der Ereignisausgabe und der Größe eines Ereignisses betrachtet.In general, ingress rate is viewed as a factor of the number of devices that are in your organization, event emission frequency, and the size of an event. Beim Berechnen der Erfassungsrate sollten IoT Hub-Benutzer die Anzahl der verwendeten Hubverbindungen einbeziehen, nicht die Gesamtanzahl von Geräten in der Organisation.When calculating ingestion rate, IoT Hub users should use the number of hub connections in use, rather than total devices in the organization. Verbesserte Skalierungsunterstützung erfolgt fortwährend.Enhanced scaling support is ongoing. Die vorliegende Dokumentation wird mit diesen Verbesserungen aktualisiert.This documentation will be updated to reflect those improvements.

Warnung

In Umgebungen, die IoT Hub als Ereignisquelle verwenden, berechnen Sie die Erfassungsrate, nicht die Anzahl von verwendeten Hubgeräten.For environments using IoT Hub as an event source, calculate ingestion rate using the number of hub devices in use.

Weitere Informationen zu Durchsatzeinheiten und Partitionen finden Sie unter den folgenden Links:Please refer to the following links for more information on throughput units and partitions:

DatenspeicherData storage

Wenn Sie eine Time Series Insights Preview-Umgebung mit einer SKU mit nutzungsbasierter Bezahlung erstellen, erstellen Sie zwei Azure-Ressourcen:When you create a Time Series Insights Preview pay-as-you-go SKU environment, you create two Azure resources:

  • Eine Time Series Insights Preview-Umgebung, die optional warme Speicherfunktionen enthalten kann.A Time Series Insights Preview environment that can optionally include warm store capabilities.
  • Ein Azure Storage-Blobkonto vom Typ „Universell V1“ für die Speicherung von kalten Daten.An Azure Storage general-purpose V1 blob account for cold data storage.

Daten im warmen Speicher sind nur über Zeitreihenabfragen und den Azure Time Series Insights Preview-Explorer verfügbar.Data in your warm store is available only via Time Series Query and the Azure Time Series Insights Preview explorer.

Time Series Insights Preview speichert kalte Speicherdaten im Parquet-Dateiformat im Azure-Blobspeicher.Time Series Insights Preview saves your cold store data to Azure Blob storage in the Parquet file format. Time Series Insights Preview verwaltet diese kalten Speicherdaten exklusiv. Sie können diese Daten jedoch direkt als standardmäßige Parquet-Dateien lesen.Time Series Insights Preview manages this cold store data exclusively, but it's available for you to read directly as standard Parquet files.

Warnung

Als Besitzer des Azure-Blobspeicherkontos, in dem sich die kalten Daten befinden, haben Sie Vollzugriff auf alle Daten im Konto.As the owner of the Azure Blob storage account where cold store data resides, you have full access to all data in the account. Dieser Zugriff umfasst Berechtigungen zum Schreiben und Löschen.This access includes write and delete permissions. Bearbeiten oder löschen Sie keine von Time Series Insights Preview geschriebenen Daten, da dies zu Datenverlusten führen kann.Don't edit or delete the data that Time Series Insights Preview writes, because that can cause data loss.

DatenverfügbarkeitData availability

Time Series Insights Preview partitioniert und indiziert Daten, um eine optimale Abfrageleistung zu erzielen.Time Series Insights Preview partitions and indexes data for optimum query performance. Die Daten stehen nach der Indizierung für Abfragen zur Verfügung.Data becomes available to query after it’s indexed. Die Menge an erfassten Daten kann sich auf diese Verfügbarkeit auswirken.The amount of data that's being ingested can affect this availability.

Wichtig

Das anstehende allgemein verfügbare Time Series Insights-Release wird Daten innerhalb von 60 Sekunden nach dem Lesen aus der Ereignisquelle zur Verfügung stellen.The upcoming general availability (GA) release of Time Series Insights will make data available in 60 seconds after it's read from the event source. Während der Vorschau kann es länger dauern, bis die Daten verfügbar sind.During the preview, you might experience a longer period before data becomes available. Wenn Sie eine erhebliche Latenz von weit über 60 Sekunden feststellen, übermitteln Sie ein Supportticket über das Azure-Portal.If you experience significant latency beyond 60 seconds, please submit a support ticket through the Azure portal.

Azure StorageAzure Storage

Dieser Abschnitt enthält für Azure Time Series Insights Preview relevante Informationen zu Azure Storage.This section describes Azure Storage details relevant to Azure Time Series Insights Preview.

Eine ausführliche Beschreibung des Azure Blobspeichers finden Sie in der Einführung in Azure Blob Storage.For a thorough description of Azure Blob storage, read the Storage blobs introduction.

Ihr SpeicherkontoYour storage account

Wenn Sie eine Time Series Insights Preview-Umgebung mit nutzungsbasierter Bezahlung erstellen, wird ein Azure Storage-Blobkonto vom Typ „Universell V1“ als langfristiger Speicher für kalte Daten erstellt.When you create a Time Series Insights Preview pay-as-you-go environment, an Azure Storage general-purpose V1 blob account is created as your long-term cold store.

Time Series Insights Preview veröffentlicht bis zu zwei Kopien jedes Ereignisses in Ihrem Azure-Speicherkonto.Time Series Insights Preview publishes up to two copies of each event in your Azure storage account. In der ersten Kopie sind die Ereignisse nach Erfassungszeitpunkt sortiert. Diese Kopie wird dauerhaft beibehalten, sodass Sie andere Dienste für den Zugriff darauf verwenden können.The initial copy has events ordered by ingestion time and is always preserved, so you can use other services to access it. Sie können Spark, Hadoop oder andere vertraute Tools verwenden, um die unformatierten Parquet-Dateien zu verarbeiten.You can use Spark, Hadoop, and other familiar tools to process the raw Parquet files.

Time Series Insights Preview partitioniert die Parquet-Dateien neu, um sie für die Time Series Insights-Abfragen zu optimieren.Time Series Insights Preview repartitions the Parquet files to optimize for the Time Series Insights query. Diese neu partitionierte Kopie der Daten wird ebenfalls gespeichert.This repartitioned copy of the data is also saved.

Während der öffentlichen Preview werden Daten mit unbegrenzter Dauer in Ihrem Azure-Speicherkonto gespeichert.During public preview, data is stored indefinitely in your Azure storage account.

Schreiben und Bearbeiten von Time Series Insights-BlobsWriting and editing Time Series Insights blobs

Um Abfrageleistung und Datenverfügbarkeit sicherzustellen, bearbeiten oder löschen Sie keine Blobs, die von Time Series Insights Preview erstellt werden.To ensure query performance and data availability, don't edit or delete any blobs that Time Series Insights Preview creates.

Zugreifen auf und Exportieren von Daten aus Time Series Insights PreviewAccessing and exporting data from Time Series Insights Preview

Sie können auf im Time Series Insights Preview-Explorer gespeicherte Daten zugreifen, um sie in Verbindung mit anderen Diensten zu verwenden.You might want to access data viewed in the Time Series Insights Preview explorer to use in conjunction with other services. Sie können die Daten z. B. verwenden, um einen Bericht in Power BI zu erstellen oder in Azure Machine Learning Studio ein Machine Learning-Modell zu trainieren.For example, you can use your data to build a report in Power BI or to train a machine learning model by using Azure Machine Learning Studio. Sie können die Daten auch zum Transformieren, Visualisieren und Modellieren in Ihren Jupyter-Notebooks verwenden.Or, you can use your data to transform, visualize, and model in your Jupyter Notebooks.

Sie können auf drei allgemeine Arten auf Ihre Daten zugreifen:You can access your data in three general ways:

  • Aus dem Time Series Insights Preview-Explorer.From the Time Series Insights Preview explorer. Sie können Daten als CSV-Datei aus dem Explorer exportieren.You can export data as a CSV file from the explorer. Weitere Informationen finden Sie unter Time Series Insights Preview-Explorer.For more information, see Time Series Insights Preview explorer.
  • Über die Time Series Insights Preview-API.From the Time Series Insights Preview API. Sie können unter /getRecorded auf den API-Endpunkt zugreifen.You can reach the API endpoint at /getRecorded. Weitere Informationen zu dieser API finden Sie unter Zeitreihenabfrage.To learn more about this API, see Time Series Query.
  • Direkt aus einem Azure-Speicherkonto.Directly from an Azure storage account. Sie benötigen Lesezugriff auf das jeweilige Konto, das Sie für den Zugriff auf Ihre Time Series Insights Preview-Daten verwenden.You need read access to whatever account you're using to access your Time Series Insights Preview data. Weitere Informationen finden Sie unter Verwalten des Zugriffs auf Ihre Speicherkontoressourcen.For more information, see Manage access to your storage account resources.

Löschen von DatenData deletion

Löschen Sie Ihre Time Series Insights Preview-Daten nicht.Don't delete your Time Series Insights Preview files. Sie sollten zugehörige Daten nur innerhalb von Time Series Insights Preview verwalten.You should manage related data from within Time Series Insights Preview only.

Parquet-Dateiformat und OrdnerstrukturParquet file format and folder structure

Parquet ist ein spaltenbasiertes Open-Source-Dateiformat, das für effiziente Speicherung und Leistung konzipiert wurde.Parquet is an open-source columnar file format that was designed for efficient storage and performance. Aus diesen Gründen wird Parquet von Time Series Insights Preview verwendet.Time Series Insights Preview uses Parquet for these reasons. Die Daten werden anhand der Zeitreihen-ID partitioniert, um bei großen Datenmengen eine hohe Abfrageleistung zu erzielen.It partitions data by Time Series ID for query performance at scale.

Weitere Informationen zum Parquet-Dateityp finden Sie in der Parquet-Dokumentation.For more information about the Parquet file type, see the Parquet documentation.

Time Series Insights Preview speichert wie folgt Kopien Ihrer Daten:Time Series Insights Preview stores copies of your data as follows:

  • Die erste, anfängliche Kopie wird anhand des Erfassungszeitpunkts partitioniert und speichert Daten in etwa in der Reihenfolge ihres Eingangs.The first, initial copy is partitioned by ingestion time and stores data roughly in order of arrival. Die Daten befinden sich im Ordner PT=Time:The data resides in the PT=Time folder:

    V=1/PT=Time/Y=<YYYY>/M=<MM>/<YYYYMMDDHHMMSSfff>_<TSI_INTERNAL_SUFFIX>.parquet

  • Die zweite, neu partitionierte Kopie wird durch Gruppierung von Zeitreihen-IDs partitioniert und befindet sich im Ordner PT=TsId:The second, repartitioned copy is partitioned by a grouping of Time Series IDs and resides in the PT=TsId folder:

    V=1/PT=TsId/Y=<YYYY>/M=<MM>/<YYYYMMDDHHMMSSfff>_<TSI_INTERNAL_SUFFIX>.parquet

In beiden Fällen entsprechen die Werte für die Uhrzeit der Uhrzeit der Bloberstellung.In both cases, the time values correspond to blob creation time. Daten im Ordner PT=Time werden beibehalten.Data in the PT=Time folder is preserved. Daten im Ordner PT=TsId werden im Lauf der Zeit für Abfragen optimiert und bleiben nicht statisch.Data in the PT=TsId folder will be optimized for query over time and will not remain static.

Hinweis

  • <YYYY> entspricht einer vierstelligen Jahresdarstellung.<YYYY> maps to a four-digit year representation.
  • <MM> entspricht einer zweistelligen Monatsdarstellung.<MM> maps to a two-digit month representation.
  • <YYYYMMDDHHMMSSfff> entspricht einer Zeitstempeldarstellung mit folgendem Format: vierstellige Jahresangabe (YYYY), zweistellige Monatsangabe (MM), zweistellige Tagesangabe (DD), zweistellige Stundenangabe (HH), zweistellige Minutenangabe (MM), zweistellige Sekundenangabe (SS) und dreistellige Millisekundenangabe (fff).<YYYYMMDDHHMMSSfff> maps to a time-stamp representation with four-digit year (YYYY), two-digit month (MM), two-digit day (DD), two-digit hour (HH), two-digit minute (MM), two-digit second (SS), and three-digit millisecond (fff).

Time Series Insights Preview-Ereignisse werden dem Inhalt von Parquet-Dateien wie folgt zugeordnet:Time Series Insights Preview events are mapped to Parquet file contents as follows:

  • Jedes Ereignis wird einer einzelnen Zeile zugeordnet.Each event maps to a single row.
  • Jede Zeile enthält die Spalte timestamp mit einem Zeitstempel für das Ereignis.Every row includes the timestamp column with an event time stamp. Die timestamp-Eigenschaft ist nie NULL.The time-stamp property is never null. Ihr Standardwert ist der Zeitpunkt der Einreihung des Ereignisses in die Warteschlange, wenn die timestamp-Eigenschaft in der Ereignisquelle nicht angegeben ist.It defaults to event enqueued time if the time-stamp property isn't specified in the event source. Der Zeitstempel wird immer in UTC angegeben.The time stamp is always in UTC.
  • Jede Zeile enthält eine Spalte mit der Zeitreihen-ID, wie beim Erstellen der Time Series Insights-Umgebung definiert.Every row includes the Time Series ID column as defined when the Time Series Insights environment is created. Der Eigenschaftsname enthält das Suffix _string.The property name includes the _string suffix.
  • Alle anderen als Telemetriedaten gesendeten Eigenschaften werden Spaltennamen zugeordnet, die je nach Eigenschaftstyp auf _string (Zeichenfolge), _bool (boolesch), _datetime (Datum/Uhrzeit) und _double (Double) enden.All other properties sent as telemetry data are mapped to column names that end with _string (string), _bool (Boolean), _datetime (datetime), or _double (double), depending on the property type.
  • Dieses Zuordnungsschema gilt für die erste Version des Dateiformats, auf das als V=1 verwiesen wird.This mapping scheme applies to the first version of the file format, referenced as V=1. Mit der Weiterentwicklung dieses Features wird der Name hochgezählt.As this feature evolves, the name might be incremented.

Nächste SchritteNext steps