Erfassen von Verlaufsdaten in Azure Data Explorer

Ein häufiges Szenario beim Onboarding in Azure Data Explorer ist die Erfassung von Verlaufsdaten, die manchmal als Backfill bezeichnet werden. Der Prozess umfasst das Erfassen von Daten aus einem vorhandenen Speichersystem in einer Tabelle, bei der es sich um eine Sammlung von Erweiterungen handelt.

Es wird empfohlen, Verlaufsdaten mithilfe der creationTime-Erfassungseigenschaft zu erfassen, um die Erstellungszeit von Ausdehnungen auf den Zeitpunkt der Datenerstellung festzulegen. Die Verwendung der Erstellungszeit als Erfassungspartitionierungskriterium kann Ihre Daten gemäß Ihren Cache- und Aufbewahrungsrichtlinien altern und Zeitfilter effizienter gestalten.

Standardmäßig wird die Erstellungszeit für Erweiterungen auf den Zeitpunkt festgelegt, zu dem die Daten erfasst werden, was möglicherweise nicht zu dem erwarteten Verhalten führt. Angenommen, Sie verfügen über eine Tabelle mit einem Cachezeitraum von 30 Tagen und einem Aufbewahrungszeitraum von zwei Jahren. Im normalen Datenfluss werden die bei der Produktion erfassten Daten 30 Tage lang zwischengespeichert und dann in cold storage verschoben. Nach zwei Jahren werden ältere Daten basierend auf der Erstellungszeit jeweils einen Tag nach dem anderen entfernt. Wenn Sie jedoch verlaufsbezogene Daten von zwei Jahren erfassen, werden die Daten standardmäßig mit der Erstellungszeit als Erfassungszeit markiert. Dies führt möglicherweise nicht zu dem gewünschten Ergebnis, weil:

  • Alle Daten landen im Cache und bleiben dort 30 Tage lang und verwenden mehr Cache als erwartet.
  • Ältere Daten werden nicht täglich entfernt. Daher werden die Daten länger als erforderlich im Cluster aufbewahrt und nach zwei Jahren auf einmal entfernt.
  • Daten, die zuvor im Quellsystem nach Datum gruppiert waren, können jetzt im gleichen Umfang in batchediert werden, was zu ineffizienten Abfragen führt.

Diagramm: Erwartetes und tatsächliches Ergebnis der Erfassung von Verlaufsdaten mithilfe der Standarderstellungszeit

In diesem Artikel erfahren Sie, wie Sie Verlaufsdaten partitionieren:

  • Verwenden der creationTime Erfassungseigenschaft während der Erfassung (empfohlen)

    Erfassen Sie nach Möglichkeit Verlaufsdaten mithilfe der creationTime Erfassungseigenschaft, mit der Sie die Erstellungszeit der Ausdehnungen festlegen können, indem Sie sie aus dem Datei- oder Blobpfad extrahieren. Wenn Ihre Ordnerstruktur kein Erstellungsdatumsmuster verwendet, wird empfohlen, Den Datei- oder Blobpfad so zu strukturieren, dass sie die Erstellungszeit widerspiegeln. Bei Verwendung dieser Methode werden die Daten mit der richtigen Erstellungszeit in der Tabelle erfasst, und die Cache- und Aufbewahrungszeiträume werden ordnungsgemäß angewendet.

    Hinweis

    Standardmäßig werden Erweiterungen nach dem Zeitpunkt der Erstellung (Erfassung) partitioniert, und in den meisten Fällen ist es nicht erforderlich, eine Datenpartitionierungsrichtlinie festzulegen.

  • Verwenden einer Partitionierungsrichtlinie nach der Erfassung

    Wenn Sie die creationTime Erfassungseigenschaft nicht verwenden können, z. B. wenn Sie Daten mit dem Azure Cosmos DB-Connector erfassen , wo Sie die Erstellungszeit nicht steuern können, oder wenn Sie ihre Ordnerstruktur nicht neu strukturieren können, können Sie die Tabelle nach der Erfassung neu partitionieren, um denselben Effekt mit der Partitionierungsrichtlinie zu erzielen. Diese Methode erfordert jedoch möglicherweise einige Testversionen und Fehler, um Richtlinieneigenschaften zu optimieren, und ist weniger effizient als die Verwendung der creationTime Erfassungseigenschaft. Diese Methode wird nur empfohlen, wenn die Verwendung der creationTime Erfassungseigenschaft nicht möglich ist.

Voraussetzungen

Erfassen historischer Daten

Es wird dringend empfohlen, Verlaufsdaten mithilfe der Erfassungseigenschaft während der creationTime Erfassung zu partitionieren. Wenn Sie diese Methode jedoch nicht verwenden können, können Sie die Tabelle nach der Erfassung mithilfe einer Partitionierungsrichtlinie neu partitionieren.

LightIngest kann nützlich sein, um Verlaufsdaten aus einem vorhandenen Speichersystem in Azure Data Explorer zu laden. Während Sie ihren eigenen Befehl mithilfe der Liste der Befehlszeilenargumente erstellen können, erfahren Sie in diesem Artikel, wie Sie diesen Befehl über einen Erfassungs-Assistenten automatisch generieren. Sie können mit diesem Prozess nicht nur den Befehl, sondern auch eine neue Tabelle und eine Schemazuordnung erstellen. Dieses Tool leitet die Schemazuordnung aus Ihrem Dataset ab.

Destination

  1. Wählen Sie auf der Azure Data Explorer-Weboberfläche im linken Menü die Option Abfrage aus.

  2. Klicken Sie mit der rechten Maustaste auf die Datenbank, in der Sie die Daten erfassen möchten, und wählen Sie dann LightIngest aus.

    Screenshot der Azure Data Explorer-Weboberfläche mit dem Menü

    Das Fenster Daten erfassen wird mit ausgewählter Registerkarte Ziel geöffnet. Die Felder Cluster und Datenbank werden automatisch aufgefüllt.

  3. Wählen Sie eine Zieltabelle aus. Wenn Sie Daten in einer neuen Tabelle erfassen möchten, wählen Sie Neue Tabelle aus, und geben Sie dann einen Tabellennamen ein.

    Hinweis

    Tabellennamen können bis zu 1024 Zeichen umfassen, einschließlich Leerzeichen, alphanumerischer Zeichen, Bindestrichen und Unterstrichen. Sonderzeichen werden nicht unterstützt.

    Screenshot der Zielregisterkarte mit der Zieldatenbank und -tabelle.

  4. Wählen Sie die Option Weiter: Quelle aus.

`Source`

  1. Wählen Sie unter Quelle auswählen entweder URL hinzufügen oder Container auswählen aus.

    • Geben Sie beim Hinzufügen einer URL unter Link zur Quelle den Kontoschlüssel oder die SAS-URL zu einem Container an. Sie können die SAS-URL manuell oder automatisch erstellen.

    • Wenn Sie einen Container aus Ihrem Speicherkonto auswählen, wählen Sie in den Dropdownmenüs Ihr Speicherabonnement, Ihr Speicherkonto und Container aus.

      Screenshot: Dialogfeld zum Auswählen eines Containers aus Speicherabonnement und -konto

    Hinweis

    Die Erfassung unterstützt eine maximale Dateigröße von 6 GB. Es wird empfohlen, Dateien zwischen 100 MB und 1 GB zu erfassen.

  2. Wählen Sie Erweiterte Einstellungen aus, um zusätzliche Einstellungen für den Erfassungsprozess mit LightIngest zu definieren.

    Screenshot: Auswählen von „Erweiterte Einstellungen“ für die Erfassungsverarbeitung mit dem Tool LightIngest

  3. Definieren Sie im Bereich Erweiterte Konfiguration die LightIngest-Einstellungen gemäß der folgenden Tabelle.

    Screenshot des Bereichs

    Eigenschaft BESCHREIBUNG
    Erstellungszeitmuster Mit dieser Angabe wird die Erfassungszeiteigenschaft der erstellten Erweiterung durch ein Muster überschrieben – beispielsweise, um ein Datum basierend auf der Ordnerstruktur des Containers anzuwenden. Weitere Informationen finden Sie auch unter Erfassen von Daten mithilfe von CreationTime.
    Blob-Namensmuster Geben Sie das Muster zum Identifizieren der zu erfassenden Dateien an. Es werden alle Dateien erfasst, die dem Blob-Namensmuster im angegebenen Container entsprechen. Unterstützt Platzhalter. Es wird empfohlen, doppelte Anführungszeichen einzufügen.
    Tag Ein Tag, das den erfassten Daten zugewiesen wird. Das Tag kann eine beliebige Zeichenfolge sein.
    Begrenzen der Anzahl von Dateien Geben Sie die Anzahl von Dateien an, die erfasst werden können. Es werden die ersten n Dateien erfasst, die dem Blob-Namensmuster entsprechen (bis zur angegebenen Anzahl).
    Warten Sie nicht, bis die Erfassung abgeschlossen ist. Wenn diese Einstellung festgelegt ist, werden die Blobs für die Erfassung in die Warteschlange eingereiht, ohne den Erfassungsprozess zu überwachen. Ist die Einstellung nicht festgelegt, fragt LightIngest immer wieder den Erfassungsstatus ab, bis die Erfassung abgeschlossen ist.
    Nur ausgewählte Elemente anzeigen Listet die Dateien im Container auf, erfasst sie aber nicht.
  4. Wählen Sie Fertig aus, um zur Registerkarte Quelle zurückzukehren.

    1. Wählen Sie optional Dateifilter aus, um die Daten zu filtern, um nur Dateien in einem bestimmten Ordnerpfad oder mit einer bestimmten Dateierweiterung zu erfassen.

      Screenshot: Filtern von Daten auf der Registerkarte „Quelle“ auf dem Bildschirm „Neue Daten erfassen“

      Standardmäßig wird eine der Dateien im Container zufällig ausgewählt und zum Generieren des Schemas für die Tabelle verwendet.

    2. Optional können Sie unter Schemadefinitionsdatei die zu verwendende Datei angeben.

  5. Wählen Sie die Option Weiter: Schema aus, um Ihre Tabellenspaltenkonfiguration anzuzeigen und zu bearbeiten.

Schema

Die Registerkarte Schema bietet eine Vorschau der Daten.

Um den LightIngest-Befehl zu generieren, wählen Sie Weiter: Erfassung starten aus.

Optional:

  • Ändern Sie das automatisch abgeleitete Datenformat , indem Sie im Dropdownmenü das gewünschte Format auswählen.
  • Ändern Sie den automatisch abgeleiteten Zuordnungsnamen. Sie können alphanumerische Zeichen und Unterstriche verwenden. Leerzeichen, Sonderzeichen und Bindestriche werden nicht unterstützt.
  • Bei Verwendung einer vorhandenen Tabelle können Sie Keep current table schema (Aktuelles Tabellenschema beibehalten) auswählen, wenn das Tabellenschema dem ausgewählten Format entspricht.
  • Wählen Sie Befehlsanzeige aus , um die automatischen Befehle anzuzeigen und zu kopieren, die aus Ihren Eingaben generiert werden.
  • Bearbeiten von Spalten. Wählen Sie unter Teildatenvorschau die Dropdownmenüs für Spalten aus, um verschiedene Aspekte der Tabelle zu ändern.

Die Änderungen, die Sie an einer Tabelle vornehmen können, hängen von den folgenden Parametern ab:

  • Die Tabelle ist neu oder vorhanden.
  • Die Zuordnung ist neu oder vorhanden.
Tabellentyp Zuordnungstyp Verfügbare Anpassungen
Neue Tabelle Neue Zuordnung Datentyp ändern, Spalte umbenennen, Neue Spalte, Spalte löschen, Spalte aktualisieren, Aufsteigend sortieren, Absteigend sortieren
Vorhandene Tabelle Neue Zuordnung Neue Spalte (für die Sie dann den Datentyp ändern und die Sie umbenennen und aktualisieren können)
Spalte aktualisieren, Aufsteigend sortieren, Absteigend sortieren
Vorhandene Zuordnung Aufsteigend sortieren, Absteigend sortieren

Hinweis

Wenn Sie eine neue Spalte hinzufügen oder eine Spalte aktualisieren, können Sie Zuordnungstransformationen ändern. Weitere Informationen finden Sie unter Zuordnungstransformationen.

Erfassen

  1. Sobald die Tabelle, die Zuordnung und der LightIngest-Befehl mit grünen Häkchen markiert sind, wählen Sie oben rechts im Feld Generierter Befehl das Kopiersymbol aus, um den generierten LightIngest-Befehl zu kopieren.

    Screenshot: Registerkarte „Zusammenfassung“ mit generiertem Befehl. Sie können den Befehl mithilfe des Kopiersymbols oberhalb des Felds mit dem generierten Befehl kopieren.

    Hinweis

    Bei Bedarf können Sie das LightIngest-Tool herunterladen, indem Sie LightIngest herunterladen auswählen.

  2. Um den Erfassungsprozess abzuschließen, müssen Sie LightIngest mit dem kopierten Befehl ausführen.