Share via


Inkrementelle Aktualisierung für Power Query und Data Lake Storage-Datenquellen

Die inkrementelle Aktualisierung von Datenquellen basierend auf Power Query (Vorschauversion) oder Azure Data Lake Storage bietet die folgenden Vorteile:

  • Schneller aktualisiert – Nur geänderte Daten werden aktualisiert. Beispielsweise können Sie nur die letzten fünf Tage eines historischen DataSet aktualisieren.
  • Erhöhte Zuverlässigkeit – Bei kleineren Aktualisierungen müssen Sie die Verbindungen zu flüchtigen Quellsystemen nicht so lange aufrechterhalten, um das Risiko von Verbindungsproblemen zu verringern.
  • Reduzierter Ressourcenverbrauch – Das Aktualisieren nur einer Teilmenge Ihrer Gesamtdaten führt zu einer effizienteren Nutzung der Computerressourcen und verringert den ökologischen Fußabdruck.

Inkrementelle Aktualisierung für auf Power Query (Vorschauversion) basierenden Datenquellen konfigurieren

[Dieser Artikel ist Teil der Dokumentation zur Vorabversion und kann geändert werden.]

Konfigurieren Sie alle Power Query-Datenquellen in Customer Insights - Data zum inkrementellen Aktualisieren von Daten. Die Datenquelle muss eine Primärschlüsselspalte haben, die Datensätze eindeutig identifiziert, und eine Datums-/Uhrzeitspalte, die angibt, wann die Daten zuletzt aktualisiert wurden.

Wichtig

  • Dies ist eine Vorschauversion.
  • Funktionen in der Vorschauversion sind nicht für den produktiven Einsatz gedacht und können eine eingeschränkte Funktionalität aufweisen. Diese Funktionen stehen vor der offiziellen Veröffentlichung zur Verfügung, damit Kunden frühzeitig Zugriff erhalten und Feedback geben können.
  1. Erstellen Sie eine neue Datenquelle basierend auf Power Query.

  2. Wählen Sie eine Datenquelle aus, die inkrementelle Aktualisierungen unterstützt, z. B. Azure SQL-Datenbank.

  3. Wählen Sie die erfassenden Tabellen aus.

  4. Schließen Sie die Transformationsschritte ab und wählen Sie Nächster.

  5. In dem Richten Sie eine inkrementelle Aktualisierung ein Dialogfeld wählen Sie Konfiguration, um die Inkrementelle Aktualisierungseinstellungen zu öffnen. Wenn Sie Überspringen auswählen, aktualisiert die Datenquelle das gesamte Dataset.

    Trinkgeld

    Sie können die inkrementelle Aktualisierung auch später anwenden, indem Sie ein vorhandenes Datenquelle bearbeiten.

  6. Auf Inkrementelle Aktualisierungseinstellungen konfigurieren Sie die inkrementelle Aktualisierung für alle Tabellen, die Sie beim Erstellen des Datenquelle ausgewählt haben.

    Inkrementelle Aktualisierungseinstellungen konfigurieren.

  7. Wählen Sie eine Tabelle aus und geben Sie die folgenden Details an:

    • Definieren Sie den Primärschlüssel: Wählen Sie einen Primärschlüssel für die Tabelle aus.
    • Definieren Sie das Feld Zuletzt aktualisiert: In diesem Feld werden nur Attribute vom Typ Datum oder Uhrzeit angezeigt. Wählen Sie ein Attribut aus, das angibt, wann die Datensätze zuletzt aktualisiert wurden. Dieses Attribut identifiziert die Datensätze, die unter die inkrementelle Aktualisierung Zeitrahmen fallen.
    • Nach Updates suche, alle : Geben Sie an, wie lange der Zeitrahmen für die inkrementelle Aktualisierung dauern soll.
  8. Wählen Sie speichern, um die Erstellung des Datenquelle abzuschließen. Die anfängliche Datenaktualisierung ist eine vollständige Aktualisierung. Anschließend erfolgt die inkrementelle Datenaktualisierung wie im vorherigen Schritt konfiguriert.

Inkrementelle Aktualisierung für Azure Data Lake Storage-Datenquellen konfigurieren

Microsoft empfiehlt das Delta-Lake-Format, um die beste Leistung und die besten Ergebnisse bei der Arbeit mit großen Datasets zu erzielen. Customer Insights - Data bietet einen Connector, der für Delta Lake-formatierte Daten optimiert ist. Interne Prozesse wie die Vereinheitlichung werden optimiert, um schrittweise nur die geänderten Daten zu verarbeiten, was zu kürzeren Verarbeitungszeiten führt.

Um die inkrementelle Erfassung und Aktualisierung für eine Data Lake-Tabelle zu verwenden, konfigurieren Sie diese Tabelle beim Hinzufügen oder Bearbeiten der Azure Data Lake-Datenquelle. Der Tabellendatenordner muss die folgenden Ordner enthalten:

  • Der Ordner FullData mit Datendateien mit Anfangsdatensätzen
  • IncrementalData: Ordner mit Datum/Uhrzeit-Hierarchieordnern in jjjj/mm/tt/hh Format, das die inkrementellen Updates enthält. Es wird erwartet, dass die Ordner für Jahr, Monat, Tag und Stunde vier- bzw. zweistellig sind. hh stellt die UTC-Stunde der Updates dar und enthält die Upserts und Löschen Ordner. Upserts enthält Datendateien mit Aktualisierungen bestehender Datensätze oder neuer Datensätze. Löscht enthält Datendateien mit Datensätzen, die entfernt werden sollen.

Reihenfolge der Verarbeitung inkrementeller Daten

Das System verarbeitet die Dateien im Ordner IncrementalDatanach der angegebenen UTC-Stunde. Wenn das System beispielsweise am 21. Januar 2023 um 8:15 Uhr mit der Verarbeitung der inkrementellen Aktualisierung beginnt, werden alle Dateien verarbeitet, die sich im Ordner 2023/01/21/07 befinden (der Datendateien darstellt, die von 7:00 bis 8:00 Uhr gespeichert wurden). Alle Dateien im Ordner „2023/01/21/08“ (der die aktuelle Stunde darstellt, in der die Dateien noch generiert werden) werden erst bei der nächsten Ausführung verarbeitet.

Wenn zwei Datensätze für einen Primärschlüssel, ein Upsert und ein Löschvorgang vorhanden sind, verwendet Customer Insights - Data den Datensatz mit dem letzten Änderungsdatum. Wenn der Löschzeitstempel beispielsweise 2023-01-21T08:00:00 und der Upsert-Zeitstempel 2023-01-21T08:30:00 lautet, wird der Upsert-Datensatz verwendet. Wenn die Löschung nach dem Upsert erfolgte, geht das System davon aus, dass der Datensatz gelöscht wurde.

Die inkrementelle Aktualisierung für Azure Data Lake-Datenquellen konfigurieren

  1. Navigieren Sie beim Hinzufügen oder Bearbeiten eines Datenquelle zum Bereich Attribute für die Tabelle.

  2. Atribute bewerten. Stellen Sie sicher, dass ein erstelltes oder zuletzt aktualisiertes Datumsattribut mit einem dateTime-Dateiformat und einem Calender.Date als Semantischem Typ eingerichtet ist. Bearbeiten Sie ggf. das Attribut und wählen Sie Fertig.

  3. Bearbeiten Sie im Bereich Tabellen auswählen die Tabelle. Das Inkrementelle Erfassung Kontrollkästchen ist aktiviert.

    Konfigurieren Sie Tabellen in einem Datenquelle für die inkrementelle Aktualisierung.

    1. Navigieren Sie zum Stammordner, der die .csv- oder .parquet-Dateien für vollständige Daten, inkrementelle Daten-Upserts und inkrementelle Datenlöschungen enthält.
    2. Geben Sie die Erweiterung für die vollständigen Daten und beide inkrementellen Dateien ein (.csv oder .Parquet).
    3. Wählen Sie für .csv-Dateien das Spaltentrennzeichen und wenn Sie die erste Zeile der Datei als Spaltenüberschrift haben möchten.
    4. Wählen Sie Save (Speichern).
  4. Für Zuletzt aktualisiert wählen Sie das Attribut date timestamp aus.

  5. Wenn der Primärschlüssel nicht ausgewählt ist, wählen Sie den Primärschlüssel aus. Der Primärschlüssel ist ein für die Tabelle eindeutiges Attribut. Damit ein Attribut ein gültiger Primärschlüssel ist, sollte es keine doppelten Werte, fehlenden Werte oder Nullwerte enthalten. Als Primärschlüssel werden String-, Integer- und GUID-Datentypattribute unterstützt.

  6. Wählen Sie Schließen, um den Bereich zu speichern und zu schließen.

  7. Fahren Sie mit dem Hinzufügen oder Bearbeiten der Datei Datenquelle fort.

Einmalige Aktualisierung für Azure Data Lake-Datenquellen ausführen

Nachdem Sie eine inkrementelle Aktualisierung für Azure Data Lake-Datenquellen konfigurieren, gibt es Zeiten, in denen Daten mit einer vollständigen Aktualisierung verarbeitet werden müssen. Der vollständige Datenordner, der für die inkrementelle Aktualisierung eingerichtet wurde, muss den Speicherort der vollständigen Daten enthalten.

  1. Navigieren Sie beim Bearbeiten von Datenquelle zum Bereich Tabellen auswählen und bearbeiten Sie die Tabelle, die Sie aktualisieren möchten.

  2. Scrollen Sie im Bereich Tabelle bearbeiten zum Kontrollkästchen Einmalige vollständige Aktualisierung ausführen und aktivieren Sie es.

    Konfigurieren Sie die Tabelle in einer Datenquelle für die einmalige Aktualisierung.

  3. Geben Sie für Inkrementelle Dateien verarbeiten von das Datum und die Uhrzeit für die Aufbewahrung der inkrementellen Dateien an. Die Verarbeitung der vollständigen Daten plus der inkrementellen Daten beginnt nach dem angegebenen Datum und der angegebenen Uhrzeit. Wenn Sie beispielsweise bis Ende November eine teilweise Datenaktualisierung/einen Abgleich durchführen möchten, während die inkrementellen Daten von Anfang Dezember bis heute (30. Dezember) beibehalten werden, geben Sie den 1. Dezember ein. Um alle Daten zu ersetzen und die Daten im inkrementellen Ordner zu ignorieren, geben Sie ein Datum in der Zukunft an.

  4. Wählen Sie Schließen, um den Bereich zu speichern und zu schließen.

  5. Klicken Sie auf Speichern, um Ihre Änderungen zu übernehmen und zur Seite Datenquellen zurückzukehren. Datenquelle befindet sich im Status Wird aktualisiert und führt eine vollständige Aktualisierung durch.