Katalogisieren von Big Data in Azure Data Catalog

Artikel
12/15/2023

Wichtig

Es können keine neuen Azure Data Catalog-Konten mehr erstellt werden.

Verwenden Sie zur Nutzung von Data Catalog-Features den Dienst Microsoft Purview, der einheitliche Datengovernance für Ihren gesamten Datenbestand bietet.

Wenn Sie bereits den Azure-Datenkatalog verwenden, müssen Sie einen Migrationsplan für Ihre Organisation erstellen, um bis August 2025 zu Microsoft Purview zu wechseln.

Einführung

Microsoft Azure Data Catalog ist ein vollständig verwalteter Clouddienst, der als Registrierungs- und Ermittlungssystem für Datenquellen von Unternehmen dient. Der Dienst unterstützt Benutzer beim Ermitteln, Nachvollziehen und Verwenden von Datenquellen und Unternehmen dabei, mehr Nutzen aus ihren vorhandenen Datenquellen, wie z. B. Big Data, zu ziehen.

Azure Data Catalog unterstützt die Registrierung von Azure Storage-Blobs und -Verzeichnissen sowie Hadoop HDFS-Dateien und -Verzeichnisse. Die teilweise strukturierte Art dieser Datenquellen bietet enorme Flexibilität. Doch um den größten Nutzen aus ihrer Registrierung bei Azure Data Catalog zu ziehen, müssen Benutzer berücksichtigen, wie die Datenquellen organisiert sind.

Verzeichnisse als logische Datensätze

Ein allgemeines Muster für die Organisation von großen Datenquellen ist, Verzeichnisse als logische Datensätze zu behandeln. Verzeichnisse der obersten Ebene werden verwendet, um einen Datensatz zu definieren, während Unterordner Partitionen definieren und die darin enthaltenen Dateien die Daten selbst speichern.

Ein Beispiel für dieses Muster könnte sein:

    \vehicle_maintenance_events
        \2013
        \2014
        \2015
            \01
                \2015-01-trailer01.csv
                \2015-01-trailer92.csv
                \2015-01-canister9635.csv
                ...
    \location_tracking_events
        \2013
        ...

In diesem Beispiel stellen „vehicle_maintenance_events“ und „location_tracking_events“ logische Datensätze dar. Jeder dieser Ordner enthält die Datendateien, die nach Jahr und Monat in Unterordnern organisiert sind. Jeder dieser Ordner kann potenziell hunderte oder tausende von Dateien enthalten.

In diesem Muster ist es vermutlich nicht sinnvoll, einzelne Dateien bei Azure Data Catalog zu registrieren. Registrieren Sie stattdessen die Verzeichnisse, die die Datensätze darstellen, die für die mit den Daten arbeitenden Benutzer von Bedeutung sind.

Verweisdatendateien

Ein ergänzendes Muster besteht darin, Verweisdatensätze als einzelne Dateien zu speichern. Diese Datasets könnten als "kleine" Seite von Big Data betrachtet werden und sind häufig mit Dimensionen in einem analytischen Datenmodell vergleichbar. Verweisdatendateien enthalten Datensätze, die zum Bereitstellen des Kontexts für den größten Teil der Datendateien verwendet werden, die an anderer Stelle im Big Data-Speicher liegen.

Ein Beispiel für dieses Muster könnte sein:

    \vehicles.csv
    \maintenance_facilities.csv
    \maintenance_types.csv

Wenn ein Analytiker oder Datenwissenschaftler mit den in größeren Verzeichnisstrukturen enthaltenen Daten arbeitet, können die Daten in diesen Verweisdateien dazu verwendet werden, detailliertere Informationen zu Entitäten bereitzustellen, die nur durch den Namen oder die ID im größeren Datensatz bezeichnet werden.

In diesem Muster ist es sinnvoll, die einzelnen Verweisdatendateien bei Azure Data Catalogzu registrieren. Jede Datei stellt einen Datensatz dar, und jede kann einzeln kommentiert und ermittelt werden.

Alternative Muster

Die in den vorherigen Abschnitten beschriebenen Muster sind zwei mögliche Möglichkeiten, wie ein Big Data Store organisiert werden kann, aber jede Implementierung unterscheidet sich. Unabhängig davon, wie Ihre Datenquellen strukturiert sind, sollten Sie sich beim Registrieren großer Datenquellen bei Azure Data Catalog darauf konzentrieren, die Dateien und Verzeichnisse zu registrieren, die die Datensätze darstellen, die für andere Personen in Ihrer Organisation von Nutzen sind. Das Registrieren aller Dateien und Verzeichnisse kann den Katalog überlasten, wodurch es den Benutzern erschwert wird, das zu suchen, was sie benötigen.

Zusammenfassung

Das Registrieren von Datenquellen bei Azure Data Catalog erleichtert deren Ermittlung und Verständnis. Durch das Registrieren und Kommentieren der Big Data-Dateien und -Verzeichnisse, die logische Datensätze darstellen, können Ihre Benutzer leichter von ihnen benötigte große Datenquellen suchen und verwenden.