Registrieren von Daten aus Azure Data Lake Storage Gen1 in Azure Data Catalog

In diesem Artikel erfahren Sie, wie Sie Azure Data Lake Storage Gen1 in Azure Data Catalog integrieren, um Ihre Daten mittels Integration in Data Catalog innerhalb einer Organisation auffindbar zu machen. Weitere Informationen zum Katalogisieren von Daten finden Sie unter Azure Data Catalog. Informationen zu den Szenarien, in denen Sie Data Catalog verwenden können, finden Sie unter Häufige Szenarien mit Azure Data Catalog.

Voraussetzungen

Bevor Sie mit diesem Tutorial beginnen können, benötigen Sie Folgendes:

  • Ein Azure-Abonnement. Siehe Kostenlose Azure-Testversion.

  • Aktiviertes Azure-Abonnement für Data Lake Storage Gen1. Weitere Informationen finden Sie in den Anweisungen.

  • Ein Data Lake Storage Gen1-Konto. Befolgen Sie die Anweisungen unter Erste Schritte mit Azure Data Lake Storage Gen1 über das Azure-Portal. Erstellen Sie für dieses Tutorial ein Data Lake Storage Gen1-Konto namens datacatalogstore.

    Nachdem Sie das Konto erstellt haben, laden Sie ein Beispieldataset in das Konto hoch. In diesem Tutorial laden wir alle CSV-Dateien im Ordner AmbulanceData in das Azure Data Lake-Git-Repository hoch. Sie können verschiedene Clients verwenden, z.B. den Azure Storage-Explorer, um Daten in einen Blobcontainer hochzuladen.

  • Azure Data Catalog. In Ihrer Organisation muss bereits ein Azure Data Catalog für Ihre Organisation erstellt worden sein. Nur ein Katalog ist für jede Organisation zulässig.

Registrieren von Data Lake Storage Gen1 als Quelle für Data Catalog

  1. Navigieren Sie zu https://azure.microsoft.com/services/data-catalog, und klicken Sie auf Erste Schritte.

  2. Melden Sie sich beim Azure Data Catalog-Portal an, und klicken Sie auf Daten veröffentlichen.

    Registrieren einer Datenquelle

  3. Klicken Sie auf der nächsten Seite auf Anwendung starten. Dadurch wird die Manifestdatei der Anwendung auf Ihren Computer heruntergeladen. Doppelklicken Sie auf die Manifestdatei, um die Anwendung zu starten.

  4. Klicken Sie auf der Seite „Willkommen“ auf Anmelden, und geben Sie Ihre Anmeldeinformationen ein.

    Begrüßungsbildschirm

  5. Wählen Sie auf der Seite „Datenquelle auswählen“ die Option Azure Data Lake Store aus, und klicken Sie dann auf Weiter.

    Auswählen einer Datenquelle

  6. Geben Sie auf der nächsten Seite den Namen des Data Lake Storage Gen1-Kontos an, das Sie in Data Catalog registrieren möchten. Behalten Sie für die anderen Optionen die Standardwerte bei, und klicken Sie dann auf Verbinden.

    Herstellen einer Verbindung mit der Datenquelle

  7. Die nächste Seite kann in die folgenden Segmente aufgeteilt werden.

    a. Das Feld Serverhierarchie stellt die Ordnerstruktur des Data Lake Storage Gen1-Kontos dar. $Root stellt den Stamm des Data Lake Storage Gen1-Kontos dar, und AmbulanceData steht für den Ordner, der im Stamm des Data Lake Storage Gen1-Kontos erstellt wurde.

    b. Im Feld Verfügbare Objekte werden die Dateien und Ordner im Ordner AmbulanceData aufgeführt.

    c. Im Feld Zu registrierende Objekte werden die Dateien und Ordner aufgeführt, die Sie in Azure Data Catalog registrieren möchten.

    Screenshot: Dialogfeld für das Speicherkonto in Microsoft Azure Data Catalog

  8. Für dieses Tutorial sollten Sie alle Dateien im Verzeichnis registrieren. Klicken Sie auf die Schaltfläche (Objekte verschieben ), um alle Dateien in das Feld Zu registrierende Objekte zu verschieben.

    Da die Daten in einem organisationsweiten Datenkatalog registriert werden, empfiehlt es sich, einige Metadaten hinzuzufügen, die Sie später verwenden können, um die Daten schnell zu finden. Sie können z.B. eine E-Mail-Adresse für den Besitzer der Daten (z.B. der, der die Daten hochlädt) oder ein Tag zum Identifizieren der Daten hinzufügen. Der folgende Screenshot zeigt ein Tag, das Sie den Daten hinzufügen.

    Screenshot: Dialogfeld für das Speicherkonto in Microsoft Azure Data Catalog mit dem Tag, das den hervorgehobenen Daten hinzugefügt wurde

    Klicken Sie auf Registrieren.

  9. Die folgende Screenshot gibt an, dass die Daten erfolgreich in Data Catalog registriert wurden.

    Registrierung abgeschlossen

  10. Klicken Sie auf Portal anzeigen , um zum Data Catalog-Portal zurückzukehren, und stellen Sie sicher, dass Sie jetzt über das Portal auf die registrierten Daten zugreifen können. Um die Daten zu suchen, können Sie das Tag verwenden, das Sie beim Registrieren der Daten angegeben haben.

    Suchen von Daten im Katalog

  11. Sie können nun Vorgänge wie Hinzufügen von Anmerkungen und Dokumenten zu den Daten ausführen. Weitere Informationen finden Sie unter den folgenden Links.

Weitere Informationen