Erfassen von Daten mithilfe von Azure Data Factory in Azure Cosmos DB for PostgreSQL

GILT FÜR: Azure Cosmos DB for PostgreSQL (unterstützt von der Citus-Datenbankerweiterung auf PostgreSQL)

Azure Data Factory ist ein cloudbasierter ETL- und Datenintegrationsdienst. Er ermöglicht die Erstellung von datengesteuerten Workflows, um Daten im großen Stil zu verschieben und zu transformieren.

Mit Data Factory können Sie datengesteuerte Workflows (sog. Pipelines) erstellen und planen, die Daten aus unterschiedlichen Datenspeichern erfassen. Pipelines für Analysen und Berichte können lokal, in Azure oder bei anderen Cloudanbietern ausgeführt werden.

Data Factory verfügt über eine Datensenke für Azure Cosmos DB for PostgreSQL. Mit der Datensenke können Sie Ihre Daten (relationale Daten, NoSQL-Daten und Data Lake-Dateien) zur Speicherung, Verarbeitung und Berichterstellung in Azure Cosmos DB for PostgreSQL-Tabellen einfügen.

Dataflow diagram for Azure Data Factory.

Wichtig

Data Factory unterstützt derzeit keine privaten Endpunkte für Azure Cosmos DB for PostgreSQL.

Data Factory für Echtzeiterfassung

Wichtige Gründe für die Verwendung von Azure Data Factory zum Erfassen von Daten in Azure Cosmos DB for PostgreSQL:

  • Einfach zu verwenden: Bietet eine codefreie visuelle Umgebung zur Orchestrierung und Automatisierung von Datenverschiebungen.
  • Leistungsstark: Nutzt die gesamte Kapazität der zugrunde liegenden Netzwerkbandbreite – bis zu 5 GiB/s Durchsatz.
  • Integrierte Connectors: Integriert mit mehr als 90 integrierten Connectors alle Ihre Datenquellen.
  • Kosteneffektiv: Unterstützt einen vollständig verwalteten, serverlosen Clouddienst mit nutzungsbasierter Bezahlung, der sich bedarfsgerecht skalieren lässt.

Schritte zum Verwenden von Data Factory

In diesem Artikel wird eine Datenpipeline über die Data Factory-Benutzeroberfläche (user interface, UI) erstellt. Die Pipeline in dieser Data Factory kopiert Daten aus Azure Blob Storage in eine Datenbank. Eine Liste der Datenspeicher, die als Quellen und Senken unterstützt werden, finden Sie in der Tabelle Unterstützte Datenspeicher.

In Data Factory können Sie die Aktivität Kopieren verwenden, um Daten aus Datenspeichern in der lokalen Umgebung und der Cloud in Azure Cosmos DB for PostgreSQL zu kopieren. Wenn Sie noch nicht mit Data Factory vertraut sind, finden Sie hier eine Kurzanleitung zum Einstieg:

  1. Nachdem Data Factory bereitgestellt wurde, wechseln Sie zu Ihrer Datenfactory, und starten Sie Azure Data Factory Studio. Die Startseite Data Factory wird wie in der folgenden Abbildung dargestellt angezeigt:

    Screenshot showing the landing page of Azure Data Factory.

  2. Klicken Sie auf der Startseite von Azure Data Factory Studio auf Orchestrieren.

    Screenshot showing the 'Orchestrate' page of Azure Data Factory.

  3. Geben Sie unter Eigenschaften einen Namen für die Pipeline ein.

  4. Erweitern Sie in der Toolbox Aktivitäten die Kategorie Verschieben und Transformieren, und ziehen Sie die Daten kopieren-Aktivität auf die Oberfläche des Pipeline-Designers. Geben Sie am unteren Rand des Designerbereichs auf der Registerkarte Allgemein einen Namen für die Kopieraktivität ein.

    Screenshot showing a pipeline in Azure Data Factory.

  5. Konfigurieren Sie Quelle.

    1. Wählen Sie auf der Seite Aktivitäten die Registerkarte Quelle und anschließend die Option Neu aus, um ein Quelldataset zu erstellen.

    2. Wählen Sie im Dialogfeld Neues Dataset die Option Azure Blob Storage und dann Weiter aus.

    3. Wählen Sie den Formattyp Ihrer Daten und dann Weiter aus.

    4. Wählen Sie auf der Seite Eigenschaften festlegen unter Verknüpfter Dienst die Option Neu aus.

    5. Geben Sie auf der Seite Neuer verknüpfter Dienst einen Namen für den verknüpften Dienst ein, und wählen Sie anschließend in der Liste Speicherkontoname Ihr Speicherkonto aus.

      Screenshot that shows configuring Source in Azure Data Factory.

    6. Wählen Sie unter Verbindung testen die Option Zu Dateipfad aus, geben Sie den Container und das Verzeichnis ein, mit denen eine Verbindung hergestellt werden soll, und wählen Sie anschließend Verbindung testen aus.

    7. Wählen Sie zum Speichern der Konfiguration die Option Erstellen aus.

    8. Wählen Sie auf dem Bildschirm Eigenschaften festlegen die Option OK aus.

  6. Konfigurieren Sie Senke.

    1. Wählen Sie auf der Seite Aktivitäten die Registerkarte Senke und anschließend die Option Neu aus, um ein Senkendataset zu erstellen.

    2. Wählen Sie im Dialogfeld Neues Dataset die Option Azure Database for PostgreSQL und dann Weiter aus.

    3. Wählen Sie auf der Seite Eigenschaften festlegen unter Verknüpfter Dienst die Option Neu aus.

    4. Geben Sie auf der Seite Neuer verknüpfter Dienst einen Namen für den verknüpften Dienst ein, und wählen Sie Manuell eingeben in der Kontoauswahlmethode ein.

    5. Geben Sie den Namen des Koordinators Ihres Clusters in das Feld Vollqualifizierter Domänenname ein. Sie können den Namen des Koordinators auf der Seite Übersicht Ihres Azure Cosmos DB für PostgreSQL-Clusters kopieren.

    6. Lassen Sie den Standardport 5432 im Feld Port für die direkte Verbindung mit dem Koordinator oder ersetzen Sie ihn durch Port 6432, um eine Verbindung mit dem verwalteten PgBouncer Port herzustellen.

    7. Geben Sie den Namen der Datenbank auf Ihrem Cluster ein und geben Sie die Anmeldeinformationen für die Verbindung mit ihr an.

    8. Wählen Sie SSL in der Verschlüsselungsmethode- Dropdownliste aus.

      Screenshot that shows configuring Sink in Azure Data Factory.

    9. Wählen Sie Testverbindung unten im Panel aus, um die Senkenkonfiguration zu überprüfen.

    10. Wählen Sie zum Speichern der Konfiguration die Option Erstellen aus.

    11. Wählen Sie auf dem Bildschirm Eigenschaften festlegen die Option OK aus.

    12. Wählen Sie auf der Registerkarte Senken auf der Seite Aktivitäten die Option Öffnen neben der Dropdownliste Senkendatasets aus, und wählen Sie den Tabellennamen im Zielcluster aus, in dem Sie die Daten aufnehmen möchten.

    13. Wählen Sie unter Write-Methode die Option Kopierbefehl aus.

    Screenshot that shows selecting the table and Copy command.

  7. Wählen Sie auf der Symbolleiste oberhalb der Canvas Überprüfen aus, um die Pipelineeinstellungen zu überprüfen. Beheben Sie ggf. vorhandene Fehler, führen Sie die Überprüfung erneut aus, und vergewissern Sie sich, dass die Pipeline erfolgreich überprüft wurde.

  8. Wählen Sie auf der Symbolleiste Debuggen aus, um die Pipeline auszuführen.

    Screenshot that shows Debug and Execute in Azure Data Factory.

  9. Sobald die Pipeline erfolgreich ausgeführt werden kann, klicken Sie in der oberen Symbolleiste auf Alle veröffentlichen. Mit dieser Aktion werden erstellte Entitäten (Datasets und Pipelines) in Data Factory veröffentlicht.

Aufrufen einer gespeicherten Prozedur in Data Factory

In einigen speziellen Szenarien möchten Sie möglicherweise eine gespeicherte Prozedur/Funktion aufrufen, um aggregierte Daten aus der Stagingtabelle in die Zusammenfassungstabelle zu übertragen. In Data Factory steht keine gespeicherte Prozedur für Azure Cosmos DB for PostgreSQL zur Verfügung. Zur Umgehung können Sie jedoch die Lookup-Aktivität mit einer Abfrage zum Aufrufen einer gespeicherten Prozedur verwenden, wie hier zu sehen:

Screenshot that shows calling a procedure in Azure Data Factory.

Nächste Schritte