Was ist Azure Synapse Link für Azure Cosmos DB?

GILT FÜR: NoSQL MongoDB Gremlin

Azure Synapse Link für Azure Cosmos DB ist eine cloudnative hybride Verarbeitungsfunktion für Transaktionen und Analysen (Hybrid Transactional and Analytical Processing, HTAP), die Quasi-Echtzeit-Analysen für operative Daten in Azure Cosmos DB ermöglicht. Azure Synapse Link sorgt für eine nahtlose Integration zwischen Azure Cosmos DB und Azure Synapse Analytics.

Der Azure Cosmos DB-Analysespeicher, ein vollständig isolierter Columnstore, kann mit Azure Synapse Link verwendet werden, um ETL-Analysen (Extract-Transform-Load) in Azure Synapse Analytics für Ihre operativen Daten im großen Stil zu unterstützen. Business Analysts, Data Engineers und Data Scientists können Synapse Spark oder Synapse SQL jetzt austauschbar verwenden, um Business Intelligence-, Analyse- und Machine Learning-Pipelines in Quasi-Echtzeit auszuführen. Sie können Echtzeitdaten analysieren, ohne die Leistung Ihrer Transaktionsworkloads in Azure Cosmos DB zu beeinträchtigen.

Die folgende Abbildung zeigt die Integration von Azure Synapse Link in Azure Cosmos DB und Azure Synapse Analytics:

Architecture diagram for Azure Synapse Analytics integration with Azure Cosmos DB

Um umfangreiche Datasets mit operativen Daten zu analysieren und gleichzeitig die Auswirkungen auf die Leistung unternehmenskritischer Transaktionsworkloads zu minimieren, exportieren Azure Cosmos DB-Kunden üblicherweise die operativen Daten. Diese Vorgänge werden von ETL-Pipelines (Extract-Transform-Load) ausgeführt, die viele Ebenen der Daten- und Auftragsverwaltung erfordern, was zu betrieblicher Komplexität und Leistungsauswirkungen auf Ihre Transaktionsworkloads führt. Außerdem nimmt die Wartezeit von der Ursprungszeit zum Analysieren der operativen Daten zu.

Im Vergleich zu herkömmlichen ETL-basierten Lösungen bietet Azure Synapse Link für Azure Cosmos DB mehrere Vorteile, wie z. B.:

Verringerte Komplexität ohne zu verwaltende ETL-Aufträge

Azure Synapse Link ermöglicht Ihnen den direkten Zugriff auf den Azure Cosmos DB-Analysespeicher mithilfe von Azure Synapse Analytics ohne komplexe Datenverschiebungen. Alle Aktualisierungen der operativen Daten werden im Analysespeicher in Quasi-Echtzeit ohne ETL- oder Änderungsfeedaufträge angezeigt. Sie können umfangreiche Analysen unter Verwendung des Analysespeichers von Azure Synapse Analytics ohne zusätzliche Datentransformation ausführen.

Einblicke in Ihre operativen Daten in Quasi-Echtzeit

Sie können mit Azure Synapse Link jetzt umfassende Einblicke in Ihre operativen Daten in Quasi-Echtzeit erhalten. ETL-basierte Systeme zeichnen sich in der Regel durch längere Wartezeiten bei der Analyse der operativen Daten aus, da zum Extrahieren, Transformieren und Laden dieser Daten viele Ebenen erforderlich sind. Mit nativer Integration des Azure Cosmos DB-Analysespeichers in Azure Synapse Analytics können Sie operative Daten in Quasi-Echtzeit analysieren, um neue Geschäftsszenarien zu ermöglichen.

Keine Leistungseinbußen bei operativen Workloads

Mit Azure Synapse Link können Sie analytische Abfragen unter Verwendung eines Azure Cosmos DB-Analysespeichers ausführen, in dem Ihre Daten in einem Columnstore dargestellt werden. Sie können die Abfragen ausführen, während die Transaktionsvorgänge mit dem für die Transaktionsworkload bereitgestellten Durchsatz über den zeilenbasierten Azure Cosmos DB-Transaktionsspeicher verarbeitet werden. Die Analyseworkload ist unabhängig vom Transaktionsworkload-Datenverkehr und beansprucht keinen Durchsatz, der Ihren operativen Daten zugeordnet ist.

Optimiert für umfangreiche Analyseworkloads

Der Azure Cosmos DB-Analysespeicher ist optimiert, um Skalierbarkeit, Elastizität und Leistung für Analyseworkloads ohne jegliche Abhängigkeit von den Computelaufzeiten bereitzustellen. Die Speichertechnologie ist für die Optimierung Ihrer Analyseworkloads selbstverwaltet. Dank in Azure Synapse Analytics integrierter Unterstützung bietet der Zugriff auf diese Speicherebene Einfachheit und hohe Leistung.

Kosteneffizient

Mit Azure Synapse Link erhalten Sie eine kostenoptimierte, vollständig verwaltete Lösung für die operative Analyse. Die zusätzlichen Speicher- und Computeebenen, die bei herkömmlichen ETL-Pipelines zum Analysieren operativer Daten erforderlich sind, entfallen.

Der Azure Cosmos DB-Analysespeicher beruht auf einem nutzungsbasierten Preismodell, das auf Datenspeicherung, analytischen Lese-/Schreibvorgängen und ausgeführten Abfragen basiert. Es muss kein Durchsatz zugeordnet werden, wie dies heute bei Transaktionsworkloads der Fall ist. Durch den Zugriff auf Ihre Daten mit äußerst elastischen Compute-Engines aus Azure Synapse Analytics sind die Gesamtkosten für die Ausführung von Speicher und Compute-Engines günstig.

Analysen für lokal verfügbare, global verteilte Schreibvorgänge in mehreren Regionen

Sie können analytische Abfragen effektiv für die nächstgelegene regionale Kopie der Daten in Azure Cosmos DB ausführen. Azure Cosmos DB bietet eine fortschrittliche Aktiv-/Aktiv-Funktion zum Ausführen der global verteilten Analyseworkloads zusammen mit Transaktionsworkloads.

Ermöglichen von HTAP-Szenarien für Ihre operativen Daten

Azure Synapse Link verbindet den Azure Cosmos DB-Analysespeicher mit Azure Synapse Analytics-Laufzeitunterstützung. Diese Integration ermöglicht Ihnen das Erstellen cloudnativer HTAP-Lösungen, die Erkenntnisse basierend auf Echtzeitaktualisierungen Ihrer operativen Daten über große Datasets generieren. Dies ermöglicht neue Geschäftsszenarien, um Warnungen auf Grundlage von Livetrends auszugeben, Dashboards in Quasi-Echtzeit zu erstellen und geschäftliche Erfahrungen ausgehend vom Benutzerverhalten zu erhalten.

Azure Cosmos DB-Analysespeicher

Der Azure Cosmos DB-Analysespeicher ist eine spaltenorientierte Darstellung Ihrer operativen Daten in Azure Cosmos DB. Dieser Analysespeicher eignet sich für schnelle, kostengünstige Abfragen umfangreicher Datasets mit operativen Daten. Dieser Speicher kann Daten abfragen, ohne dass Daten kopiert werden und die Leistung Ihrer Transaktionsworkloads beeinträchtigt wird.

Der Analysespeicher ruft automatisch und nahezu in Echtzeit häufige Einfüge-, Aktualisierungs- und Löschvorgänge in Ihren Transaktionsworkloads auf. Dies ist eine vollständig verwaltete Funktion („automatische Synchronisierung“) von Azure Cosmos DB. Es ist kein Änderungsfeed oder ETL erforderlich.

Wenn Sie über ein global verteiltes Azure Cosmos DB-Konto verfügen, ist es nach dem Aktivieren des Analysespeichers für einen Container in allen Regionen für dieses Konto verfügbar. Weitere Informationen zum Analysespeicher finden Sie in der Übersicht über den Azure Cosmos DB-Analysespeicher.

Mit Azure Synapse Link können Sie jetzt ausgehend von Azure Synapse Analytics direkt eine Verbindung mit Ihren Azure Cosmos DB-Containern herstellen und ohne separate Connectors auf den Analysespeicher zugreifen. Azure Synapse Analytics unterstützt derzeit Azure Synapse Link mit Synapse Apache Spark und serverlosen SQL-Pools.

Sie können die Daten aus dem Azure Cosmos DB-Analysespeicher gleichzeitig abfragen, wobei Interoperabilität für verschiedene von Azure Synapse Analytics unterstützte Analyselaufzeiten unterstützt wird. Zum Analysieren der operativen Daten sind keine zusätzlichen Datentransformationen erforderlich. Sie können die Analysespeicherdaten mithilfe von Folgendem abfragen und analysieren:

  • Synapse Apache Spark mit vollständiger Unterstützung für Scala, Python, SparkSQL und C#. Synapse Spark ist von zentraler Bedeutung für Datentechnik- und Data Science-Szenarien.

  • Serverlose SQL-Pools mit T-SQL und Unterstützung für bekannte BI-Tools (z. B. Power BI Premium usw.)

Hinweis

Aus Azure Synapse Analytics können Sie auf Analyse- und Transaktionsspeicher in Ihrem Azure Cosmos DB-Container zugreifen. Wenn Sie jedoch umfangreiche Analysen oder Scans für Ihre operativen Daten ausführen möchten, empfiehlt es sich, den Analysespeicher zu verwenden, um Leistungseinbußen bei Transaktionsworkloads zu vermeiden.

Hinweis

Sie können Analysen mit geringer Latenz in einer Azure-Region ausführen, indem Sie Ihren Azure Cosmos DB-Container mit der Synapse-Laufzeit in dieser Region verbinden.

Diese Integration ermöglicht die folgenden HTAP-Szenarien für verschiedene Benutzer:

  • Ein BI-Entwickler, der einen Power BI-Bericht modellieren und veröffentlichen möchte, um direkt über Synapse SQL auf die operativen Daten in Azure Cosmos DB zuzugreifen.

  • Ein Datenanalyst, der Erkenntnisse aus den operativen Daten in einem Azure Cosmos DB-Container ableiten möchte, indem er ihn mit Synapse SQL abfragt, die Daten im gewünschten Umfang liest und diese Ergebnisse mit anderen Datenquellen kombiniert.

  • Ein Datenanalyst, der mithilfe von Synapse Spark eine Funktion ermitteln möchte, die das Modell verbessert und es ohne eine komplexe Datentechnik trainiert. Außerdem können Sie die Ergebnisse des Modells im Anschluss in Azure Cosmos DB schreiben, um eine Echtzeitbewertung der Daten über Spark Synapse durchzuführen.

  • Ein Data Engineer, der Daten für Consumer zugänglich machen möchte, indem er SQL- oder Spark-Tabellen über Azure Cosmos DB-Container ohne manuelle ETL-Prozesse erstellt.

Weitere Informationen zur Azure Synapse Analytics-Laufzeitunterstützung für Azure Cosmos DB finden Sie unter Unterstützung für Azure Synapse Analytics für Azure Cosmos DB.

Azure Synapse Link wird empfohlen, wenn Sie Azure Cosmos DB-Kunde sind und Analysen, BI und maschinelles Lernen für Ihre operativen Daten ausführen möchten. Beispiel:

  • Wenn Sie Analysen oder BI für Ihre operativen Azure Cosmos DB-Daten direkt mithilfe von separaten Connectors ausführen, oder

  • Wenn Sie ETL-Prozesse ausführen, um operative Daten in ein separates Analysesystem zu extrahieren.

In solchen Fällen bietet Azure Synapse Link eine stärker integrierte Analyse, ohne dass sich dies auf den bereitgestellten Durchsatz Ihres Transaktionsspeichers auswirkt.

Wenn Sie traditionelle Data Warehouse-Anforderungen erfüllen möchten, wird von Azure Synapse Link abgeraten. Zu den Anforderungen können hohe Parallelität, Workloadverwaltung und Aggregatpersistenz über mehrere Datenquellen hinweg gehören. Weitere Informationen finden Sie unter den gängigen Szenarien, die mit Azure Synapse Link für Azure Cosmos DB.

Einschränkungen

  • Azure Synapse Link für Azure Cosmos DB wird für NoSQL- und MongoDB-APIs unterstützt. Es wird nicht für Cassandra- oder Tabellen-APIs unterstützt und bleibt in der Vorschau für die Gremlin-API.

  • Der Zugriff auf den Azure Cosmos DB-Analysespeicher mit dem Azure Synapse Dedicated SQL-Pool wird derzeit nicht unterstützt.

  • Auch wenn Analysespeicherdaten nicht gesichert werden und daher nicht wiederhergestellt werden können, haben Sie die Möglichkeit, Ihren Analysespeicher durch erneutes Aktivieren von Azure Synapse Link im wiederhergestellten Container neu zu erstellen. Weitere Informationen finden Sie in der Dokumentation zum Analysespeicher.

  • Die Funktion zum Aktivieren von Synapse Link in Datenbankkonten mit aktivierter fortlaufender Sicherung ist jetzt verfügbar. Aber die umgekehrte Situation, nämlich die Aktivierung der kontinuierlichen Sicherung in Datenbankkonten mit Synapse Link, wird noch nicht unterstützt.

  • Die präzise rollenbasierte Zugriffssteuerung (RBAC) wird beim Abfragen von Synapse nicht unterstützt. Benutzer, die Zugriff auf Ihren Synapse-Arbeitsbereich und das Azure Cosmos DB-Konto haben, können auf alle Container innerhalb dieses Kontos zugreifen. Derzeit wird ein präziserer Zugriff auf die Container nicht unterstützt.

  • Derzeit werden verknüpfte Dienste mit Managed Identity von Azure Synapse-Arbeitsbereichen nicht unterstützt. Verwenden Sie immer die MasterKey-Option.

  • Derzeit werden Schreibkonten mit mehreren Regionen nicht für Produktionsumgebungen empfohlen.

Sicherheit

Azure Synapse Link ermöglicht das Ausführen von Analysen in Quasi-Echtzeit für unternehmenskritische Daten in Azure Cosmos DB. Es muss unbedingt sichergestellt werden, dass kritische Geschäftsdaten sowohl in den Transaktions- als auch in den Analysespeichern sicher gespeichert werden. Azure Synapse Link für Azure Cosmos DB trägt mithilfe der folgenden Features dazu bei, diese Sicherheitsanforderungen zu erfüllen:

  • Netzwerkisolation mithilfe privater Endpunkte: Sie können den Netzwerkzugriff auf die Daten in den Transaktions- und Analysespeichern unabhängig voneinander steuern. Die Netzwerkisolation erfolgt über separate verwaltete private Endpunkte für jeden Speicher in verwalteten virtuellen Netzwerken in Azure Synapse-Arbeitsbereichen. Weitere Informationen finden Sie im Artikel Konfigurieren privater Endpunkte für den Analysespeicher.

  • Datenverschlüsselung mit kundenseitig verwalteten Schlüsseln: Sie können Daten nahtlos im Transaktions- und Analysespeicher verschlüsseln und dabei die gleichen kundenseitig verwalteten Schlüssel automatisiert und transparent verwenden. Azure Synapse Link unterstützt nur das Konfigurieren von kundenseitig verwalteten Schlüsseln mithilfe der verwalteten Identität Ihres Azure Cosmos DB-Kontos. Sie müssen die verwaltete Identität Ihres Kontos in Ihrer Azure Key Vault-Zugriffsrichtlinie konfigurieren, bevor Sie den Azure Synapse Link für Ihr Konto aktivieren. Weitere Informationen finden Sie in dem Artikel Konfigurieren von kundenseitig verwalteten Schlüsseln mithilfe verwalteter Identitäten eines Azure Cosmos DB-Kontos.

  • Sichere Schlüsselverwaltung: Der Zugriff auf die Daten im Analysespeicher von Synapse Spark und serverlosen Synapse-SQL-Pools aus erfordert die Verwaltung von Azure Cosmos DB-Schlüsseln in Synapse Analytics-Arbeitsbereichen. Anstatt die Azure Cosmos DB-Kontoschlüssel in Spark-Aufträgen oder SQL-Skripts zu verwenden, bietet Azure Synapse Link deutlich sicherere Funktionen:

    • Wenn Sie serverlose Synapse-SQL-Pools verwenden, können Sie den Azure Cosmos DB-Analysespeicher abfragen, indem Sie vorab SQL-Anmeldeinformationen erstellen und die Kontoschlüssel speichern, auf die Sie dann in der OPENROWSET-Funktion verweisen. Weitere Informationen finden Sie im Artikel Abfragen mit einem serverlosen SQL-Pool in Azure Synapse Link.

    • Wenn Sie Synapse Spark verwenden, können Sie die Kontoschlüssel in Objekten im verknüpften Dienst speichern, die auf eine Azure Cosmos DB-Datenbank verweisen, und zur Laufzeit in der Spark-Konfiguration auf die Schlüssel verweisen. Weitere Informationen finden Sie im Artikel Kopieren von Daten in einen dedizierten SQL-Pool mithilfe von Apache Spark.

Preise

Das Abrechnungsmodell für Azure Synapse Link umfasst die Kosten für die Nutzung des Azure Cosmos DB-Analysespeichers und der Synapse-Runtime. Weitere Informationen finden Sie unter den Preisen für den Azure Cosmos DB-Analysespeicher und den Preisen für Azure Synapse Analytics.

Nächste Schritte

Weitere Informationen finden Sie in den folgenden Dokumenten: