Verstehen der Funktionen und Anwendungsfälle von serverlosen SQL-Pools in Azure Synapse

Abgeschlossen

Azure Synapse Analytics ist ein integrierter Analysedienst, der eine Vielzahl häufig verwendeter Technologien für die Verarbeitung und Analyse von Daten im großen Stil vereint. Eine der am häufigsten verwendeten Technologien in Datenlösungen ist SQL – eine Branchenstandardsprache zum Abfragen und Bearbeiten von Daten.

Serverlose SQL-Pools für Azure Synapse Analytics

Azure Synapse SQL ist ein verteiltes Abfragesystem in Azure Synapse Analytics, das zwei Arten von Laufzeitumgebungen bietet:

  • Serverloser SQL-Pool: On-Demand-SQL-Abfrageverarbeitung, die in erster Linie zum Arbeiten mit Daten in einem Data Lake verwendet wird
  • Dedizierter SQL-Pool: Relationale Enterprise-Datenbankinstanzen, die zum Hosten von Data Warehouses verwendet werden, in denen Daten in relationalen Tabellen gespeichert sind.

In diesem Modul liegt der Schwerpunkt auf serverlosen SQL Pools, die einen Pay-per-Query-Endpunkt zum Abfragen der Daten in Ihrem Data Lake bereitstellen. Vorteile der Verwendung von serverlosen SQL-Pools:

  • Eine vertraute Transact-SQL-Syntax zum Abfragen von Daten, ohne dass diese in einen speziellen Speicher kopiert oder geladen werden müssen
  • Integrierte Konnektivität über ein breites Spektrum von Business Intelligence- und Ad-hoc-Abfragetools, einschließlich der beliebtesten Treiber
  • Verteilte Abfrageverarbeitung, die für umfangreiche Daten und Berechnungsfunktionen erstellt wurde und zu einer schnellen Abfrageleistung führt
  • Integrierte Fehlertoleranz bei der Abfrageausführung für hohe Zuverlässigkeit und Erfolgsquoten auch bei Abfragen mit langer Ausführungszeit und umfangreichen Datasets
  • Keine einzurichtende Infrastruktur oder zu verwaltenden Cluster In jedem Azure Synapse-Arbeitsbereich wird ein integrierter Endpunkt für diesen Dienst bereitgestellt, sodass Sie direkt nach der Erstellung des Arbeitsbereichs mit dem Abfragen von Daten beginnen können.
  • Keine Gebühren für reservierte Ressourcen. Ihnen werden lediglich die Daten in Rechnung gestellt, die im Rahmen Ihrer Abfragen verarbeitet werden.

Anwendungsfälle für serverlose SQL-Pools

Serverlose SQL-Pools sind für das Abfragen der Daten optimiert, die sich im Data Lake befinden. So kann nicht nur der Verwaltungsaufwand reduziert werden, sondern Sie müssen sich auch nicht mehr um das Erfassen der Daten im System kümmern. Sie müssen die Abfrage nur auf die Daten verweisen, die sich bereits im Lake befinden, und die Abfrage ausführen.

Das serverlose Ressourcenmodell von Synapse SQL eignet sich hervorragend für ungeplante Workloads oder Workloads mit Bedarfsspitzen, die mithilfe des immer aktiven serverlosen SQL-Endpunkts in Ihrem Azure Synapse Analytics-Arbeitsbereich verarbeitet werden können. Die Verwendung des serverlosen Pools ist hilfreich, wenn Sie die genauen Kosten für jede ausgeführte Abfrage kennen müssen, um Kosten zu überwachen und zuzuordnen.

Hinweis

Der serverlose SQL-Pool ist ein Analysesystem und wird nicht empfohlen für OLTP-Workloads wie Datenbanken, die von Anwendungen zum Speichern von Transaktionsdaten verwendet werden. Workloads, die auf Antwortzeiten im Millisekundenbereich angewiesen sind und zielgenau auf einen einzelne Zeile in einem Dataset verweisen können müssen, eignen sich nicht für serverlose SQL-Pools.

Häufige Anwendungsfälle für serverlose SQL-Pools:

  • Durchsuchen von Daten: Dies umfasst das Durchsuchen des Data Lake, um erste Erkenntnisse zu den Daten zu erhalten, und lässt sich mit Azure Synapse Studio mühelos bewerkstelligen. Sie können die Dateien in Ihrem verknüpften Data Lake-Speicher durchsuchen und mithilfe des integrierten serverlosen SQL-Pools automatisch ein SQL Skript generieren, um die ersten 100 Zeilen in einer Datei oder einem Ordner auszuwählen, wie Sie es bei einer Tabelle in SQL Server tun würden. Anschließend können Sie Projektionen, Filter, Gruppierungen und die meisten Vorgänge für die Daten so anwenden, als wenn sich diese in einer regulären SQL Server-Tabelle befinden.
  • Datentransformation: Azure Synapse Analytics bietet zwar hervorragende Datentransformationsfunktionen mit Synapse Spark, doch finden einige Datenentwickler*innen diese Datentransformationen mit SQL möglicherweise einfacher. Mit dem serverlosen SQL-Pool können Sie SQL-basierte Datentransformationen ausführen – und zwar interaktiv oder als Teil einer automatisierten Datenpipeline.
  • Logisches Data Warehouse: Nachdem Sie die Daten im Data Lake erstmals durchsucht haben, können Sie externe Objekte wie Tabellen und Ansichten in einer serverlosen SQL-Datenbank definieren. Die Daten bleiben in den Data Lake-Dateien gespeichert, werden jedoch durch ein relationales Schema abstrahiert, das von Clientanwendungen und Analysetools verwendet werden kann, um die Daten wie in einer in SQL Server gehosteten relationalen Datenbank abzufragen.