Terminologie für Azure Synapse Analytics

Artikel
03/25/2023

Dieses Dokument enthält Informationen zu den grundlegenden Konzepten von Azure Synapse Analytics.

Synapse-Arbeitsbereich

Ein Synapse-Arbeitsbereich bietet einen sicherungsfähigen abgegrenzten Bereich für die Zusammenarbeit an cloudbasierten Unternehmensanalysen in Azure. Ein Arbeitsbereich wird in einer bestimmten Region bereitgestellt und verfügt über ein zugeordnetes ADLS Gen2-Konto und Dateisystem (zum Speichern temporärer Daten). Ein Arbeitsbereich befindet sich unter einer Ressourcengruppe.

Ein Arbeitsbereich ermöglicht die Ausführung von Analysen mit SQL und Apache Spark. Für SQL- und Spark-Analysen verfügbare Ressourcen werden in SQL- und Spark-Pools organisiert.

Verknüpfte Dienste

Ein Arbeitsbereich kann eine beliebige Anzahl von verknüpften Diensten enthalten. Dabei handelt es sich im Wesentlichen um Verbindungszeichenfolgen, mit denen die Verbindungsinformationen definiert werden, die erforderlich sind, damit vom Arbeitsbereich eine Verbindung mit externen Ressourcen hergestellt werden kann.

Synapse-SQL

Synapse SQL ermöglicht T-SQL-basierte Analysen in Synapse-Arbeitsbereichen. Synapse SQL hat zwei Verbrauchsmodelle: dediziert und serverlos. Verwenden Sie für das dedizierte Modell dedizierte SQL-Pools. Ein Arbeitsbereich kann eine beliebige Anzahl dieser Pools enthalten. Verwenden Sie zur Nutzung des serverlosen Modells serverlose SQL-Pools. Jeder Arbeitsbereich verfügt über einen dieser Pools.

In Synapse Studio können Sie SQL-Pools verwenden, indem Sie SQL-Skripts ausführen.

Hinweis

Dedizierte SQL-Pools in Azure Synapse unterscheiden sich vom dedizierten SQL-Pool (früher SQL DW). Nicht alle Features des dedizierten SQL Pools in Azure Synapse Arbeitsbereichen gelten für dedizierte SQL Pools (ehemals SQL DW) und umgekehrt. Wie Sie Arbeitsbereichsfunktionen für einen vorhandenen dedizierten SQL-Pool (früher SQL DW) aktivieren, erfahren Sie unter Aktivieren eines Arbeitsbereichs für Ihren dedizierten SQL-Pool (früher SQL DW).

Apache Spark für Synapse

Erstellen und verwenden Sie zur Nutzung von Spark-Analysen serverlose Apache Spark-Pools in Ihrem Synapse-Arbeitsbereich. Wenn Sie mit der Verwendung eines Spark-Pools beginnen, wird vom Arbeitsbereich eine Spark-Sitzung für die Behandlung der mit dieser Sitzung verknüpften Ressourcen erstellt.

Spark kann in Synapse auf zwei Arten verwendet werden:

Spark-Notebooks verwenden Scala, PySpark, C# und SparkSQL für Aufgaben im Zusammenhang mit Data Science und Datentechnik.
Von Spark-Auftragsdefinitionen zur Ausführung von Spark-Batchaufträgen werden JAR-Dateien verwendet.

SynapseML

SynapseML (zuvor als MMLSpark bezeichnet) ist eine Open-Source-Bibliothek, die die Erstellung hochgradig skalierbarer Machine Learning-Pipelines (ML) vereinfacht. Es handelt sich um ein Ökosystem von Tools, mit denen das Apache Spark-Framework in verschiedene neue Richtungen erweitert wird. SynapseML vereint mehrere vorhandene Frameworks für maschinelles Lernen und neue Microsoft-Algorithmen in einer einzigen, skalierbaren API, die in Python, R, Scala, .NET und Java verwendet werden kann. Weitere Informationen finden Sie unter Wichtigste Funktionen von SynapseML.

Pipelines

Pipelines werden von Azure Synapse für die Datenintegration verwendet und ermöglichen es Ihnen, Daten zwischen Diensten zu verschieben und Aktivitäten zu orchestrieren.

Bei Pipelines handelt es sich um logische Gruppierungen von Aktivitäten, die gemeinsam eine Aufgabe ausführen.
Aktivitäten dienen zum Definieren von Aktionen innerhalb einer Pipeline, die für Daten ausgeführt werden sollen (beispielsweise Kopieren von Daten oder Ausführen einer Notebook-Instanz oder eines SQL-Skripts).
Bei Datenflüssen handelt es sich um eine bestimmte Art von Aktivität für codefreie Datentransformationen mit Synapse Spark im Hintergrund.
Trigger: Ausführen einer Pipeline. Sie kann manuell oder automatisch ausgeführt werden (zeitplanbasiert, rollierendes Fenster oder ereignisbasiert).
Integrationsdataset: benannte Ansicht von Daten, die einfach auf die Daten verweist, die in einer Aktivität als Ein- und Ausgabe verwendet werden sollen. Gehört zu einem verknüpften Dienst.

Data Explorer (Vorschau)

Azure Synapse Data Explorer bietet der Kundschaft eine interaktive Abfrage, um Erkenntnisse aus Protokoll- und Telemetriedaten zu gewinnen.

Data Explorer-Pools sind dedizierte Cluster, die zwei oder mehr Serverknoten mit lokalem SSD-Speicher (Cache für heiße Daten) für optimierte Abfrageleistung und mehreren Blobspeichern (Cache für kalte Daten) für Persistenz.
Data Explorer-Datenbanken werden in Data Explorer-Pools gehostet und sind logische Entitäten, die aus Sammlungen von Tabellen und anderen Datenbankobjekten bestehen. Sie können mehrere Datenbanken pro Pool verwenden.
Tabellen sind Datenbankobjekte, die Daten enthalten, die in einem herkömmlichen relationalen Datenmodell organisiert sind. Die Daten werden in Datensätzen gespeichert, die dem klar definierten Tabellenschema von Data Explorer entsprechen, das eine geordnete Liste von Spalten definiert, die jeweils einen Namen und einen skalaren Datentyp haben. Skalare Datentypen können strukturiert (int, real, datetime oder timespan), teilweise strukturiert (dynamic) oder freier Text (string) sein. Der dynamische Typ ähnelt JSON, da er einen einzelnen Skalarwert, ein Array oder ein Wörterbuch mit solchen Werten enthalten kann.
Externe Tabellen sind Tabellen, die auf einen Speicher oder eine SQL-Datenquelle außerhalb der Data Explorer-Datenbank verweisen. Ähnlich wie Tabellen verfügt eine externe Tabelle über ein klar definiertes Schema (eine geordnete Liste von Spaltennamen- und Datentyppaaren). Im Gegensatz zu Data Explorer-Tabellen, bei denen Daten in Data Explorer-Pools erfasst werden, werden externe Tabellen für Daten verwendet, die außerhalb der Pools gespeichert und verwaltet werden. Externe Tabellen speichern keine Daten und werden zum Abfragen oder Exportieren von Daten in einen externen Datenspeicher verwendet.