Was sind Big Data-Cluster für SQL ServerSQL Server Big Data Clusters?What are Big Data-Cluster für SQL ServerSQL Server Big Data Clusters?

Dieses Thema gilt für: JaSQL Server NeinAzure SQL-DatenbankNeinAzure Synapse Analytics (SQL DW) NeinParallel Data Warehouse THIS TOPIC APPLIES TO:yesSQL Server noAzure SQL DatabasenoAzure Synapse Analytics (SQL DW) noParallel Data Warehouse

Ab SQL Server 2019 (15.x)SQL Server 2019 (15.x) können Sie mit Big Data-Cluster für SQL ServerSQL Server Big Data Clusters skalierbare Cluster von Containern für SQL Server, Spark und HDFS bereitstellen, die auf Kubernetes ausgeführt werden.Starting with SQL Server 2019 (15.x)SQL Server 2019 (15.x), Big Data-Cluster für SQL ServerSQL Server Big Data Clusters allow you to deploy scalable clusters of SQL Server, Spark, and HDFS containers running on Kubernetes. Diese Komponenten werden nebeneinander ausgeführt, sodass Sie Big Data von Transact-SQL oder Spark lesen, schreiben und verarbeiten können, während Sie Ihre wichtigen relationalen Daten mit einem hohen Big-Data-Volumen problemlos kombinieren und analysieren können.These components are running side by side to enable you to read, write, and process big data from Transact-SQL or Spark, allowing you to easily combine and analyze your high-value relational data with high-volume big data.

Weitere Informationen zu neuen Features und bekannten Problemen der neuesten Version finden Sie in den dazugehörigen Versionshinweisen.For more information about new features and known issues for latest release, see the release notes.

SzenarienScenarios

Big Data-Cluster für SQL ServerSQL Server Big Data Clusters bieten Flexibilität bei der Interaktion mit Big Data.provide flexibility in how you interact with your big data. Sie können externe Datenquellen abfragen, Big Data in dem von SQL Server verwalteten HDFS speichern oder Daten aus mehreren externen Datenquellen über den Cluster abfragen.You can query external data sources, store big data in HDFS managed by SQL Server, or query data from multiple external data sources through the cluster. Die Daten können Sie dann für KI, Machine Learning und andere Analyseaufgaben verwenden.You can then use the data for AI, machine learning, and other analysis tasks. In den folgenden Abschnitten finden Sie weitere Informationen zu diesen Szenarios.The following sections provide more information about these scenarios.

DatenvirtualisierungData virtualization

Mit SQL Server-PolyBase können Big Data-Cluster für SQL ServerSQL Server Big Data Clusters externe Datenquellen abfragen, ohne die Daten zu verschieben oder zu kopieren.By leveraging SQL Server PolyBase, Big Data-Cluster für SQL ServerSQL Server Big Data Clusters can query external data sources without moving or copying the data. SQL Server 2019 (15.x)SQL Server 2019 (15.x) führt neue Connectors für Datenquellen ein.introduces new connectors to data sources.

Datenvirtualisierung

Data LakeData lake

Ein Big-Data-Cluster für SQL Server enthält einen skalierbaren HDFS-Speicherpool.A SQL Server big data cluster includes a scalable HDFS storage pool. Dieser kann verwendet werden, um Big Data zu speichern, die möglicherweise aus mehreren externen Quellen erfasst wird.This can be used to store big data, potentially ingested from multiple external sources. Sobald die Big Data im HDFS im Big-Data-Cluster gespeichert wurden, können Sie die Daten analysieren und abfragen und mit ihren relationalen Daten kombinieren.Once the big data is stored in HDFS in the big data cluster, you can analyze and query the data and combine it with your relational data.

Data Lake

Data Mart mit horizontaler SkalierungScale-out data mart

Big Data-Cluster für SQL ServerSQL Server Big Data Clusters bieten Rechen- und Speicherkapazitäten für die horizontale Skalierung, um die Leistung bei der Analyse beliebiger Daten zu verbessern.provide scale-out compute and storage to improve the performance of analyzing any data. Daten aus einer Vielzahl von Quellen können erfasst und auf Datenpool-Knoten als Cache zur weiteren Analyse verteilt werden.Data from a variety of sources can be ingested and distributed across data pool nodes as a cache for further analysis.

Data Mart

Integrierte KI und Machine LearningIntegrated AI and Machine Learning

Big Data-Cluster für SQL ServerSQL Server Big Data Clusters ermöglichen KI- und Machine Learning-Aufgaben für die Daten, die in HDFS-Speicherpools und den Datenpools gespeichert werden.enable AI and machine learning tasks on the data stored in HDFS storage pools and the data pools. Mithilfe von R, Python, Scala oder Java können Sie sowohl Spark als auch integrierte KI-Tools in SQL Server verwenden.You can use Spark as well as built-in AI tools in SQL Server, using R, Python, Scala, or Java.

KI und Machine Learning

Verwaltung und ÜberwachungManagement and Monitoring

Verwaltung und Überwachung werden durch eine Kombination von Befehlszeilentools, APIs, Portalen und dynamischen Verwaltungssichten bereitgestellt.Management and monitoring are provided through a combination of command line tools, APIs, portals, and dynamic management views.

Sie können Azure Data Studio dazu verwenden, eine Vielzahl von Aufgaben im Big-Data-Cluster auszuführen.You can use Azure Data Studio to perform a variety of tasks on the big data cluster. Dies wird durch die neue SQL Server 2019-Erweiterung (Vorschauversion) ermöglicht.This is enabled by the new SQL Server 2019 Extension (Preview). Diese Erweiterung bietet Folgendes:This extension provides:

  • Integrierte Codeausschnitte für allgemeine Verwaltungsaufgaben.Built-in snippets for common management tasks.
  • Möglichkeit zum Durchsuchen von HDFS, zum Hochladen von Dateien, zur Vorschau von Dateien und zum Erstellen von Verzeichnissen.Ability to browse HDFS, upload files, preview files, and create directories.
  • Möglichkeit zum Erstellen, Öffnen und Ausführen von Jupyter-kompatiblen Notebooks.Ability to create, open, and run Jupyter-compatible notebooks.
  • Datenvirtualisierungsassistent für eine vereinfachte Erstellung externer Datenquellen.Data virtualization wizard to simplify the creation of external data sources.

ArchitekturArchitecture

Ein Big-Data-Cluster für SQL Server ist ein Cluster von Linux-Containern, die von Kubernetes orchestriert werden.A SQL Server big data cluster is a cluster of Linux containers orchestrated by Kubernetes.

Kubernetes-KonzepteKubernetes concepts

Kubernetes ist ein Open-Source-Containerorchestrator, mit dem Sie Containerbereitstellungen nach Bedarf skalieren können.Kubernetes is an open source container orchestrator, which can scale container deployments according to need. In der folgenden Tabelle sind einige wichtige Kubernetes-Termini definiert:The following table defines some important Kubernetes terminology:

ClusterCluster Ein Kubernetes-Cluster ist eine Gruppe von Computern, die als Knoten bezeichnet werden.A Kubernetes cluster is a set of machines, known as nodes. Ein Knoten steuert den Cluster und wird als Masterknoten bezeichnet. Die übrigen Knoten sind Workerknoten.One node controls the cluster and is designated the master node; the remaining nodes are worker nodes. Der Kubernetes-Master ist für die Verteilung der Arbeit auf die Worker und für die Überwachung der Clusterintegrität verantwortlich.The Kubernetes master is responsible for distributing work between the workers, and for monitoring the health of the cluster.
NodeNode Ein Knoten führt Containeranwendungen aus.A node runs containerized applications. Dabei kann es sich entweder um einen physischen oder einen virtuellen Computer handeln.It can be either a physical machine or a virtual machine. Ein Kubernetes-Cluster kann eine Mischung aus Knoten von physischen und virtuellen Computern enthalten.A Kubernetes cluster can contain a mixture of physical machine and virtual machine nodes.
PodPod Ein Pod ist die unteilbare Bereitstellungseinheit von Kubernetes.A pod is the atomic deployment unit of Kubernetes. Ein Pod ist eine logische Gruppe von einem oder mehreren Containern und zugeordneter Ressourcen, die zum Ausführen einer Anwendung erforderlich sind.A pod is a logical group of one or more containers-and associated resources-needed to run an application. Jeder Pod läuft auf einem Knoten. Ein Knoten kann einen oder mehrere Pods ausführen.Each pod runs on a node; a node can run one or more pods. Der Kubernetes-Master weist den Knoten im Cluster automatisch Pods zu.The Kubernetes master automatically assigns pods to nodes in the cluster.
 

In Big Data-Cluster für SQL ServerSQL Server Big Data Clusters ist Kubernetes für den Zustand der Big Data-Cluster für SQL ServerSQL Server Big Data Clusters verantwortlich. Dabei erstellt und konfiguriert Kubernetes die Clusterknoten, weist den Knoten Pods zu und überwacht die Integrität des Clusters.In Big Data-Cluster für SQL ServerSQL Server Big Data Clusters, Kubernetes is responsible for the state of the Big Data-Cluster für SQL ServerSQL Server Big Data Clusters; Kubernetes builds and configures the cluster nodes, assigns pods to nodes, and monitors the health of the cluster.

Architektur von Big-Data-ClusternBig data clusters architecture

Das folgende Diagramm zeigt die Komponenten eines Big-Data-Clusters für SQL Server.The following diagram shows the components of a big data cluster for SQL Server.

Übersicht über die Architektur

ControllerController

Der Controller bietet Verwaltungs-und Sicherheitsfunktionen für den Cluster.The controller provides management and security for the cluster. Er enthält den Verwaltungsdienst, den Konfigurationsspeicher und andere Dienste auf Clusterebene wie Kibana, Grafana und Elasticsearch.It contains the control service, the configuration store, and other cluster-level services such as Kibana, Grafana, and Elastic Search.

ComputepoolCompute pool

Der Computepool stellt Rechenressourcen für den Cluster bereit.The compute pool provides computational resources to the cluster. Er enthält Knoten, auf denen Pods für SQL Server für Linux laufen.It contains nodes running SQL Server on Linux pods. Die Pods im Computepool werden für bestimmte Verarbeitungsaufgaben in SQL-Computeinstanzen unterteilt.The pods in the compute pool are divided into SQL Compute instances for specific processing tasks.

DatenpoolData pool

Der Datenpool wird für Datenpersistenz und zum Zwischenspeichern verwendet.The data pool is used for data persistence and caching. Der Datenpool besteht aus mindestens einem Pod, auf dem SQL Server für Linux ausgeführt wird.The data pool consists of one or more pods running SQL Server on Linux. Er wird zum Erfassen von Daten aus SQL-Abfragen oder Spark-Aufträgen verwendet.It is used to ingest data from SQL queries or Spark jobs. Data Marts für SQL Server-Big-Data-Cluster werden im Datenpool persistent gespeichert.SQL Server big data cluster data marts are persisted in the data pool.

SpeicherpoolStorage pool

Der Speicherpool besteht aus den Speicherpoolpods, bestehend aus SQL Server für Linux, Spark und HDFS.The storage pool consists of storage pool pods comprised of SQL Server on Linux, Spark, and HDFS. Alle Speicherknoten in einem Big-Data-Cluster für SQL Server sind Mitglieder eines HDFS-Clusters.All the storage nodes in a SQL Server big data cluster are members of an HDFS cluster.

Tipp

Einen detaillierten Einblick in die Architektur und Installation von Big-Data-Clustern erhalten Sie unter Workshop: Microsoft-Architektur für Big Data-Cluster für SQL ServerSQL Server Big Data Clusters.For an in-depth look into big data cluster architecture and installation, see Workshop: Microsoft Big Data-Cluster für SQL ServerSQL Server Big Data Clusters Architecture.

Nächste SchritteNext steps

Weitere Informationen zur Bereitstellung von Big Data-Clustern für SQL Server finden Sie unter Erste Schritte mit Big Data-Clustern für SQL Server.For more information about deploying SQL Server Big Data Clusters, see Get started with SQL Server Big Data Clusters.