Was sind SQL Server-2019 big Data-Cluster?What are SQL Server 2019 big data clusters?

Beginnend mit SQL Server-2019 (Vorschau)SQL Server 2019 preview, SQL Server-big Data-Cluster können Sie skalierbare HDFS, Spark und SQL Server-Container unter Kubernetes-Cluster bereitstellen.Starting with SQL Server-2019 (Vorschau)SQL Server 2019 preview, SQL Server big data clusters allow you to deploy scalable clusters of SQL Server, Spark, and HDFS containers running on Kubernetes. Diese Komponenten werden parallel ausgeführt, lesen, schreiben und Verarbeiten von big Data aus Transact-SQL oder Spark, kombinieren und analysieren Sie Ihre wertvollen relationale Daten mit hohem Volumen, big Data leicht zu können.These components are running side by side to enable you to read, write, and process big data from Transact-SQL or Spark, allowing you to easily combine and analyze your high-value relational data with high-volume big data.

Weitere Informationen zu neuen Features und bekannten Probleme für die neueste Version finden Sie unter den Anmerkungen zu dieser Version.For more information about new features and known issues for latest release, see the release notes.

Hinweis

SQL Server-big Data-Cluster ist zunächst als eingeschränkte öffentliche Vorschauversion mithilfe der SQL Server 2019 Early Adoption Program verfügbar.SQL Server big data clusters is first available as a limited public preview through the SQL Server 2019 Early Adoption Program. Um Zugriff zu beantragen, registrieren hier, und geben Sie Ihr Interesse an, um SQL Server-big Data-Cluster zu versuchen.To request access, register here, and specify your interest to try SQL Server big data clusters. Microsoft alle Anforderungen selektieren und so bald wie möglich Antworten.Microsoft will triage all requests and respond as soon as possible.

SzenarienScenarios

SQL Server-big Data-Cluster bieten die Flexibilität bei der Interaktion mit Ihrer big Data.SQL Server big data clusters provide flexibility in how you interact with your big data. Sie können Daten aus externen Quellen Abfragen, speichern Sie big Data in HDFS, die von SQL Server oder Abfragen von Daten aus mehreren externen Datenquellen durch den Cluster verwaltet werden.You can query external data sources, store big data in HDFS managed by SQL Server, or query data from multiple external data sources through the cluster. Sie können dann die Daten für KI, maschinelles lernen und andere Analyseaufgaben verwenden.You can then use the data for AI, machine learning, and other analysis tasks. Die folgenden Abschnitte enthalten weitere Informationen zu diesen Szenarien.The following sections provide more information about these scenarios.

DatenvirtualisierungData virtualization

Durch die Nutzung SQL Server PolyBase, SQL Server-big Data-Cluster können Daten aus externen Quellen Abfragen, ohne zu verschieben oder kopieren die Daten.By leveraging SQL Server PolyBase, SQL Server big data clusters can query external data sources without moving or copying the data. SQL Server-2019 (Vorschau)SQL Server 2019 preview führt neue Connectors zu Datenquellen.introduces new connectors to data sources.

Datenvirtualisierung

Data lakeData lake

Eine SQL Server-big Data-Cluster enthält einen skalierbaren HDFS Speicherpool.A SQL Server big data cluster includes a scalable HDFS storage pool. Dies kann verwendet werden, zum Speichern von big Data und möglicherweise über mehrere externe Quellen erfasst.This can be used to store big data, potentially ingested from multiple external sources. Sobald der big Data in HDFS in die big Data-Cluster gespeichert sind, können Sie analysieren und die Daten abzufragen und mit Ihren relationalen Daten zu kombinieren.Once the big data is stored in HDFS in the big data cluster, you can analyze and query the data and combine it with your relational data.

Data lake

Scale-Out-DatamartScale-out data mart

SQL Server-big Data-Cluster bieten die horizontale Skalierung von COMPUTE- und zur Verbesserung der Leistung der Analyse von Daten.SQL Server big data clusters provide scale-out compute and storage to improve the performance of analyzing any data. Daten aus einer Vielzahl von Quellen erfasst und verteilt werden können, Datenpool Knoten als Cache für die spätere Analyse.Data from a variety of sources can be ingested and distributed across data pool nodes as a cache for further analysis.

Datamart

Integrierte künstliche Intelligenz und Machine LearningIntegrated AI and Machine Learning

SQL Server-big Data-Cluster aktivieren, künstliche Intelligenz und Machine learning-Aufgaben für die Daten in HDFS-Speicherpools und die Datenpools.SQL Server big data clusters enable AI and machine learning tasks on the data stored in HDFS storage pools and the data pools. Sie können Spark sowie der integrierten KI-Tools in SQL Server mithilfe von R, Python, Scala und Java verwenden.You can use Spark as well as built-in AI tools in SQL Server, using R, Python, Scala, or Java.

AI und ML

Verwaltung und ÜberwachungManagement and Monitoring

Verwaltung und Überwachung werden durch eine Kombination von Befehlszeilentools, APIs, ein Administratorportal und dynamische Verwaltungssichten bereitgestellt.Management and monitoring are provided through a combination of command line tools, APIs, an administrator portal, and dynamic management views.

Die Cluster-Administratorportal ist eine Weboberfläche, in dem Status und Integrität der Pods im Cluster angezeigt.The cluster administrator portal is a web interface that displays the status and health of the pods in the cluster. Darüber hinaus Links zu anderen Dashboards für Log Analytics und Dashboards für die netzwerküberwachung.It also provides links to other dashboards for log analytics and monitoring dashboards.

Azure Data Studio können eine Vielzahl von Aufgaben für die big Data-Cluster ausführen.You can use Azure Data Studio to perform a variety of tasks on the big data cluster. Dies erfolgt durch die neue 2019-Erweiterung für SQL Server (Vorschau).This is enabled by the new SQL Server 2019 Extension (Preview). Diese Erweiterung bietet:This extension provides:

  • Integrierten Codeausschnitte für allgemeine Verwaltungsaufgaben.Built-in snippets for common management tasks.
  • Möglichkeit zum Durchsuchen von HDFS, Hochladen von Dateien, Dateien und Verzeichnisse erstellen.Ability to browse HDFS, upload files, preview files, and create directories.
  • Möglichkeit zum Erstellen, öffnen, und führen die kompatiblen Jupyter-Notebooks.Ability to create, open, and run Jupyter-compatible notebooks.
  • Data Virtualization Assistenten, um die Erstellung von Daten aus externen Quellen zu vereinfachen.Data virtualization wizard to simplify the creation of external data sources.

ArchitekturArchitecture

Eine SQL Server-big Data-Cluster ist ein Cluster mit Linux-Container, die von orchestriert Kubernetes.A SQL Server big data cluster is a cluster of Linux containers orchestrated by Kubernetes.

Kubernetes-KonzepteKubernetes concepts

Kubernetes ist ein open-Source-containerorchestrator, die containerbereitstellungen je nach Anforderungen skaliert werden kann.Kubernetes is an open source container orchestrator, which can scale container deployments according to need. In der folgende Tabelle werden einige wichtige Begriffe für Kubernetes definiert:The following table defines some important Kubernetes terminology:

ClusterCluster Ein Kubernetes-Cluster ist eine Gruppe von Computern, die als Knoten bezeichnet.A Kubernetes cluster is a set of machines, known as nodes. Ein Knoten den Cluster steuert und ist den Masterknoten festgelegt; die verbleibenden Knoten sind Worker-Knoten.One node controls the cluster and is designated the master node; the remaining nodes are worker nodes. Der Kubernetes-Master ist verantwortlich für die Verteilung von Arbeit zwischen den Workern sicherzustellen und für die Überwachung der Integrität des Clusters.The Kubernetes master is responsible for distributing work between the workers, and for monitoring the health of the cluster.
NodeNode Ein Knoten wird die Anwendungen in Containern ausgeführt.A node runs containerized applications. Es kann entweder auf einem physischen Computer oder auf einem virtuellen Computer sein.It can be either a physical machine or a virtual machine. Ein Kubernetes-Cluster kann es sich um eine Mischung aus physischen Computer und VM-Knoten enthalten.A Kubernetes cluster can contain a mixture of physical machine and virtual machine nodes.
PodPod Ein Pod-Typ ist der atomare Bereitstellungseinheit von Kubernetes.A pod is the atomic deployment unit of Kubernetes. Ein Pod-Typ ist eine logische Gruppe von einem oder mehreren Containern – und die zugehörigen Ressourcen zum Ausführen einer Anwendung benötigt.A pod is a logical group of one or more containers-and associated resources-needed to run an application. Jedem Pod auf einem Knoten ausgeführt wird; ein Knoten kann einem oder mehreren Pods ausgeführt.Each pod runs on a node; a node can run one or more pods. Der Kubernetes-Master wird der Knoten im Cluster automatisch Pods zugewiesen.The Kubernetes master automatically assigns pods to nodes in the cluster.

In SQL Server-big Data-Cluster ist Kubernetes verantwortlich für den Status der SQL Server-big Data-Cluster. Kubernetes erstellt und konfiguriert die Clusterknoten, weist der Pods zu Knoten und überwacht die Integrität des Clusters.In SQL Server big data clusters, Kubernetes is responsible for the state of the SQL Server big data clusters; Kubernetes builds and configures the cluster nodes, assigns pods to nodes, and monitors the health of the cluster.

Big Data-Cluster-ArchitekturBig data clusters architecture

Knoten im Cluster werden in drei logische Ebenen angeordnet: die Steuerungsebene, die Compute-Ebene und die Datenebene.Nodes in the cluster are arranged into three logical planes: the control plane, the compute plane, and the data plane. Jede Ebene hat verschiedene Aufgaben im Cluster.Each plane has different responsibilities in the cluster. Alle Kubernetes-Knoten in einer SQL Server-big Data-Cluster hostet Pods für Komponenten, der mindestens eine Ebene.Every Kubernetes node in a SQL Server big data cluster is hosting pods for components of at least one plane.

Übersicht über die Architektur

SteuerungsebeneControl plane

Die Steuerungsebene ermöglicht eine Verwaltung und Sicherheit für den Cluster.The control plane provides management and security for the cluster. Es enthält den Kubernetes-Master, der SQL Server-Masterinstanz, und andere Dienste Cluster-, z. B. die Hive-Metastore und den Spark-Treiber.It contains the Kubernetes master, the SQL Server master instance, and other cluster-level services such as the Hive Metastore and Spark Driver.

Compute-EbeneCompute plane

Die Compute-Ebene enthält die Compute-Ressourcen für den Cluster.The compute plane provides computational resources to the cluster. Knoten mit SQL Server auf Linux-Pods enthält.It contains nodes running SQL Server on Linux pods. Die Pods in der Compute-Ebene sind unterteilt in computepools für bestimmte Verarbeitungsaufgaben.The pods in the compute plane are divided into compute pools for specific processing tasks. Ein Compute-Pool kann als eine PolyBase Erweiterungsgruppe für verteilte Abfragen über verschiedene Quellen wie z. wie HDFS, Oracle, MongoDB oder Teradata.A compute pool can act as a PolyBase scale-out group for distributed queries over different data sources-such as HDFS, Oracle, MongoDB, or Teradata.

DatenebeneData plane

Die Datenebene wird für Dauerhaftigkeit von Daten und Zwischenspeichern verwendet.The data plane is used for data persistence and caching. Es enthält die SQL Datenpool und Speicherpool.It contains the SQL data pool, and storage pool. Pool für die SQL-Daten bestehen aus einem oder mehreren Pods, die SQL Server unter Linux ausgeführt wird.The SQL data pool consists of one or more pods running SQL Server on Linux. Es wird zum Erfassen von Daten aus SQL-Abfragen oder Spark-Aufträgen.It is used to ingest data from SQL queries or Spark jobs. SQL Server-big Data-cluster Daten, die im Pool Data Marts beibehalten werden.SQL Server big data cluster data marts are persisted in the data pool. Der Speicherpool besteht aus Storage Pool Pods bestehend aus SQL Server unter Linux, Spark und HDFS.The storage pool consists of storage pool pods comprised of SQL Server on Linux, Spark, and HDFS. Alle Speicherknoten in einer SQL Server-big Data-Cluster sind Mitglieder eines Clusters von HDFS.All the storage nodes in a SQL Server big data cluster are members of an HDFS cluster.

Nächste SchritteNext steps

SQL Server-big Data-Cluster ist zunächst als eingeschränkte öffentliche Vorschauversion mithilfe der SQL Server 2019 Early Adoption Program verfügbar.SQL Server big data clusters is first available as a limited public preview through the SQL Server 2019 Early Adoption Program. Um Zugriff zu beantragen, registrieren hier, und geben Sie Ihr Interesse an, um big Data-Cluster zu versuchen.To request access, register here, and specify your interest to try big data clusters. Microsoft alle Anforderungen selektieren und so bald wie möglich Antworten.Microsoft will triage all requests and respond as soon as possible.