Que sont les clusters de Big Data SQL Server ?What are SQL Server big data clusters?

CETTE RUBRIQUE S’APPLIQUE À : ouiSQL Server nonAzure SQL DatabasenonAzure SQL Data Warehouse nonParallel Data Warehouse THIS TOPIC APPLIES TO:yesSQL Server noAzure SQL DatabasenoAzure SQL Data Warehouse noParallel Data Warehouse

En commençant par SQL Server 2019 - PreviewSQL Server 2019 preview, clusters de données volumineuses de SQL Server que vous puissiez déployer des clusters SCALABLES de SQL Server, Spark et HDFS conteneurs s’exécutant sur Kubernetes.Starting with SQL Server 2019 - PreviewSQL Server 2019 preview, SQL Server big data clusters allow you to deploy scalable clusters of SQL Server, Spark, and HDFS containers running on Kubernetes. Ces composants sont en cours d’exécution côte à côte pour vous permettre de lire, écrire et traiter le big data à partir de Transact-SQL ou Spark, qui vous permet de facilement combiner et analyser vos données relationnelles de valeur élevée avec d’importants volumes de données volumineuses.These components are running side by side to enable you to read, write, and process big data from Transact-SQL or Spark, allowing you to easily combine and analyze your high-value relational data with high-volume big data.

Pour plus d’informations sur les nouvelles fonctionnalités et les problèmes connus pour la version la plus récente, consultez le notes de version.For more information about new features and known issues for latest release, see the release notes.

Notes

Clusters de données volumineuses de SQL Server est disponible en version préliminaire publique limitée par le biais du programme d’Adoption anticipée de SQL Server 2019.SQL Server big data clusters is first available as a limited public preview through the SQL Server 2019 Early Adoption Program. Pour demander l’accès, vous devez inscrire iciet spécifiez votre intérêt pour essayer les clusters de données volumineuses de SQL Server.To request access, register here, and specify your interest to try SQL Server big data clusters. Microsoft trier toutes les demandes et répondre dès que possible.Microsoft will triage all requests and respond as soon as possible.

ScénariosScenarios

Clusters de données volumineuses de SQL Server offrent la flexibilité dans la façon dont vous interagissez avec vos données Big Data.SQL Server big data clusters provide flexibility in how you interact with your big data. Vous pouvez interroger des sources de données externes, le stockage de big data dans HDFS gérés par SQL Server, ou interroger des données à partir de plusieurs sources de données externes via le cluster.You can query external data sources, store big data in HDFS managed by SQL Server, or query data from multiple external data sources through the cluster. Vous pouvez ensuite utiliser les données pour l’intelligence artificielle, apprentissage automatique et autres tâches d’analyse.You can then use the data for AI, machine learning, and other analysis tasks. Les sections suivantes fournissent plus d’informations sur ces scénarios.The following sections provide more information about these scenarios.

Virtualisation de donnéesData virtualization

En tirant parti de SQL Server PolyBase, clusters de données volumineuses de SQL Server peuvent interroger les sources de données externes sans déplacement ou copie des données.By leveraging SQL Server PolyBase, SQL Server big data clusters can query external data sources without moving or copying the data. SQL Server 2019 - PreviewSQL Server 2019 preview introduit de nouveaux connecteurs à des sources de données.introduces new connectors to data sources.

Virtualisation de données

Lac de donnéesData lake

Un cluster de données volumineux de SQL Server inclut un HDFS évolutif pool de stockage.A SQL Server big data cluster includes a scalable HDFS storage pool. Cela peut être utilisé pour stocker des données volumineuses, potentiellement provenir de plusieurs sources externes.This can be used to store big data, potentially ingested from multiple external sources. Une fois que les données volumineuses sont stockées dans HDFS dans le cluster de données volumineux, vous pouvez analyser et interroger les données et les associer à vos données relationnelles.Once the big data is stored in HDFS in the big data cluster, you can analyze and query the data and combine it with your relational data.

Lac de données

Montée en puissance DatamartScale-out data mart

Les clusters de données volumineuses de SQL Server fournissent calcul de montée en puissance et de stockage pour améliorer les performances de l’analyse des données.SQL Server big data clusters provide scale-out compute and storage to improve the performance of analyzing any data. Données à partir de différentes sources peuvent être ingérées et réparties sur pool de données nœuds en tant que cache pour une analyse plus approfondie.Data from a variety of sources can be ingested and distributed across data pool nodes as a cache for further analysis.

mini-Data Warehouse

Intelligence artificielle intégrée et l’apprentissageIntegrated AI and Machine Learning

Les clusters de données volumineuses de SQL Server autorisent intelligence artificielle et tâches sur les données stockées dans des pools de stockage HDFS et les pools de données d’apprentissage.SQL Server big data clusters enable AI and machine learning tasks on the data stored in HDFS storage pools and the data pools. Vous pouvez utiliser Spark, ainsi que des outils d’intelligence artificielle intégrés dans SQL Server, à l’aide de R, Python, Scala ou Java.You can use Spark as well as built-in AI tools in SQL Server, using R, Python, Scala, or Java.

Intelligence artificielle et ML

Gestion et surveillanceManagement and Monitoring

Gestion et surveillance sont fournies via une combinaison d’outils de ligne de commande, les API, les portails et les vues de gestion dynamique.Management and monitoring are provided through a combination of command line tools, APIs, portals, and dynamic management views.

Vous pouvez utiliser Azure Data Studio pour effectuer diverses tâches sur le cluster de données volumineuses.You can use Azure Data Studio to perform a variety of tasks on the big data cluster. Cette option est activée par la nouvelle 2019 Extension (version préliminaire) de SQL Server.This is enabled by the new SQL Server 2019 Extension (Preview). Cette extension fournit :This extension provides:

  • Extraits de code intégrés pour les tâches de gestion courantes.Built-in snippets for common management tasks.
  • Possibilité de parcourir HDFS, télécharger des fichiers, afficher un aperçu des fichiers et créer des répertoires.Ability to browse HDFS, upload files, preview files, and create directories.
  • Possibilité de créer, ouvrir et exécuter les blocs-notes Jupyter compatibles.Ability to create, open, and run Jupyter-compatible notebooks.
  • Assistant de virtualisation des données pour simplifier la création de sources de données externes.Data virtualization wizard to simplify the creation of external data sources.

ArchitectureArchitecture

Un cluster de données volumineux de SQL Server est un cluster de conteneurs Linux orchestrés par Kubernetes.A SQL Server big data cluster is a cluster of Linux containers orchestrated by Kubernetes.

Concepts de KubernetesKubernetes concepts

Kubernetes est un orchestrateur de conteneur open source, ce qui peut mettre à l’échelle des déploiements de conteneurs en fonction de besoins.Kubernetes is an open source container orchestrator, which can scale container deployments according to need. Le tableau suivant définit certains termes Kubernetes important :The following table defines some important Kubernetes terminology:

ClusterCluster Un cluster Kubernetes est un ensemble d’ordinateurs, appelés nœuds.A Kubernetes cluster is a set of machines, known as nodes. Un nœud de contrôle du cluster et il est le nœud principal ; les nœuds restants sont des nœuds de travail.One node controls the cluster and is designated the master node; the remaining nodes are worker nodes. Le maître de Kubernetes est chargé de distribuer le travail entre les workers et pour surveiller l’intégrité du cluster.The Kubernetes master is responsible for distributing work between the workers, and for monitoring the health of the cluster.
NœudNode Un nœud exécute des applications en conteneur.A node runs containerized applications. Il peut être un ordinateur physique ou une machine virtuelle.It can be either a physical machine or a virtual machine. Un cluster Kubernetes peut contenir un mélange de nœuds de machine virtuelle et de la machine physiques.A Kubernetes cluster can contain a mixture of physical machine and virtual machine nodes.
PodPod Un pod est l’unité atomique de déploiement de Kubernetes.A pod is the atomic deployment unit of Kubernetes. Un pod est un groupe logique d’un ou plusieurs conteneurs- et associé les ressources nécessaires pour exécuter une application.A pod is a logical group of one or more containers-and associated resources-needed to run an application. Chaque pod s’exécute sur un nœud ; un nœud peut exécuter une ou plusieurs pods.Each pod runs on a node; a node can run one or more pods. Le maître de Kubernetes affecte automatiquement des pods aux nœuds du cluster.The Kubernetes master automatically assigns pods to nodes in the cluster.
 

Dans les clusters de données volumineuses de SQL Server, Kubernetes est responsable de l’état des clusters de données volumineuses de SQL Server ; Kubernetes génère et configure les nœuds de cluster, affecte des pods à nœuds et surveille l’intégrité du cluster.In SQL Server big data clusters, Kubernetes is responsible for the state of the SQL Server big data clusters; Kubernetes builds and configures the cluster nodes, assigns pods to nodes, and monitors the health of the cluster.

architecture de clusters Big dataBig data clusters architecture

Nœuds du cluster sont organisées en trois plans logiques : le plan de contrôle, le plan de calcul et le plan de données.Nodes in the cluster are arranged into three logical planes: the control plane, the compute plane, and the data plane. Chaque plan a différentes responsabilités dans le cluster.Each plane has different responsibilities in the cluster. Tous les nœuds Kubernetes dans un cluster de données volumineux de SQL Server héberge pods pour les composants au moins un plan.Every Kubernetes node in a SQL Server big data cluster is hosting pods for components of at least one plane.

Vue d’ensemble de l’architecture

Plan de contrôleControl plane

Le plan de contrôle fournit la gestion et la sécurité pour le cluster.The control plane provides management and security for the cluster. Il contient le serveur maître de Kubernetes, le instance principale de SQL Serveret d’autres services de niveau de cluster telles que le Metastore Hive et le pilote Spark.It contains the Kubernetes master, the SQL Server master instance, and other cluster-level services such as the Hive Metastore and Spark Driver.

Plan de calculCompute plane

Le plan de calcul fournit des ressources de calcul au cluster.The compute plane provides computational resources to the cluster. Il contient des nœuds exécutant SQL Server sur Linux pods.It contains nodes running SQL Server on Linux pods. Le nombre de pods dans le plan de calcul est divisées en pools de calcul pour spécifique des tâches de traitement.The pods in the compute plane are divided into compute pools for specific processing tasks. Un pool de calcul peut agir comme un PolyBase groupe de scale-out pour les requêtes distribuées sur différentes données sources, tels que HDFS, Oracle, MongoDB ou Teradata.A compute pool can act as a PolyBase scale-out group for distributed queries over different data sources-such as HDFS, Oracle, MongoDB, or Teradata.

Plan de donnéesData plane

Le plan de données est utilisé pour la persistance des données et la mise en cache.The data plane is used for data persistence and caching. Il contient le pool de données SQL et le pool de stockage.It contains the SQL data pool, and storage pool. Le pool de données SQL se compose d’un ou plusieurs pods exécutant SQL Server sur Linux.The SQL data pool consists of one or more pods running SQL Server on Linux. Il est utilisé pour recevoir les données à partir de requêtes SQL ou de travaux Spark.It is used to ingest data from SQL queries or Spark jobs. Données volumineuses de SQL Server cluster mini-Data Warehouses sont conservés dans le pool de données des données.SQL Server big data cluster data marts are persisted in the data pool. Le pool de stockage se compose de pods de pool de stockage constitués de SQL Server sur Linux, Spark et HDFS.The storage pool consists of storage pool pods comprised of SQL Server on Linux, Spark, and HDFS. Tous les nœuds de stockage dans un cluster de données volumineux de SQL Server sont membres d’un cluster HDFS.All the storage nodes in a SQL Server big data cluster are members of an HDFS cluster.

Conseil

Pour obtenir une présentation détaillée dans l’architecture de cluster big data et l’installation, consultez atelier : Architecture de clusters de données volumineuses de Microsoft SQL Server.For an in-depth look into big data cluster architecture and installation, see Workshop: Microsoft SQL Server big data clusters Architecture.

Étapes suivantesNext steps

Clusters de données volumineuses de SQL Server est disponible en version préliminaire publique limitée par le biais du programme d’Adoption anticipée de SQL Server 2019.SQL Server big data clusters is first available as a limited public preview through the SQL Server 2019 Early Adoption Program. Pour demander l’accès, vous devez inscrire iciet spécifiez votre intérêt pour essayer les clusters de données volumineuses.To request access, register here, and specify your interest to try big data clusters. Microsoft trier toutes les demandes et répondre dès que possible.Microsoft will triage all requests and respond as soon as possible.