SQL Server кластеров больших данныхSQL Server Big Data ClustersЧто?What are SQL Server кластеров больших данныхSQL Server Big Data Clusters?

Этот раздел применим к: ДаSQL Server НетБаза данных SQL Azure НетХранилище данных SQL Azure НетParallel Data Warehouse THIS TOPIC APPLIES TO:yesSQL Server noAzure SQL DatabasenoAzure SQL Data Warehouse noParallel Data Warehouse

Начиная с SQL Server 2019SQL Server 2019версии SQL Server кластеров больших данныхSQL Server Big Data Clusters , можно развертывать масштабируемые кластеры SQL Server, Spark и контейнеров HDFS, выполняющихся в Kubernetes.Starting with SQL Server 2019SQL Server 2019, SQL Server кластеров больших данныхSQL Server Big Data Clusters allow you to deploy scalable clusters of SQL Server, Spark, and HDFS containers running on Kubernetes. Эти компоненты работают параллельно, позволяя считывать, записывать и обрабатывать большие данные в Transact-SQL или Spark, благодаря чему вы можете с легкостью объединять и анализировать важные реляционные данные с объемными большими данными.These components are running side by side to enable you to read, write, and process big data from Transact-SQL or Spark, allowing you to easily combine and analyze your high-value relational data with high-volume big data.

Дополнительные сведения о новых возможностях и известных проблемах в последнем выпуске см. в заметках о выпуске.For more information about new features and known issues for latest release, see the release notes.

Примечание

Релиз-кандидат SQL Server 2019 доступен в общедоступной предварительной версии.SQL Server 2019 release candidate is available as public preview. Выпуски общедоступных предварительных версий SQL Server 2019 включают CTP 3.2 и этот релиз-кандидат.Public preview releases of SQL Server 2019 include CTP 3.2 and this release candidate. До версии SQL Server 2019 CTP 3.2 кластеры больших данных SQL Server были доступны в виде ограниченной общедоступной предварительной версии в рамках программы раннего внедрения SQL Server 2019.Prior to SQL Server 2019 CTP 3.2, SQL Server big data clusters was available as a limited public preview through the SQL Server 2019 Early Adoption Program.

СценарииScenarios

SQL Server кластеров больших данныхSQL Server Big Data Clustersобеспечение гибкости при взаимодействии с большими данными.provide flexibility in how you interact with your big data. Вы можете выполнять запросы к внешним источникам данных, сохранять большие данные в HDFS под управлением SQL Server, а также запрашивать данные из нескольких внешних источников данных через кластер.You can query external data sources, store big data in HDFS managed by SQL Server, or query data from multiple external data sources through the cluster. Полученные данные можно обрабатывать с применением технологий искусственного интеллекта, машинного обучения и других аналитических задач.You can then use the data for AI, machine learning, and other analysis tasks. В следующих подразделах содержатся дополнительные сведения об этих сценариях.The following sections provide more information about these scenarios.

Виртуализация данныхData virtualization

Используя SQL Server polybase, SQL Server кластеров больших данныхSQL Server Big Data Clusters можно выполнять запросы к внешним источникам данных без перемещения или копирования данных.By leveraging SQL Server PolyBase, SQL Server кластеров больших данныхSQL Server Big Data Clusters can query external data sources without moving or copying the data. В SQL Server 2019SQL Server 2019 применяются новые соединители с источниками данных.SQL Server 2019SQL Server 2019 introduces new connectors to data sources.

Виртуализация данных

Озеро данныхData lake

Кластер больших данных SQL Server включает масштабируемый пул носителей HDFS.A SQL Server big data cluster includes a scalable HDFS storage pool. Он может использоваться для хранения больших данных, которые могут приниматься из нескольких внешних источников.This can be used to store big data, potentially ingested from multiple external sources. После сохранения больших данных в HDFS в кластере больших данных вы можете анализировать и запрашивать их, а также объединять их с реляционными данными.Once the big data is stored in HDFS in the big data cluster, you can analyze and query the data and combine it with your relational data.

Озеро данных

Киоск данных горизонтального масштабированияScale-out data mart

SQL Server кластеров больших данныхSQL Server Big Data ClustersПредоставьте масштабное вычисление и хранилище, чтобы повысить производительность анализа любых данных.provide scale-out compute and storage to improve the performance of analyzing any data. При этом данные из самых разных источников могут приниматься и распределяться между экземплярами пула данных в качестве кэша для последующего анализа.Data from a variety of sources can be ingested and distributed across data pool nodes as a cache for further analysis.

Киоск данных

Встроенные возможности искусственного интеллекта и машинного обученияIntegrated AI and Machine Learning

SQL Server кластеров больших данныхSQL Server Big Data ClustersВключите задачи искусственного интеллекта и машинного обучения для данных, хранящихся в пулах хранения HDFS и пулах данных.enable AI and machine learning tasks on the data stored in HDFS storage pools and the data pools. Вы можете использовать Spark, а также встроенные в SQL Server средства на основе искусственного интеллекта, использующие языки R, Python, Scala или Java.You can use Spark as well as built-in AI tools in SQL Server, using R, Python, Scala, or Java.

Искусственный интеллект и машинное обучение

Управление и мониторингManagement and Monitoring

Возможности управления и мониторинга реализуются на основе сочетания средств командной строки, API, порталов и динамических административных представлений.Management and monitoring are provided through a combination of command line tools, APIs, portals, and dynamic management views.

Вы можете использовать Azure Data Studio для выполнения самых разных задач в кластере больших данных.You can use Azure Data Studio to perform a variety of tasks on the big data cluster. Эту возможность обеспечивает новое расширение SQL Server 2019 (предварительная версия) .This is enabled by the new SQL Server 2019 Extension (Preview). Это расширение предоставляет следующие возможности:This extension provides:

  • Встроенные фрагменты кода для общих задач управления.Built-in snippets for common management tasks.
  • Просмотр HDFS, загрузка и предварительный просмотр файлов, а также создание каталогов.Ability to browse HDFS, upload files, preview files, and create directories.
  • Создание, открытие и выполнение записных книжек, совместимых с Jupyter.Ability to create, open, and run Jupyter-compatible notebooks.
  • Мастер виртуализации данных, упрощающий процесс создания внешних источников данных.Data virtualization wizard to simplify the creation of external data sources.

АрхитектураArchitecture

Кластер больших данных SQL Server представляет собой кластер контейнеров Linux под управлением Kubernetes.A SQL Server big data cluster is a cluster of Linux containers orchestrated by Kubernetes.

Основные понятия KubernetesKubernetes concepts

Kubernetes — это оркестратор контейнеров с открытым исходным кодом, который обеспечивает масштабирование развертываний контейнеров в соответствии с потребностями.Kubernetes is an open source container orchestrator, which can scale container deployments according to need. В следующей таблице описываются основные термины, связанные с Kubernetes:The following table defines some important Kubernetes terminology:

ClusterCluster Кластер Kubernetes — это набор компьютеров, которые также называются узлами.A Kubernetes cluster is a set of machines, known as nodes. Один узел используется для управления кластером и является главным. Остальные считаются рабочими узлами.One node controls the cluster and is designated the master node; the remaining nodes are worker nodes. Главный узел Kubernetes отвечает за распределение рабочей нагрузки между рабочими узлами, а также за мониторинг работоспособности кластера.The Kubernetes master is responsible for distributing work between the workers, and for monitoring the health of the cluster.
NodeNode Узел запускает контейнерные приложения.A node runs containerized applications. Это может быть как физический компьютер, так и виртуальная машина.It can be either a physical machine or a virtual machine. Кластер Kubernetes может включать узлы как физических компьютеров, так и виртуальных машин.A Kubernetes cluster can contain a mixture of physical machine and virtual machine nodes.
PodPod Pod — это атомарная единица развертывания Kubernetes.A pod is the atomic deployment unit of Kubernetes. Pod представляет собой логическую группу, которая состоит из одного или нескольких контейнеров и связанных ресурсов, необходимых для запуска приложения.A pod is a logical group of one or more containers-and associated resources-needed to run an application. Каждый pod выполняется на узле. При этом узел может выполняться в одном или нескольких pod.Each pod runs on a node; a node can run one or more pods. Главный узел Kubernetes автоматически назначает существующие pod узлам в кластере.The Kubernetes master automatically assigns pods to nodes in the cluster.
 

В SQL Server кластеров больших данныхSQL Server Big Data ClustersKubernetes отвечает за состояние SQL Server кластеров больших данныхSQL Server Big Data Clusters; Kubernetes создает и настраивает узлы кластера, назначает модули Pod для узлов и отслеживает работоспособность кластера.In SQL Server кластеров больших данныхSQL Server Big Data Clusters, Kubernetes is responsible for the state of the SQL Server кластеров больших данныхSQL Server Big Data Clusters; Kubernetes builds and configures the cluster nodes, assigns pods to nodes, and monitors the health of the cluster.

Архитектура кластеров больших данныхBig data clusters architecture

На следующей схеме показаны компоненты кластера больших данных для SQL Server.The following diagram shows the components of a big data cluster for SQL Server.

Обзор архитектуры

КонтроллерController

Контроллер обеспечивает управление кластером и его безопасность.The controller provides management and security for the cluster. Он включает службу управления, хранилище конфигурации, а также другие службы уровня кластера, такие как Kibana, Grafana и Elastic Search.It contains the cntrol service, the configuration store, and other cluster-level services such as Kibana, Grafana, and Elastic Search.

Вычислительный пулCompute pool

Вычислительный пул предоставляет кластеру вычислительные ресурсы.The compute pool provides computational resources to the cluster. Он содержит узлы с pod SQL Server на Linux.It contains nodes running SQL Server on Linux pods. Pod в вычислительном пуле подразделяются на вычислительные экземпляры SQL для решения конкретных задач обработки.The pods in the compute pool are divided into SQL Compute instances for specific processing tasks.

Пул данныхData pool

Пул данных используется для сохранения и кэширования данных.The data pool is used for data persistence and caching. Пул данных состоит из одного или нескольких pod с SQL Server на Linux.The data pool consists of one or more pods running SQL Server on Linux. Он используется для приема данных из SQL-запросов или заданий Spark.It is used to ingest data from SQL queries or Spark jobs. Киоски данных для кластера больших данных SQL Server сохраняются в пуле данных.SQL Server big data cluster data marts are persisted in the data pool.

Пул носителейStorage pool

Пул носителей формируется из pod пула носителей, состоящих из SQL Server на Linux, Spark и HDFS.The storage pool consists of storage pool pods comprised of SQL Server on Linux, Spark, and HDFS. Все узлы хранилища в кластере больших данных SQL Server входят в кластер HDFS.All the storage nodes in a SQL Server big data cluster are members of an HDFS cluster.

Совет

Подробный обзор архитектуры кластера больших данных и установки см. в статье Семинар. SQL Server кластеров больших данныхSQL Server Big Data Clusters АрхитектураМайкрософт.For an in-depth look into big data cluster architecture and installation, see Workshop: Microsoft SQL Server кластеров больших данныхSQL Server Big Data Clusters Architecture.

Следующие шагиNext steps

SQL Server кластеров больших данныхSQL Server Big Data Clustersв первую очередь доступна в виде ограниченной общедоступной предварительной версии с помощью программы SQL Server 2019 с ранним внедрением.is first available as a limited public preview through the SQL Server 2019 Early Adoption Program. Чтобы запросить доступ, зарегистрируйтесь и укажите, что вас интересуют кластеры больших данных.To request access, register here, and specify your interest to try big data clusters. Специалисты Майкрософт рассмотрят все запросы и ответят на них в кратчайшие возможные сроки.Microsoft will triage all requests and respond as soon as possible.