Что такое Кластеры больших данных SQL ServerSQL Server Big Data Clusters?What are Кластеры больших данных SQL ServerSQL Server Big Data Clusters?

Применимо к:Applies to: даSQL Server 2019 (15.x)SQL Server 2019 (15.x)yesSQL Server 2019 (15.x)SQL Server 2019 (15.x)Применимо к:Applies to: даSQL Server 2019 (15.x)SQL Server 2019 (15.x)yesSQL Server 2019 (15.x)SQL Server 2019 (15.x)

Начиная с версии SQL Server 2019 (15.x)SQL Server 2019 (15.x), Кластеры больших данных SQL ServerSQL Server Big Data Clusters обеспечивают развертывание масштабируемых кластеров SQL Server, Spark и контейнеров HDFS, работающих в Kubernetes.Starting with SQL Server 2019 (15.x)SQL Server 2019 (15.x), Кластеры больших данных SQL ServerSQL Server Big Data Clusters allow you to deploy scalable clusters of SQL Server, Spark, and HDFS containers running on Kubernetes. Эти компоненты работают параллельно, позволяя считывать, записывать и обрабатывать большие данные в Transact-SQL или Spark, благодаря чему вы можете с легкостью объединять и анализировать важные реляционные данные с объемными большими данными.These components are running side by side to enable you to read, write, and process big data from Transact-SQL or Spark, allowing you to easily combine and analyze your high-value relational data with high-volume big data.

Используйте среду Кластеры больших данных SQL ServerSQL Server Big Data Clusters для выполнения следующих действий:Use Кластеры больших данных SQL ServerSQL Server Big Data Clusters to:

  • Развертывание масштабируемых кластеров SQL Server, Spark и контейнеров HDFS, выполняемых в Kubernetes.Deploy scalable clusters of SQL Server, Spark, and HDFS containers running on Kubernetes.
  • Чтение, запись и обработка больших данных из Transact-SQL или Spark.Read, write, and process big data from Transact-SQL or Spark.
  • Простое объединение и анализ ценных реляционных данных и больших данных крупного объема.Easily combine and analyze high-value relational data with high-volume big data.
  • Запрос внешних источников данных.Query external data sources.
  • Хранение больших данных в HDFS под управлением SQL Server.Store big data in HDFS managed by SQL Server.
  • Запрос данных из нескольких внешних источников данных через кластер.Query data from multiple external data sources through the cluster.
  • Использование данных для искусственного интеллекта, машинного обучения и других задач анализа.Use the data for AI, machine learning, and other analysis tasks.
  • Развертывание и запуск приложений в Кластеры больших данныхBig Data Clusters.Deploy and run applications in Кластеры больших данныхBig Data Clusters.
  • Виртуализация данных с помощью Polybase.Virtualize data with PolyBase. Теперь вы можете запрашивать данные из внешних источников SQL Server, Oracle, Teradata, MongoDB и источников данных ODBC с внешними таблицами.Query data from external SQL Server, Oracle, Teradata, MongoDB, and ODBC data sources with external tables.
  • Обеспечение высокой доступности для основного экземпляра SQL Server и всех баз данных с использованием технологии групп доступности Always On.Provide high availability for the SQL Server master instance and all databases by using Always On availability group technology.

Дополнительные сведения о новых возможностях и известных проблемах в последнем выпуске см. в заметках о выпуске.For more information about new features and known issues for latest release, see the release notes.

СценарииScenarios

Кластеры больших данных SQL ServerSQL Server Big Data Clusters обеспечивают гибкость при работе с большими данными.provide flexibility in how you interact with your big data. Вы можете выполнять запросы к внешним источникам данных, сохранять большие данные в HDFS под управлением SQL Server, а также запрашивать данные из нескольких внешних источников данных через кластер.You can query external data sources, store big data in HDFS managed by SQL Server, or query data from multiple external data sources through the cluster. Полученные данные можно обрабатывать с применением технологий искусственного интеллекта, машинного обучения и других аналитических задач.You can then use the data for AI, machine learning, and other analysis tasks. В следующих подразделах содержатся дополнительные сведения об этих сценариях.The following sections provide more information about these scenarios.

Виртуализация данныхData virtualization

С помощью PolyBase Кластеры больших данных SQL ServerSQL Server Big Data Clusters могут выполнять запросы к внешним источникам данных, не прибегая при этом к перемещению или копированию данных.By leveraging PolyBase, Кластеры больших данных SQL ServerSQL Server Big Data Clusters can query external data sources without moving or copying the data. В SQL Server 2019 (15.x)SQL Server 2019 (15.x) применяются новые соединители с источниками данных.SQL Server 2019 (15.x)SQL Server 2019 (15.x) introduces new connectors to data sources.

Виртуализация данных

Озеро данныхData lake

Кластер больших данных SQL Server включает масштабируемый пул носителей HDFS.A SQL Server big data cluster includes a scalable HDFS storage pool. Он может использоваться для хранения больших данных, которые могут приниматься из нескольких внешних источников.This can be used to store big data, potentially ingested from multiple external sources. После сохранения больших данных в HDFS в кластере больших данных вы можете анализировать и запрашивать их, а также объединять их с реляционными данными.Once the big data is stored in HDFS in the big data cluster, you can analyze and query the data and combine it with your relational data.

Озеро данных

Киоск данных горизонтального масштабированияScale-out data mart

Кластеры больших данных SQL ServerSQL Server Big Data Clusters обеспечивают горизонтальное масштабирование ресурсов для вычислений и хранения, позволяя повысить производительность анализа любых данных.provide scale-out compute and storage to improve the performance of analyzing any data. При этом данные из самых разных источников могут приниматься и распределяться между экземплярами пула данных в качестве кэша для последующего анализа.Data from a variety of sources can be ingested and distributed across data pool nodes as a cache for further analysis.

Киоск данных

Встроенные возможности искусственного интеллекта и машинного обученияIntegrated AI and Machine Learning

Кластеры больших данных SQL ServerSQL Server Big Data Clusters позволяют выполнять задачи на основе искусственного интеллекта и машинного обучения в отношении данных, хранящихся в пулах данных и пулах носителей HDFS.enable AI and machine learning tasks on the data stored in HDFS storage pools and the data pools. Вы можете использовать Spark, а также встроенные в SQL Server средства на основе искусственного интеллекта, использующие языки R, Python, Scala или Java.You can use Spark as well as built-in AI tools in SQL Server, using R, Python, Scala, or Java.

Искусственный интеллект и машинное обучение

Управление и мониторингManagement and Monitoring

Возможности управления и мониторинга реализуются на основе сочетания средств командной строки, API, порталов и динамических административных представлений.Management and monitoring are provided through a combination of command line tools, APIs, portals, and dynamic management views.

Вы можете использовать Azure Data Studio для выполнения самых разных задач в кластере больших данных.You can use Azure Data Studio to perform a variety of tasks on the big data cluster:

  • Встроенные фрагменты кода для общих задач управления.Built-in snippets for common management tasks.
  • Просмотр HDFS, загрузка и предварительный просмотр файлов, а также создание каталогов.Ability to browse HDFS, upload files, preview files, and create directories.
  • Создание, открытие и выполнение записных книжек, совместимых с Jupyter.Ability to create, open, and run Jupyter-compatible notebooks.
  • Мастер виртуализации данных, упрощающий процесс создания внешних источников данных (включается с помощью расширения Data Virtualization ).Data virtualization wizard to simplify the creation of external data sources (enabled by the Data Virtualization Extension ).

АрхитектураArchitecture

Кластер больших данных SQL Server представляет собой кластер контейнеров Linux под управлением Kubernetes.A SQL Server big data cluster is a cluster of Linux containers orchestrated by Kubernetes.

Основные понятия KubernetesKubernetes concepts

Kubernetes — это оркестратор контейнеров с открытым исходным кодом, который обеспечивает масштабирование развертываний контейнеров в соответствии с потребностями.Kubernetes is an open source container orchestrator, which can scale container deployments according to need. В следующей таблице описываются основные термины, связанные с Kubernetes:The following table defines some important Kubernetes terminology:

ТерминTerm ОписаниеDescription
ClusterCluster Кластер Kubernetes — это набор компьютеров, которые также называются узлами.A Kubernetes cluster is a set of machines, known as nodes. Один узел используется для управления кластером и является главным. Остальные считаются рабочими узлами.One node controls the cluster and is designated the master node; the remaining nodes are worker nodes. Главный узел Kubernetes отвечает за распределение рабочей нагрузки между рабочими узлами, а также за мониторинг работоспособности кластера.The Kubernetes master is responsible for distributing work between the workers, and for monitoring the health of the cluster.
NodeNode Узел запускает контейнерные приложения.A node runs containerized applications. Это может быть как физический компьютер, так и виртуальная машина.It can be either a physical machine or a virtual machine. Кластер Kubernetes может включать узлы как физических компьютеров, так и виртуальных машин.A Kubernetes cluster can contain a mixture of physical machine and virtual machine nodes.
PodPod Pod — это атомарная единица развертывания Kubernetes.A pod is the atomic deployment unit of Kubernetes. Pod представляет собой логическую группу, которая состоит из одного или нескольких контейнеров и связанных ресурсов, необходимых для запуска приложения.A pod is a logical group of one or more containers-and associated resources-needed to run an application. Каждый pod выполняется на узле. При этом узел может выполняться в одном или нескольких pod.Each pod runs on a node; a node can run one or more pods. Главный узел Kubernetes автоматически назначает существующие pod узлам в кластере.The Kubernetes master automatically assigns pods to nodes in the cluster.
 

В Кластеры больших данных SQL ServerSQL Server Big Data Clusters Kubernetes отвечает за состояние Кластеры больших данных SQL ServerSQL Server Big Data Clusters. Для выполнения этой задачи Kubernetes создает и настраивает узлы кластера, назначает им существующие pod, а также осуществляет мониторинг работоспособности кластера.In Кластеры больших данных SQL ServerSQL Server Big Data Clusters, Kubernetes is responsible for the state of the Кластеры больших данных SQL ServerSQL Server Big Data Clusters; Kubernetes builds and configures the cluster nodes, assigns pods to nodes, and monitors the health of the cluster.

Архитектура кластеров больших данныхBig data clusters architecture

На следующем рисунке показаны компоненты кластера больших данных SQL Server:The following diagram shows the components of a SQL Server big data cluster:

Обзор архитектуры

КонтроллерController

Контроллер обеспечивает управление кластером и его безопасность.The controller provides management and security for the cluster. Он включает службу контроля, хранилище конфигурации, а также другие службы уровня кластера, такие как Kibana, Grafana и Elastic Search.It contains the control service, the configuration store, and other cluster-level services such as Kibana, Grafana, and Elastic Search.

Вычислительный пулCompute pool

Вычислительный пул предоставляет кластеру вычислительные ресурсы.The compute pool provides computational resources to the cluster. Он содержит узлы с pod SQL Server на Linux.It contains nodes running SQL Server on Linux pods. Pod в вычислительном пуле подразделяются на вычислительные экземпляры SQL для решения конкретных задач обработки.The pods in the compute pool are divided into SQL Compute instances for specific processing tasks.

Пул данныхData pool

Пул данных используется для сохранения и кэширования данных.The data pool is used for data persistence and caching. Пул данных состоит из одного или нескольких pod с SQL Server на Linux.The data pool consists of one or more pods running SQL Server on Linux. Он используется для приема данных из SQL-запросов или заданий Spark.It is used to ingest data from SQL queries or Spark jobs. Киоски данных для кластера больших данных SQL Server сохраняются в пуле данных.SQL Server big data cluster data marts are persisted in the data pool.

Пул носителейStorage pool

Пул носителей формируется из pod пула носителей, состоящих из SQL Server на Linux, Spark и HDFS.The storage pool consists of storage pool pods comprised of SQL Server on Linux, Spark, and HDFS. Все узлы хранилища в кластере больших данных SQL Server входят в кластер HDFS.All the storage nodes in a SQL Server big data cluster are members of an HDFS cluster.

Совет

Подробный обзор архитектуры кластера больших данных и установки см. в статье Семинар. Архитектура Кластеры больших данных SQL ServerSQL Server Big Data Clusters Майкрософт.For an in-depth look into big data cluster architecture and installation, see Workshop: Microsoft Кластеры больших данных SQL ServerSQL Server Big Data Clusters Architecture.

Дальнейшие действияNext steps

Дополнительные сведения о развертывании Кластеры больших данных SQL ServerSQL Server Big Data Clusters см. в разделе Начало работы с Кластеры больших данных SQL ServerSQL Server Big Data Clusters.For more information about deploying Кластеры больших данных SQL ServerSQL Server Big Data Clusters, see Get started with Кластеры больших данных SQL ServerSQL Server Big Data Clusters.