Общие сведения о Кластерах больших данных SQL Server

Область применения: SQL Server 2019 (15.x)

Важно!

Поддержка надстройки "Кластеры больших данных" Microsoft SQL Server 2019 будет прекращена. Мы прекратим поддержку Кластеров больших данных SQL Server 2019 28 февраля 2025 г. Все существующие пользователи SQL Server 2019 с Software Assurance будут полностью поддерживаться на платформе, а программное обеспечение будет по-прежнему поддерживаться с помощью SQL Server накопительных обновлений до этого времени. Дополнительные сведения см. в записи блога объявлений и в статье о параметрах больших данных на платформе Microsoft SQL Server.

D SQL Server 2019 (15.x) Кластеры больших данных SQL Server обеспечивают развертывание масштабируемых кластеров SQL Server, Spark и контейнеров HDFS, работающих в Kubernetes. Эти компоненты работают параллельно, позволяя считывать, записывать и обрабатывать большие данные в Transact-SQL или Spark, благодаря чему вы можете с легкостью объединять и анализировать важные реляционные данные с объемными большими данными.

Начало работы

Архитектура кластеров больших данных

На следующем рисунке показаны компоненты кластера больших данных SQL Server:

Обзор архитектуры кластеров больших данных

Контроллер

Контроллер обеспечивает управление кластером и его безопасность. Он включает службу контроля, хранилище конфигурации, а также другие службы уровня кластера, такие как Kibana, Grafana и Elastic Search.

Вычислительный пул

Вычислительный пул предоставляет кластеру вычислительные ресурсы. Он содержит узлы с pod SQL Server на Linux. Pod в вычислительном пуле подразделяются на вычислительные экземпляры SQL для решения конкретных задач обработки.

Пул данных

Пул данных используется для сохранения данных. Пул данных состоит из одного или нескольких pod с SQL Server на Linux. Он используется для приема данных из SQL-запросов или заданий Spark.

Пул носителей

Пул носителей формируется из pod пула носителей, состоящих из SQL Server на Linux, Spark и HDFS. Все узлы хранилища в кластере больших данных SQL Server входят в кластер HDFS.

Совет

Подробный обзор архитектуры кластера больших данных и установки см. в статье Семинар. Архитектура Кластеров больших данных Microsoft SQL Server.

Пул приложений

Развертывание приложения позволяет развертывать приложения в Кластерах больших данных SQL Server, предоставляя интерфейсы для создания и выполнения приложений, а также управления ими.

Сценарии и возможности

Кластеры больших данных SQL Server обеспечивают высокую гибкость при работе с большими данными. Вы можете выполнять запросы к внешним источникам данных, сохранять большие данные в HDFS под управлением SQL Server, а также запрашивать данные из нескольких внешних источников данных через кластер. Полученные данные можно обрабатывать с применением технологий искусственного интеллекта, машинного обучения и других аналитических задач.

Используйте кластеры больших данных SQL Server для решения следующих задач:

  • Развертывание масштабируемых кластеров SQL Server, Spark и контейнеров HDFS, выполняемых в Kubernetes.
  • Чтение, запись и обработка больших данных из Transact-SQL или Spark.
  • Простое объединение и анализ ценных реляционных данных и больших данных крупного объема.
  • Запрос внешних источников данных.
  • Хранение больших данных в HDFS под управлением SQL Server.
  • Запрос данных из нескольких внешних источников данных через кластер.
  • Использование данных для искусственного интеллекта, машинного обучения и других задач анализа.
  • Развертывание и запуск приложений в Кластерах больших данных.
  • Виртуализация данных с помощью Polybase. Теперь вы можете запрашивать данные из внешних источников SQL Server, Oracle, Teradata, MongoDB и универсальных источников данных ODBC с внешними таблицами.
  • Обеспечение высокой доступности для основного экземпляра SQL Server и всех баз данных с использованием технологии групп доступности Always On.

В следующих подразделах содержатся дополнительные сведения об этих сценариях.

Виртуализация данных

С помощью PolyBase Кластеры больших данных SQL Server могут выполнять запросы к внешним источникам данных, не прибегая при этом к перемещению или копированию данных. SQL Server 2019 (15.x) содержит новые соединители для источников данных. Дополнительные сведения см. в статье Новые возможности PolyBase 2019.

Виртуализация данных

Озеро данных

Кластер больших данных SQL Server включает масштабируемый пул носителей HDFS. Он может использоваться для хранения больших данных, которые могут приниматься из нескольких внешних источников. После сохранения больших данных в HDFS в кластере больших данных вы можете анализировать и запрашивать их, а также объединять их с реляционными данными.

Озеро данных

Встроенные возможности искусственного интеллекта и машинного обучения

Кластеры больших данных SQL Server позволяют выполнять задачи на основе искусственного интеллекта и машинного обучения в отношении данных, хранящихся в пулах данных и пулах носителей HDFS. Вы можете использовать Spark, а также встроенные в SQL Server средства на основе искусственного интеллекта, использующие языки R, Python, Scala или Java.

Искусственный интеллект и машинное обучение

Управление и мониторинг

Возможности управления и мониторинга реализуются на основе сочетания средств командной строки, API, порталов и динамических административных представлений.

Вы можете использовать Azure Data Studio для выполнения самых разных задач в кластере больших данных.

  • Встроенные фрагменты кода для общих задач управления.
  • Просмотр HDFS, загрузка и предварительный просмотр файлов, а также создание каталогов.
  • Создание, открытие и выполнение записных книжек, совместимых с Jupyter.
  • Мастер виртуализации данных, упрощающий процесс создания внешних источников данных (включается с помощью расширения Data Virtualization).

Основные понятия Kubernetes

Кластер больших данных SQL Server представляет собой кластер контейнеров Linux под управлением Kubernetes.

Kubernetes — это оркестратор контейнеров с открытым исходным кодом, который обеспечивает масштабирование развертываний контейнеров в соответствии с потребностями. В следующей таблице описываются основные термины, связанные с Kubernetes:

Термин Описание
Cluster Кластер Kubernetes — это набор компьютеров, которые также называются узлами. Один узел используется для управления кластером и является главным. Остальные считаются рабочими узлами. Главный узел Kubernetes отвечает за распределение рабочей нагрузки между рабочими узлами, а также за мониторинг работоспособности кластера.
Node Узел запускает контейнерные приложения. Это может быть как физический компьютер, так и виртуальная машина. Кластер Kubernetes может включать узлы как физических компьютеров, так и виртуальных машин.
Pod Pod — это атомарная единица развертывания Kubernetes. Pod представляет собой логическую группу, которая состоит из одного или нескольких контейнеров и связанных ресурсов, необходимых для запуска приложения. Каждый pod выполняется на узле. При этом узел может выполняться в одном или нескольких pod. Главный узел Kubernetes автоматически назначает существующие pod узлам в кластере.

В Кластерах больших данных SQL Server служба Kubernetes отвечает за состояние кластера. Для выполнения этой задачи Kubernetes создает и настраивает узлы кластера, назначает им существующие модули pod, а также осуществляет мониторинг работоспособности кластера.

Дальнейшие действия

Дополнительные сведения

Изучите модули для связанных технологий: