SQL Server ビッグ データ クラスターSQL Server Big Data ClustersとはWhat are SQL Server ビッグ データ クラスターSQL Server Big Data Clusters?

このトピックの適用対象: ○SQL Server 2019 以降 XAzure SQL DatabaseXAzure Synapse Analytics XParallel Data Warehouse THIS TOPIC APPLIES TO:yesSQL Server 2019 and later noAzure SQL DatabasenoAzure Synapse Analytics noParallel Data Warehouse

SQL Server 2019 (15.x)SQL Server 2019 (15.x) 以降、SQL Server ビッグ データ クラスターSQL Server Big Data Clustersを使用すると、Kubernetes 上で動作する SQL Server、Spark、および HDFS コンテナーのスケーラブルなクラスターを展開できます。Starting with SQL Server 2019 (15.x)SQL Server 2019 (15.x), SQL Server ビッグ データ クラスターSQL Server Big Data Clusters allow you to deploy scalable clusters of SQL Server, Spark, and HDFS containers running on Kubernetes. これらのコンポーネントを並行して実行し、Transact-SQL または Spark からのビッグ データの読み取り、書き込み、処理を行うことができるので、高価値のリレーショナル データと大量のビッグ データを簡単に組み合わせて分析できます。These components are running side by side to enable you to read, write, and process big data from Transact-SQL or Spark, allowing you to easily combine and analyze your high-value relational data with high-volume big data.

SQL Server 2019 (15.x)SQL Server 2019 (15.x) では、SQL Server ビッグ データ クラスターについて説明しています。introduces SQL Server Big Data Clusters.

SQL Server ビッグ データ クラスターを使用して次のことを行います。Use SQL Server Big Data Clusters to:

  • Kubernetes で実行している SQL Server、Spark、HDFS コンテナーのスケーラブルなクラスターを配置しますDeploy scalable clusters of SQL Server, Spark, and HDFS containers running on Kubernetes.
  • Transact-SQL または Spark からビッグ データの読み取り、書き込み、処理を行います。Read, write, and process big data from Transact-SQL or Spark.
  • 大量のビッグ データを使用して、価値の高いリレーショナル データを簡単に組み合わせて分析します。Easily combine and analyze high-value relational data with high-volume big data.
  • 外部データ ソースを照会します。Query external data sources.
  • SQL Server によって管理される HDFS にビッグ データを格納します。Store big data in HDFS managed by SQL Server.
  • クラスターを介して複数の外部データ ソースからデータを照会します。Query data from multiple external data sources through the cluster.
  • AI、機械学習、その他の分析タスクにデータを使用します。Use the data for AI, machine learning, and other analysis tasks.
  • ビッグ データ クラスターBig Data Clustersアプリケーションを展開して実行します。Deploy and run applications in ビッグ データ クラスターBig Data Clusters.
  • PolyBase を使用してデータを仮想化します。Virtualize data with PolyBase. 外部テーブルを使用して、外部の SQL Server、Oracle、Teradata、MongoDB、ODBC データ ソースからデータを照会します。Query data from external SQL Server, Oracle, Teradata, MongoDB, and ODBC data sources with external tables.
  • Always On 可用性グループ テクノロジを使用して、SQL Server マスター インスタンスとすべてのデータベースの高可用性を実現します。Provide high availability for the SQL Server master instance and all databases by using Always On availability group technology.

最新リリースの新機能と既知の問題の詳細については、リリース ノートを参照してください。For more information about new features and known issues for latest release, see the release notes.

シナリオScenarios

SQL Server ビッグ データ クラスターSQL Server Big Data Clustersを使用すると、ビッグ データの操作が柔軟になります。provide flexibility in how you interact with your big data. 外部データ ソースに対してクエリを実行する、SQL Server が管理する HDFS にビッグ データを格納する、またはクラスターを介して複数の外部データ ソースのデータに対してクエリを実行することができます。You can query external data sources, store big data in HDFS managed by SQL Server, or query data from multiple external data sources through the cluster. このデータは、AI、機械学習、その他の分析タスクに使用できます。You can then use the data for AI, machine learning, and other analysis tasks. 以下に、これらのシナリオについて詳しく説明します。The following sections provide more information about these scenarios.

データの仮想化Data virtualization

SQL Server PolyBase を利用することで、SQL Server ビッグ データ クラスターSQL Server Big Data Clustersでは、データを移動またはコピーすることなく、外部データ ソースに対してクエリを実行できます。By leveraging SQL Server PolyBase, SQL Server ビッグ データ クラスターSQL Server Big Data Clusters can query external data sources without moving or copying the data. SQL Server 2019 (15.x)SQL Server 2019 (15.x) では、データ ソースに新しいコネクタが導入されています。introduces new connectors to data sources.

データの仮想化

データ レイクData lake

SQL Server ビッグ データ クラスターには、スケーラブルな HDFS 記憶域プールが含まれています。A SQL Server big data cluster includes a scalable HDFS storage pool. これは、複数の外部ソースから取り込まれた可能性があるビッグ データを格納するために使用できます。This can be used to store big data, potentially ingested from multiple external sources. ビッグ データ クラスターの HDFS にビッグ データが格納されたら、そのデータを分析してクエリを実行し、リレーショナル データと組み合わせることができます。Once the big data is stored in HDFS in the big data cluster, you can analyze and query the data and combine it with your relational data.

データ レイク

スケールアウト データ マートScale-out data mart

SQL Server ビッグ データ クラスターSQL Server Big Data Clustersには、任意のデータの分析パフォーマンスを向上させるスケールアウト コンピューティングとストレージが用意されています。provide scale-out compute and storage to improve the performance of analyzing any data. さまざまなソースのデータを取り込み、さらに分析するためにキャッシュとしてデータ プール ノード全体に分散することができます。Data from a variety of sources can be ingested and distributed across data pool nodes as a cache for further analysis.

データ マート

AI と機械学習の統合Integrated AI and Machine Learning

SQL Server ビッグ データ クラスターSQL Server Big Data Clustersを使用すると、HDFS 記憶域プールとデータ プールに格納されているデータに対して AI と機械学習タスクを実行できます。enable AI and machine learning tasks on the data stored in HDFS storage pools and the data pools. R、Python、Scala、または Java を使用し、Spark だけでなく SQL Server の組み込みの AI ツールを使用できます。You can use Spark as well as built-in AI tools in SQL Server, using R, Python, Scala, or Java.

AI と ML

管理と監視Management and Monitoring

管理と監視は、コマンド ライン ツール、API、ポータル、および動的管理ビューを組み合わせて実行できます。Management and monitoring are provided through a combination of command line tools, APIs, portals, and dynamic management views.

Azure Data Studio を使用すると、ビッグ データ クラスターに対してさまざまなタスクを実行できます。You can use Azure Data Studio to perform a variety of tasks on the big data cluster. これは、新しい SQL Server 2019 拡張機能によって実現します。This is enabled by the new SQL Server 2019 Extension. この拡張機能には、次の機能があります。This extension provides:

  • 一般的な管理タスク用の組み込みスニペット。Built-in snippets for common management tasks.
  • HDFS の参照、ファイルのアップロード、ファイルのプレビュー、およびディレクトリの作成を行う機能。Ability to browse HDFS, upload files, preview files, and create directories.
  • Jupyter 互換ノートブックを作成、開く、および実行する機能。Ability to create, open, and run Jupyter-compatible notebooks.
  • 外部データ ソースの作成を簡易化するデータ仮想化ウィザード。Data virtualization wizard to simplify the creation of external data sources.

アーキテクチャArchitecture

SQL Server ビッグ データ クラスターは、Kubernetes によって調整された Linux コンテナーのクラスターです。A SQL Server big data cluster is a cluster of Linux containers orchestrated by Kubernetes.

Kubernetes の概念Kubernetes concepts

Kubernetes はオープン ソースのコンテナー オーケストレーターであり、必要に応じてコンテナーの展開を拡張できます。Kubernetes is an open source container orchestrator, which can scale container deployments according to need. 次の表では、重要な Kubernetes 用語をいくつか定義します。The following table defines some important Kubernetes terminology:

クラスターCluster Kubernetes クラスターは、ノードと呼ばれる一連のマシンです。A Kubernetes cluster is a set of machines, known as nodes. 1 つのノードがクラスターを制御し、マスター ノードに指定されます。残りのノードはワーカー ノードです。One node controls the cluster and is designated the master node; the remaining nodes are worker nodes. Kubernetes マスターは、ワーカー間で作業を分散し、クラスターの正常性を監視する役割を担います。The Kubernetes master is responsible for distributing work between the workers, and for monitoring the health of the cluster.
[Node]Node ノードによって、コンテナー化されたアプリケーションが実行されます。A node runs containerized applications. 物理マシンまたは仮想マシンのいずれかです。It can be either a physical machine or a virtual machine. Kubernetes クラスターには、物理マシンと仮想マシンの両方のノードを含めることができます。A Kubernetes cluster can contain a mixture of physical machine and virtual machine nodes.
ポッドPod ポッドは、Kubernetes のアトミック展開単位です。A pod is the atomic deployment unit of Kubernetes. ポッドは、アプリケーションの実行に必要な 1 つ以上のコンテナーと関連するリソースの論理グループです。A pod is a logical group of one or more containers-and associated resources-needed to run an application. 各ポッドはノード上で実行されます。ノードでは、1 つ以上のポッドを実行できます。Each pod runs on a node; a node can run one or more pods. Kubernetes マスターによって、クラスター内のノードにポッドが自動的に割り当てられます。The Kubernetes master automatically assigns pods to nodes in the cluster.
 

SQL Server ビッグ データ クラスターSQL Server Big Data Clustersでは、Kubernetes は SQL Server ビッグ データ クラスターSQL Server Big Data Clustersの状態の責任を負います。Kubernetes では、クラスター ノードの構築と構成が行われ、ポッドがノードに割り当てられ、クラスターの正常性が監視されます。In SQL Server ビッグ データ クラスターSQL Server Big Data Clusters, Kubernetes is responsible for the state of the SQL Server ビッグ データ クラスターSQL Server Big Data Clusters; Kubernetes builds and configures the cluster nodes, assigns pods to nodes, and monitors the health of the cluster.

ビッグ データ クラスターのアーキテクチャBig data clusters architecture

次の図は、SQL Server 用のビッグ データ クラスターのコンポーネントを示しています。The following diagram shows the components of a big data cluster for SQL Server.

アーキテクチャの概要

コントローラーController

コントローラーには、クラスターの管理とセキュリティ機能があります。The controller provides management and security for the cluster. これには、制御サービス、構成ストア、および Kibana、Grafana、Elasticsearch などのその他のクラスターレベルサービスが含まれています。It contains the control service, the configuration store, and other cluster-level services such as Kibana, Grafana, and Elastic Search.

コンピューティング プールCompute pool

コンピューティング プールは、クラスターにコンピューティング リソースを提供します。The compute pool provides computational resources to the cluster. これには SQL Server on Linux ポッドを実行するノードが含まれます。It contains nodes running SQL Server on Linux pods. コンピューティング プール内のポッドは、特定の処理タスクのために SQL コンピューティング インスタンスに分割されます。The pods in the compute pool are divided into SQL Compute instances for specific processing tasks.

データ プールData pool

データ プールは、データの永続化とキャッシュに使用されます。The data pool is used for data persistence and caching. データ プールは、SQL Server on Linux を実行している 1 つ以上のポッドで構成されます。The data pool consists of one or more pods running SQL Server on Linux. これは、SQL クエリまたは Spark ジョブからデータを取り込むために使用されます。It is used to ingest data from SQL queries or Spark jobs. SQL Server ビッグ データ クラスターのデータ マートは、データ プールに保持されます。SQL Server big data cluster data marts are persisted in the data pool.

記憶域プールStorage pool

記憶域プールは、SQL Server on Linux、Spark、および HDFS で構成される記憶域プール ポッドで構成されます。The storage pool consists of storage pool pods comprised of SQL Server on Linux, Spark, and HDFS. SQL Server ビッグ データ クラスター内のすべての記憶域ノードは、HDFS クラスターのメンバーです。All the storage nodes in a SQL Server big data cluster are members of an HDFS cluster.

ヒント

ビッグ データ クラスターのアーキテクチャとインストールの詳細については、「ワークショップ:Microsoft SQL Server ビッグ データ クラスターSQL Server Big Data Clusters アーキテクチャ」を参照してください。For an in-depth look into big data cluster architecture and installation, see Workshop: Microsoft SQL Server ビッグ データ クラスターSQL Server Big Data Clusters Architecture.

次のステップNext steps

SQL Server ビッグ データ クラスターの展開の詳細については、「SQL Server ビッグ データ クラスターの使用を開始する」を参照してください。For more information about deploying SQL Server Big Data Clusters, see Get started with SQL Server Big Data Clusters.