SQL Server ビッグデータクラスターの紹介

[アーティクル]
03/21/2023

適用対象: SQL Server 2019 (15.x)

重要

Microsoft SQL Server 2019 ビッグデータクラスターのアドオンは廃止されます。 SQL Server 2019 ビッグデータクラスターのサポートは、2025 年 2 月 28 日に終了します。ソフトウェアアシュアランス付きの SQL Server 2019 を使用する既存の全ユーザーはプラットフォームで完全にサポートされ、ソフトウェアはその時点まで SQL Server の累積更新プログラムによって引き続きメンテナンスされます。詳細については、お知らせのブログ記事と「Microsoft SQL Server プラットフォームのビッグデータオプション」を参照してください。

SQL Server 2019 (15.x) では、SQL Server ビッグデータクラスターを使用すると、Kubernetes 上で動作する SQL Server、Spark、および HDFS コンテナーのスケーラブルなクラスターを展開できます。これらのコンポーネントを並行して実行し、Transact-SQL または Spark からのビッグデータの読み取り、書き込み、処理を行うことができるので、高価値のリレーショナルデータと大量のビッグデータを簡単に組み合わせて分析できます。

はじめに

まず、「SQL Server ビッグデータクラスターの概要」を参照してください。
最新リリースの新機能については、リリースノートを参照してください。
よく寄せられる質問については、ビッグデータクラスターのよくあるご質問を参照してください。

ビッグデータクラスターのアーキテクチャ

次の図は、SQL Server ビッグデータクラスターのコンポーネントを示しています。

コントローラー

コントローラーには、クラスターの管理とセキュリティ機能があります。これには、制御サービス、構成ストア、および Kibana、Grafana、Elasticsearch などのその他のクラスターレベルサービスが含まれています。

計算プール

コンピューティングプールは、クラスターにコンピューティングリソースを提供します。これには SQL Server on Linux ポッドを実行するノードが含まれます。コンピューティングプール内のポッドは、特定の処理タスクのために SQL コンピューティングインスタンスに分割されます。

データプール

データプールはデータの永続化に使用されます。データプールは、SQL Server on Linux を実行している 1 つ以上のポッドで構成されます。これは、SQL クエリまたは Spark ジョブからデータを取り込むために使用されます。

記憶域プール

記憶域プールは、SQL Server on Linux、Spark、および HDFS で構成される記憶域プールポッドで構成されます。 SQL Server ビッグデータクラスター内のすべての記憶域ノードは、HDFS クラスターのメンバーです。

ヒント

ビッグデータクラスターのアーキテクチャとインストールの詳細については、「ワークショップ: Microsoft SQL Server ビッグデータクラスターのアーキテクチャ」を参照してください。

アプリケーションプール

アプリケーション展開は、アプリケーションを作成、管理、および実行するためのインターフェイスを提供することにより、SQL Server ビッグデータクラスターでアプリケーションの展開を可能にします。

シナリオと機能

SQL Server ビッグデータクラスターを使用すると、ビッグデータの操作が柔軟になります。外部データソースに対してクエリを実行する、SQL Server が管理する HDFS にビッグデータを格納する、またはクラスターを介して複数の外部データソースのデータに対してクエリを実行することができます。このデータは、AI、機械学習、その他の分析タスクに使用できます。

SQL Server ビッグデータクラスターを使用して次のことを行います。

Kubernetes で実行している SQL Server、Spark、HDFS コンテナーのスケーラブルなクラスターを配置します。
Transact-SQL または Spark からビッグデータの読み取り、書き込み、処理を行います。
大量のビッグデータを使用して、価値の高いリレーショナルデータを簡単に組み合わせて分析します。
外部データソースを照会します。
SQL Server によって管理される HDFS にビッグデータを格納します。
クラスターを介して複数の外部データソースからデータを照会します。
AI、機械学習、その他の分析タスクにデータを使用します。
ビッグデータクラスターでアプリケーションのデプロイと実行を行います。
PolyBase を使用してデータを仮想化します。外部テーブルを使用して、外部の SQL Server、Oracle、Teradata、MongoDB、汎用 ODBC データソースから、データを照会します。
Always On 可用性グループテクノロジを使用して、SQL Server マスターインスタンスとすべてのデータベースの高可用性を実現します。

以下に、これらのシナリオについて詳しく説明します。

データの仮想化

PolyBase を利用することで、SQL Server ビッグデータクラスターでは、データを移動またはコピーすることなく、外部データソースに対してクエリを実行できます。 SQL Server 2019 (15.x) では、データソースに新しいコネクタが導入されています。詳細については、「PolyBase 2019 の新機能」を参照してください。

データの仮想化

データレイク

SQL Server ビッグデータクラスターには、スケーラブルな HDFS 記憶域プールが含まれています。これは、複数の外部ソースから取り込まれた可能性があるビッグデータを格納するために使用できます。ビッグデータクラスターの HDFS にビッグデータが格納されたら、そのデータを分析してクエリを実行し、リレーショナルデータと組み合わせることができます。

データレイク

AI と機械学習の統合

SQL Server ビッグデータクラスターを使用すると、HDFS 記憶域プールとデータプールに格納されているデータに対して AI と機械学習タスクを実行できます。 R、Python、Scala、または Java を使用し、Spark だけでなく SQL Server の組み込みの AI ツールを使用できます。

AI と ML

管理と監視

管理と監視は、コマンドラインツール、API、ポータル、および動的管理ビューを組み合わせて実行できます。

Azure Data Studio を使用すると、ビッグデータクラスターに対してさまざまなタスクを実行できます。

一般的な管理タスク用の組み込みスニペット。
HDFS の参照、ファイルのアップロード、ファイルのプレビュー、およびディレクトリの作成を行う機能。
Jupyter 互換ノートブックを作成、開く、および実行する機能。
外部データソースの作成を簡易化するデータ仮想化ウィザード (データ仮想化の拡張機能によって有効化されます)。

Kubernetes の概念

SQL Server ビッグデータクラスターは、Kubernetes によって調整された Linux コンテナーのクラスターです。

Kubernetes はオープンソースのコンテナーオーケストレーターであり、必要に応じてコンテナーの展開を拡張できます。次の表では、重要な Kubernetes 用語をいくつか定義します。

期間	説明
クラスター	Kubernetes クラスターは、ノードと呼ばれる一連のマシンです。 1 つのノードがクラスターを制御し、マスターノードに指定されます。残りのノードはワーカーノードです。 Kubernetes マスターは、ワーカー間で作業を分散し、クラスターの正常性を監視する役割を担います。
Node	ノードによって、コンテナー化されたアプリケーションが実行されます。物理マシンまたは仮想マシンのいずれかです。 Kubernetes クラスターには、物理マシンと仮想マシンの両方のノードを含めることができます。
ポッド	ポッドは、Kubernetes のアトミック展開単位です。ポッドは、アプリケーションの実行に必要な 1 つ以上のコンテナーと関連するリソースの論理グループです。各ポッドはノード上で実行されます。ノードでは、1 つ以上のポッドを実行できます。 Kubernetes マスターによって、クラスター内のノードにポッドが自動的に割り当てられます。

SQL Server ビッグデータクラスターでは、Kubernetes がクラスターの状態を担当します。 Kubernetes によってクラスターノードの構築と構成が行われ、ポッドがノードに割り当てられ、クラスターの正常性が監視されます。

次のステップ

SQL Server ビッグデータクラスターの展開の詳細については、「SQL Server ビッグデータクラスターの使用を開始する」を参照してください。
その後、データの読み込みと Spark ジョブの実行を開始します。

詳細情報

関連テクノロジのモジュールについて説明します。

SQL Server ビッグデータクラスターの紹介

はじめに