SQL Server 2019 ビッグ データ クラスターとはWhat are SQL Server 2019 big data clusters?

以降でSQL Server 2019 プレビューSQL Server 2019 preview、ビッグ データの SQL Server クラスターでは、Kubernetes で実行されている SQL Server、Spark、および HDFS のコンテナーの拡張性の高いクラスターをデプロイできます。Starting with SQL Server 2019 プレビューSQL Server 2019 preview, SQL Server big data clusters allow you to deploy scalable clusters of SQL Server, Spark, and HDFS containers running on Kubernetes. これらのコンポーネントを使用すると、読み取り、書き込み、および TRANSACT-SQL または Spark からビッグ データの処理、結合および価値の高いリレーショナル データを大量のビッグ データ分析を簡単にすることができますを並行して実行されます。These components are running side by side to enable you to read, write, and process big data from Transact-SQL or Spark, allowing you to easily combine and analyze your high-value relational data with high-volume big data.

新機能と最新のリリースの既知の問題の詳細については、次を参照してください。、リリース ノートします。For more information about new features and known issues for latest release, see the release notes.

注意

SQL Server のビッグ データ クラスターは、SQL Server 2019 Early Adoption Program を通じて限定パブリック プレビューとして利用可能なは first です。SQL Server big data clusters is first available as a limited public preview through the SQL Server 2019 Early Adoption Program. アクセス権を要求するには、登録ここ、ビッグ データの SQL Server クラスターに関心を指定します。To request access, register here, and specify your interest to try SQL Server big data clusters. Microsoft はすべての要求をトリアージし、できるだけ早く対応します。Microsoft will triage all requests and respond as soon as possible.

シナリオScenarios

SQL Server のビッグ データ クラスターでは、ビッグ データと対話する方法の柔軟性を提供します。SQL Server big data clusters provide flexibility in how you interact with your big data. 外部データ ソースのクエリ、SQL Server、またはクラスターを複数の外部データ ソースからデータを照会して管理されている HDFS のビッグ データを格納できます。You can query external data sources, store big data in HDFS managed by SQL Server, or query data from multiple external data sources through the cluster. AI、機械学習、およびその他の分析タスクに、このデータを使用できます。You can then use the data for AI, machine learning, and other analysis tasks. 次のセクションでは、これらのシナリオに関する詳細を提供します。The following sections provide more information about these scenarios.

データの仮想化Data virtualization

利用してSQL Server PolyBase、ビッグ データの SQL Server クラスターは移動またはデータをコピーすることがなく外部データ ソースを照会できます。By leveraging SQL Server PolyBase, SQL Server big data clusters can query external data sources without moving or copying the data. SQL Server 2019 プレビューSQL Server 2019 preview データ ソースには、新しいコネクタが導入されています。introduces new connectors to data sources.

データの仮想化

Data lakeData lake

SQL Server のビッグ データ クラスターには、スケーラブルな HDFS が含まれています。記憶域プールします。A SQL Server big data cluster includes a scalable HDFS storage pool. 複数の外部ソースから取り込まれる可能性のあるビッグ データを格納するために使用できます。This can be used to store big data, potentially ingested from multiple external sources. ビッグ データ クラスターで HDFS のビッグ データが保存されると、分析、データのクエリし、リレーショナル データと組み合わせることとことができます。Once the big data is stored in HDFS in the big data cluster, you can analyze and query the data and combine it with your relational data.

Data lake

スケール アウト データ マートScale-out data mart

SQL Server のビッグ データ クラスターは、スケール アウトのコンピューティングとデータの分析のパフォーマンスを向上させるためにストレージを提供します。SQL Server big data clusters provide scale-out compute and storage to improve the performance of analyzing any data. さまざまなソースからデータを取り込みし、分散データ プールさらに詳しい分析のキャッシュとしてのノード。Data from a variety of sources can be ingested and distributed across data pool nodes as a cache for further analysis.

データ マート

統合された AI と機械学習Integrated AI and Machine Learning

SQL Server のビッグ データ クラスターには、AI と機械学習タスクに HDFS の記憶域プールおよびデータ プールに格納されたデータが有効にします。SQL Server big data clusters enable AI and machine learning tasks on the data stored in HDFS storage pools and the data pools. R、Python、Scala、または Java を使用して、SQL Server では、組み込みの AI ツールと同様に Spark を使用できます。You can use Spark as well as built-in AI tools in SQL Server, using R, Python, Scala, or Java.

AI と ML

管理と監視Management and Monitoring

管理と監視は、コマンド ライン ツール、Api、管理者ポータルでは、動的管理ビューの組み合わせを通じて提供されます。Management and monitoring are provided through a combination of command line tools, APIs, an administrator portal, and dynamic management views.

クラスター管理者ポータルは、クラスター内のポッドの正常性と状態を表示する web インターフェイスです。The cluster administrator portal is a web interface that displays the status and health of the pods in the cluster. Log analytics と監視ダッシュ ボードの他のダッシュ ボードへのリンクも提供します。It also provides links to other dashboards for log analytics and monitoring dashboards.

Azure Data Studio を使用して、ビッグ データ クラスター上のさまざまなタスクを実行することができます。You can use Azure Data Studio to perform a variety of tasks on the big data cluster. これは、オプションが有効で、新しいSQL Server 2019 拡張機能 (プレビュー) します。This is enabled by the new SQL Server 2019 Extension (Preview). この拡張機能を提供します。This extension provides:

  • 一般的な管理タスクの組み込みのスニペットです。Built-in snippets for common management tasks.
  • HDFS を参照する機能は、ファイルのアップロード、ファイルをプレビューし、ディレクトリを作成します。Ability to browse HDFS, upload files, preview files, and create directories.
  • 機能を作成するには、開くと互換性のある Jupyter notebook を実行します。Ability to create, open, and run Jupyter-compatible notebooks.
  • データの仮想化ウィザード外部データ ソースの作成を簡略化します。Data virtualization wizard to simplify the creation of external data sources.

アーキテクチャArchitecture

SQL Server のビッグ データ クラスターはクラスターによって調整される Linux コンテナーの場合、 Kubernetesします。A SQL Server big data cluster is a cluster of Linux containers orchestrated by Kubernetes.

Kubernetes の概念Kubernetes concepts

Kubernetes は、ニーズに合わせてコンテナーのデプロイでスケールできる、オープン ソース コンテナー オーケストレーターです。Kubernetes is an open source container orchestrator, which can scale container deployments according to need. 次の表では、Kubernetes の重要な用語を定義します。The following table defines some important Kubernetes terminology:

ClusterCluster Kubernetes クラスターは、一連のノードと呼ばれるマシンです。A Kubernetes cluster is a set of machines, known as nodes. 1 つのノードがクラスターを制御し、マスター ノードが指定されます。残りのノードは、ワーカー ノードです。One node controls the cluster and is designated the master node; the remaining nodes are worker nodes. Kubernetes マスターは、ワーカー間の作業を配布して、クラスターの正常性を監視します。The Kubernetes master is responsible for distributing work between the workers, and for monitoring the health of the cluster.
[Node]Node ノードには、コンテナー化されたアプリケーションが実行されます。A node runs containerized applications. 物理マシンまたは仮想マシンのいずれかを指定できます。It can be either a physical machine or a virtual machine. Kubernetes クラスターには、物理マシンと仮想マシン ノードの組み合わせを含めることができます。A Kubernetes cluster can contain a mixture of physical machine and virtual machine nodes.
pod 型Pod ポッドは、Kubernetes のデプロイのアトミック単位です。A pod is the atomic deployment unit of Kubernetes. ポッドは、1 つまたは複数のコンテナーの論理グループ- と関連リソース: アプリケーションを実行するために必要です。A pod is a logical group of one or more containers—and associated resources—needed to run an application. それぞれのポッドが; ノードで実行します。ノードには、1 つまたは複数のポッドを実行できます。Each pod runs on a node; a node can run one or more pods. Kubernetes マスターは、クラスター内のノードにポッドを自動的に割り当てます。The Kubernetes master automatically assigns pods to nodes in the cluster.

ビッグ データの SQL Server クラスター、Kubernetes は SQL Server のビッグ データ クラスター; の状態を担当Kubernetes で、ビルド、クラスター ノードを構成およびノードにポッドを割り当てます、および、クラスターの正常性を監視します。In SQL Server big data clusters, Kubernetes is responsible for the state of the SQL Server big data clusters; Kubernetes builds and configures the cluster nodes, assigns pods to nodes, and monitors the health of the cluster.

ビッグ データ クラスターのアーキテクチャbig data clusters architecture

クラスター内のノードが 3 つの論理面に配置されます: コントロール プレーン、計算ウィンドウ、およびデータ プレーンです。Nodes in the cluster are arranged into three logical planes: the control plane, the compute pane, and the data plane. 各プレーンでは、クラスターにさまざまな役割を持っています。Each plane has different responsibilities in the cluster. SQL Server のビッグ データ クラスター内のすべての Kubernetes ノードが少なくとも 1 つの平面のコンポーネントのポッドをホストしています。Every Kubernetes node in a SQL Server big data cluster is hosting pods for components of at least one plane.

アーキテクチャの概要

コントロール プレーンControl plane

コントロール プレーンでは、管理とクラスターのセキュリティを提供します。The control plane provides management and security for the cluster. Kubernetes マスターが含まれている、マスター インスタンスの SQL Server、および Hive メタストアと Spark ドライバーなどの他のクラスター レベル サービス。It contains the Kubernetes master, the SQL Server master instance, and other cluster-level services such as the Hive Metastore and Spark Driver.

平面を計算します。Compute plane

コンピューティングの面では、クラスターにコンピューティング リソースを提供します。The compute plane provides computational resources to the cluster. SQL Server を Linux のポッドで実行されるノードが含まれています。It contains nodes running SQL Server on Linux pods. コンピューティング平面のポッドが分割プールのコンピューティング特定のタスクを処理します。The pods in the compute plane are divided into compute pools for specific processing tasks. コンピューティング プールが果たすことができる、 PolyBaseさまざまなデータ ソースに対する分散クエリのスケール アウト グループ: HDFS、Oracle、MongoDB、Teradata など。A compute pool can act as a PolyBase scale-out group for distributed queries over different data sources—such as HDFS, Oracle, MongoDB, or Teradata.

データ プレーンData plane

データ プレーンは、データの永続化とキャッシュに使用されます。The data plane is used for data persistence and caching. SQL データのプールと記憶域プールが含まれています。It contains the SQL data pool, and storage pool. SQL のデータ プールは、Linux 上の SQL Server を実行している 1 つまたは複数のポッドで構成されます。The SQL data pool consists of one or more pods running SQL Server on Linux. SQL クエリまたは Spark ジョブからデータを取り込むために使用されます。It is used to ingest data from SQL queries or Spark jobs. ビッグ データの SQL Server クラスターのデータ マートは、データのプールに保存されます。SQL Server big data cluster data marts are persisted in the data pool. 記憶域プールは、Linux、Spark、および HDFS 上の SQL Server から成る記憶域プールのポッドで構成されます。The storage pool consists of storage pool pods comprised of SQL Server on Linux, Spark, and HDFS. SQL Server のビッグ データ クラスター内のすべての記憶域ノードは、HDFS クラスターのメンバーです。All the storage nodes in a SQL Server big data cluster are members of an HDFS cluster.

次の手順Next steps

SQL Server のビッグ データ クラスターは、SQL Server 2019 Early Adoption Program を通じて限定パブリック プレビューとして利用可能なは first です。SQL Server big data clusters is first available as a limited public preview through the SQL Server 2019 Early Adoption Program. アクセス権を要求するには、登録ここ、ビッグ データ クラスターに関心を指定します。To request access, register here, and specify your interest to try big data clusters. Microsoft はすべての要求をトリアージし、できるだけ早く対応します。Microsoft will triage all requests and respond as soon as possible.