高可用性構成で HDFS 名前ノードと共有 Spark サービスを展開する

[アーティクル]
03/21/2023

適用対象: SQL Server 2019 (15.x)

重要

Microsoft SQL Server 2019 ビッグデータクラスターのアドオンは廃止されます。 SQL Server 2019 ビッグデータクラスターのサポートは、2025 年 2 月 28 日に終了します。ソフトウェアアシュアランス付きの SQL Server 2019 を使用する既存の全ユーザーはプラットフォームで完全にサポートされ、ソフトウェアはその時点まで SQL Server の累積更新プログラムによって引き続きメンテナンスされます。詳細については、お知らせのブログ記事と「Microsoft SQL Server プラットフォームのビッグデータオプション」を参照してください。

可用性グループを使用して、高可用性構成で SQL Server マスターインスタンスを展開するだけでなく、他のミッションクリティカルなサービスをビッグデータクラスターに展開し、確実に信頼性のレベルを高めることができます。 HDFS name node と、sparkhead の下にグループ化された共有 Spark サービスを追加のレプリカで構成できます。この場合、次のサービス用のクラスターコーディネーターおよびメタデータストアとして機能するように、Zookeeper もビッグデータクラスターに展開されます。

HDFS 名前ノード
Livy と Yarn Resource Manager

Spark 履歴、ジョブ履歴、および Hive メタデータサービスはステートレスサービスです。 Zookeeper は、これらのコンポーネントのサービスの正常性の保証には関与しません。

これらのサービスに対して複数のレプリカを展開すると、使用可能なレプリカ間でのワークロードのスケーラビリティ、信頼性、および負荷分散が向上します。

Note

次のサービスは、sparkhead ポッドにコンテナーとして展開されます。

Livy
Yarn Resource Manager
Spark 履歴
ジョブ履歴
Hive メタデータサービス

次の図は、SQL Server ビッグデータクラスターでの spark HA の展開を示しています。

spark-ha-bdc

次の図は、SQL Server ビッグデータクラスターでの HDFS HA の展開を示しています。

hdfs-ha-bdc

デプロイ

名前ノードまたは spark ヘッドのいずれかが 2 つのレプリカで構成されている場合は、3 つのレプリカで Zookeeper リソースを構成する必要もあります。 HDFS 名前ノードの高可用性構成では、2 つのポッドで 2 つのレプリカがホストされます。ポッドは nmnode-0 と nmnode-1 です。この構成はアクティブ/パッシブです。名前ノードは一度に 1 つしかアクティブになりません。もう一方はスタンバイ状態であり、フェールオーバーイベントの結果としてアクティブになります。

aks-dev-test-ha または kubeadm-prod の組み込み構成プロファイルを使用して、ビッグデータクラスターの展開のカスタマイズを開始できます。これらのプロファイルには、追加の高可用性を構成できるリソースに必要な設定が含まれます。たとえば、以下は bdc.json 構成ファイルのセクションです。これは、HDFS 名前ノード、Zookeeper および共有 Spark リソース (sparkhead) を高可用性を使用して展開する場合に関連します。

{
  ...
    "nmnode-0": {
        "spec": {
            "replicas": 2
        }
    },
    "sparkhead": {
        "spec": {
            "replicas": 2
        }
    },
    "zookeeper": {
        "spec": {
            "replicas": 3
        }
    },
  ...
}

ベストプラクティスとして、運用環境での展開では、HDFS ブロックレプリケーションを 3 に構成する必要もあります。この設定は、aks-dev-test-ha および kubeadm-prod プロファイルで既に指定されています。 bdc.json 構成ファイルの以下のセクションを参照してください。

{
  ...
  "hdfs": {
      "resources": [
          "nmnode-0",
          "zookeeper",
          "storage-0",
          "sparkhead"
      ],
      "settings": {
          "hdfs-site.dfs.replication": "3"
      }
  },
  ...
}

既知の制限事項

SQL Server ビッグデータクラスターで Hadoop サービスの高可用性を構成する際の既知の問題と制限事項には、以下が含まれます。

ビッグデータクラスターの展開時に、すべての構成を指定する必要があります。 SQL Server 2019 CU1 リリースでは、展開後に高可用性構成を有効にすることはできません。

次のステップ

ビッグデータクラスターの展開での構成ファイルの使用について詳しくは、「Kubernetes に SQL Server ビッグデータクラスターを展開する方法」を参照してください。
ビッグデータクラスターの SQL Server マスターの高可用性オプションについて詳しくは、高可用性を使用する SQL Server マスターインスタンスの展開に関するトピックを参照してください。

高可用性構成で HDFS 名前ノードと共有 Spark サービスを展開する

デプロイ

既知の制限事項

次のステップ

フィードバック

フィードバック

その他のリソース