Bagikan melalui


Menyebarkan node nama HDFS dan layanan Spark bersama dalam konfigurasi yang sangat tersedia

Berlaku untuk: SQL Server 2019 (15.x)

Penting

Add-on Kluster Big Data Microsoft SQL Server 2019 akan dihentikan. Dukungan untuk Kluster Big Data SQL Server 2019 akan berakhir pada 28 Februari 2025. Semua pengguna SQL Server 2019 yang ada dengan Jaminan Perangkat Lunak akan didukung penuh pada platform dan perangkat lunak akan terus dipertahankan melalui pembaruan kumulatif SQL Server hingga saat itu. Untuk informasi selengkapnya, lihat posting blog pengumuman dan opsi Big data di platform Microsoft SQL Server.

Selain menyebarkan instans master SQL Server dalam konfigurasi yang sangat tersedia menggunakan grup ketersediaan, Anda dapat menyebarkan layanan penting misi lainnya di kluster big data untuk memastikan peningkatan tingkat keandalan. Anda dapat mengonfigurasi HDFS name node dan layanan Spark bersama yang dikelompokkan sparkhead dengan replika tambahan. Dalam hal ini, Zookeeper juga disebarkan di kluster big data ke server sebagai koordinator kluster dan penyimpanan metadata untuk layanan berikut:

  • Simpul nama HDFS
  • Livy dan Yarn Resource Manager.

Riwayat Spark, Riwayat Pekerjaan, dan layanan metadata Apache Hive adalah layanan stateless. Zookeeper tidak terlibat dalam memastikan kesehatan layanan untuk komponen-komponen ini.

Menyebarkan beberapa replika untuk layanan ini menghasilkan skalabilitas, keandalan, dan penyeimbangan beban beban kerja yang ditingkatkan antara replika yang tersedia.

Catatan

Layanan berikut disebarkan sebagai kontainer dalam sparkhead pod:

  • Livy
  • Resource Manager Benang
  • Riwayat Spark
  • Riwayat Pekerjaan
  • Layanan metadata Apache Hive

Gambar berikut menunjukkan penyebaran Spark HA di Kluster Big Data SQL Server:

spark-ha-bdc

Gambar berikut menunjukkan penyebaran HDFS HA di Kluster Big Data SQL Server:

hdfs-ha-bdc

Sebarkan

Jika simpul nama atau kepala spark dikonfigurasi dengan dua replika, maka Anda juga harus mengonfigurasi sumber daya Zookeeper dengan tiga replika. Dalam konfigurasi yang sangat tersedia untuk node nama HDFS, dua pod menghosting dua replika. Pod Th adalah nmnode-0 dan nmnode-1. Konfigurasi ini aktif-pasif. Hanya salah satu simpul nama yang aktif pada satu waktu. Yang lain bersifat siaga - menjadi aktif sebagai akibat dari peristiwa failover.

Anda dapat menggunakan aks-dev-test-ha profil konfigurasi atau kubeadm-prod bawaan untuk mulai menyesuaikan penyebaran kluster big data Anda. Profil ini mencakup pengaturan yang diperlukan untuk sumber daya yang dapat Anda konfigurasi ketersediaan tinggi tambahan. Misalnya, di bawah ini adalah bagian dalam bdc.json file konfigurasi yang relevan untuk menyebarkan simpul nama HDFS, Zookeeper, dan sumber daya Spark bersama (sparkhead) dengan ketersediaan tinggi.

{
  ...
    "nmnode-0": {
        "spec": {
            "replicas": 2
        }
    },
    "sparkhead": {
        "spec": {
            "replicas": 2
        }
    },
    "zookeeper": {
        "spec": {
            "replicas": 3
        }
    },
  ...
}

Sebagai praktik terbaik, dalam penyebaran produksi, Anda juga harus mengonfigurasi replikasi blok HDFS ke 3. Pengaturan ini sudah ditentukan di aks-dev-test-ha profil dan kubeadm-prod . Lihat bagian di bawah ini dari bdc.json file konfigurasi:

{
  ...
  "hdfs": {
      "resources": [
          "nmnode-0",
          "zookeeper",
          "storage-0",
          "sparkhead"
      ],
      "settings": {
          "hdfs-site.dfs.replication": "3"
      }
  },
  ...
}

Batasan yang diketahui

Masalah dan batasan yang diketahui dengan mengonfigurasi ketersediaan tinggi untuk layanan Hadoop di SQL Server Kluster Big Data meliputi:

  • Semua konfigurasi harus ditentukan pada saat penyebaran kluster big data. Dengan rilis CU1 SQL Server 2019, Anda tidak dapat mengaktifkan konfigurasi ketersediaan tinggi setelah penyebaran.

Langkah berikutnya