Tutorial: Memuat data sampel ke dalam kluster big data SQL Server

Berlaku untuk: SQL Server 2019 (15.x)

Penting

Add-on Kluster Big Data Microsoft SQL Server 2019 akan dihentikan. Dukungan untuk Kluster Big Data SQL Server 2019 akan berakhir pada 28 Februari 2025. Semua pengguna SQL Server 2019 yang ada dengan Jaminan Perangkat Lunak akan didukung penuh pada platform dan perangkat lunak akan terus dipertahankan melalui pembaruan kumulatif SQL Server hingga saat itu. Untuk informasi selengkapnya, lihat posting blog pengumuman dan opsi Big data di platform Microsoft SQL Server.

Tutorial ini menjelaskan cara menggunakan skrip untuk memuat data sampel ke Kluster Big Data SQL Server 2019. Banyak tutorial lain dalam dokumentasi menggunakan data sampel ini.

Tip

Anda dapat menemukan sampel tambahan untuk Kluster Big Data SQL Server 2019 di repositori GitHub sql-server-samples. Mereka terletak di jalur sql-server-samples/samples/features/sql-big-data-cluster/ .

Prasyarat

Memuat data sampel

Langkah-langkah berikut menggunakan skrip bootstrap untuk mengunduh cadangan database SQL Server dan memuat data ke dalam kluster big data Anda. Untuk kemudahan penggunaan, langkah-langkah ini telah dipecah menjadi bagian Windows dan Linux . Jika Anda ingin menggunakan nama pengguna/kata sandi dasar sebagai mekanisme autentikasi, atur variabel lingkungan AZDATA_USERNAME dan AZDATA_PASSWORD sebelum menjalankan skrip. Jika tidak, skrip akan menggunakan autentikasi terintegrasi untuk terhubung ke instans Master SQL Server dan gateway Knox. Selain itu, nama DNS harus ditentukan untuk titik akhir untuk menggunakan autentikasi terintegrasi.

Windows

Langkah-langkah berikut menjelaskan cara menggunakan klien Windows untuk memuat data sampel ke dalam kluster big data Anda.

  1. Buka prompt perintah Windows baru.

    Penting

    Jangan gunakan Windows PowerShell untuk langkah-langkah ini. Di PowerShell, skrip akan gagal karena akan menggunakan versi Curl PowerShell.

  2. Gunakan curl untuk mengunduh skrip bootstrap untuk data sampel.

    curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
    
  3. Unduh skrip bootstrap-sample-db.sql Transact-SQL. Skrip ini dipanggil oleh skrip bootstrap.

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  4. Skrip bootstrap memerlukan parameter posisi berikut untuk kluster big data Anda:

    Parameter Deskripsi
    <CLUSTER_NAMESPACE> Nama yang Anda berikan pada kluster big data Anda.
    <SQL_MASTER_ENDPOINT> Nama DNS atau alamat IP instans master Anda.
    <KNOX_ENDPOINT> Nama DNS atau alamat IP HDFS/Spark Gateway.

    Tip

    Gunakan kubectl untuk menemukan alamat IP untuk instans master SQL Server dan Knox. Jalankan kubectl get svc -n <your-big-data-cluster-name> dan lihat alamat EXTERNAL-IP untuk instans master (master-svc-external) dan Knox (gateway-svc-external). Nama default kluster adalah mssql-cluster.

  5. Jalankan skrip bootstrap.

    .\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Linux

Langkah-langkah berikut menjelaskan cara menggunakan klien Linux untuk memuat data sampel ke dalam kluster big data Anda.

  1. Unduh skrip bootstrap, dan tetapkan izin yang dapat dieksekusi untuk skrip tersebut.

    curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh"
    chmod +x bootstrap-sample-db.sh
    
  2. Unduh skrip bootstrap-sample-db.sql Transact-SQL. Skrip ini dipanggil oleh skrip bootstrap.

    curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
    
  3. Skrip bootstrap memerlukan parameter posisi berikut untuk kluster big data Anda:

    Parameter Deskripsi
    <CLUSTER_NAMESPACE> Nama yang Anda berikan pada kluster big data Anda.
    <SQL_MASTER_ENDPOINT> Nama DNS atau alamat IP instans master Anda.
    <KNOX_ENDPOINT> Nama DNS atau alamat IP HDFS/Spark Gateway.

    Tip

    Gunakan kubectl untuk menemukan alamat IP untuk instans master SQL Server dan Knox. Jalankan kubectl get svc -n <your-big-data-cluster-name> dan lihat alamat EXTERNAL-IP untuk instans master (master-svc-external) dan Knox (gateway-svc-external). Nama default kluster adalah mssql-cluster.

  4. Jalankan skrip bootstrap.

    ./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
    

Langkah berikutnya

Setelah skrip bootstrap berjalan, kluster big data Anda memiliki database sampel dan data HDFS. Tutorial berikut menggunakan data sampel untuk menunjukkan kemampuan kluster big data:

Virtualisasi Data:

Penyerapan data:

Notebook: