Tutorial: Memuat data sampel ke dalam kluster big data SQL Server
Berlaku untuk: SQL Server 2019 (15.x)
Penting
Add-on Kluster Big Data Microsoft SQL Server 2019 akan dihentikan. Dukungan untuk Kluster Big Data SQL Server 2019 akan berakhir pada 28 Februari 2025. Semua pengguna SQL Server 2019 yang ada dengan Jaminan Perangkat Lunak akan didukung penuh pada platform dan perangkat lunak akan terus dipertahankan melalui pembaruan kumulatif SQL Server hingga saat itu. Untuk informasi selengkapnya, lihat posting blog pengumuman dan opsi Big data di platform Microsoft SQL Server.
Tutorial ini menjelaskan cara menggunakan skrip untuk memuat data sampel ke Kluster Big Data SQL Server 2019. Banyak tutorial lain dalam dokumentasi menggunakan data sampel ini.
Tip
Anda dapat menemukan sampel tambahan untuk Kluster Big Data SQL Server 2019 di repositori GitHub sql-server-samples. Mereka terletak di jalur sql-server-samples/samples/features/sql-big-data-cluster/ .
Prasyarat
- Kluster big data yang disebarkan
- Alat big data
- azdata
- kubectl
- sqlcmd
- curl
Memuat data sampel
Langkah-langkah berikut menggunakan skrip bootstrap untuk mengunduh cadangan database SQL Server dan memuat data ke dalam kluster big data Anda. Untuk kemudahan penggunaan, langkah-langkah ini telah dipecah menjadi bagian Windows dan Linux . Jika Anda ingin menggunakan nama pengguna/kata sandi dasar sebagai mekanisme autentikasi, atur variabel lingkungan AZDATA_USERNAME dan AZDATA_PASSWORD sebelum menjalankan skrip. Jika tidak, skrip akan menggunakan autentikasi terintegrasi untuk terhubung ke instans Master SQL Server dan gateway Knox. Selain itu, nama DNS harus ditentukan untuk titik akhir untuk menggunakan autentikasi terintegrasi.
Windows
Langkah-langkah berikut menjelaskan cara menggunakan klien Windows untuk memuat data sampel ke dalam kluster big data Anda.
Buka prompt perintah Windows baru.
Penting
Jangan gunakan Windows PowerShell untuk langkah-langkah ini. Di PowerShell, skrip akan gagal karena akan menggunakan versi Curl PowerShell.
Gunakan curl untuk mengunduh skrip bootstrap untuk data sampel.
curl -o bootstrap-sample-db.cmd "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.cmd"
Unduh skrip bootstrap-sample-db.sql Transact-SQL. Skrip ini dipanggil oleh skrip bootstrap.
curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
Skrip bootstrap memerlukan parameter posisi berikut untuk kluster big data Anda:
Parameter Deskripsi <CLUSTER_NAMESPACE> Nama yang Anda berikan pada kluster big data Anda. <SQL_MASTER_ENDPOINT> Nama DNS atau alamat IP instans master Anda. <KNOX_ENDPOINT> Nama DNS atau alamat IP HDFS/Spark Gateway. Tip
Gunakan kubectl untuk menemukan alamat IP untuk instans master SQL Server dan Knox. Jalankan
kubectl get svc -n <your-big-data-cluster-name>
dan lihat alamat EXTERNAL-IP untuk instans master (master-svc-external) dan Knox (gateway-svc-external). Nama default kluster adalah mssql-cluster.Jalankan skrip bootstrap.
.\bootstrap-sample-db.cmd <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
Linux
Langkah-langkah berikut menjelaskan cara menggunakan klien Linux untuk memuat data sampel ke dalam kluster big data Anda.
Unduh skrip bootstrap, dan tetapkan izin yang dapat dieksekusi untuk skrip tersebut.
curl -o bootstrap-sample-db.sh "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sh" chmod +x bootstrap-sample-db.sh
Unduh skrip bootstrap-sample-db.sql Transact-SQL. Skrip ini dipanggil oleh skrip bootstrap.
curl -o bootstrap-sample-db.sql "https://raw.githubusercontent.com/Microsoft/sql-server-samples/master/samples/features/sql-big-data-cluster/bootstrap-sample-db.sql"
Skrip bootstrap memerlukan parameter posisi berikut untuk kluster big data Anda:
Parameter Deskripsi <CLUSTER_NAMESPACE> Nama yang Anda berikan pada kluster big data Anda. <SQL_MASTER_ENDPOINT> Nama DNS atau alamat IP instans master Anda. <KNOX_ENDPOINT> Nama DNS atau alamat IP HDFS/Spark Gateway. Tip
Gunakan kubectl untuk menemukan alamat IP untuk instans master SQL Server dan Knox. Jalankan
kubectl get svc -n <your-big-data-cluster-name>
dan lihat alamat EXTERNAL-IP untuk instans master (master-svc-external) dan Knox (gateway-svc-external). Nama default kluster adalah mssql-cluster.Jalankan skrip bootstrap.
./bootstrap-sample-db.sh <CLUSTER_NAMESPACE> <SQL_MASTER_ENDPOINT> <KNOX_ENDPOINT>
Langkah berikutnya
Setelah skrip bootstrap berjalan, kluster big data Anda memiliki database sampel dan data HDFS. Tutorial berikut menggunakan data sampel untuk menunjukkan kemampuan kluster big data:
Virtualisasi Data:
- Tutorial: Mengkueri HDFS dalam kluster big data SQL Server
- Tutorial: Mengkueri Oracle dari kluster big data SQL Server
Penyerapan data:
- Tutorial: Menyerap data ke dalam kumpulan data SQL Server dengan Transact-SQL
- Tutorial: Menyerap data ke dalam kumpulan data SQL Server dengan pekerjaan Spark
Notebook:
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk