Manajemen pustaka Spark

Berlaku untuk: SQL Server 2019 (15.x)

Penting

Add-on Kluster Big Data Microsoft SQL Server 2019 akan dihentikan. Dukungan untuk Kluster Big Data SQL Server 2019 akan berakhir pada 28 Februari 2025. Semua pengguna SQL Server 2019 yang ada dengan Jaminan Perangkat Lunak akan didukung penuh pada platform dan perangkat lunak akan terus dipertahankan melalui pembaruan kumulatif SQL Server hingga saat itu. Untuk informasi selengkapnya, lihat posting blog pengumuman dan opsi Big data di platform Microsoft SQL Server.

Artikel ini menyediakan panduan tentang cara mengimpor dan menginstal paket untuk sesi Spark melalui konfigurasi sesi dan buku catatan.

Alat bawaan

Paket dasar Scala Spark (Scala 2.12) dan Hadoop.

PySpark (Python 3.8). Panda, Sklearn, Numpy, dan paket pemrosesan data dan pembelajaran mesin lainnya.

Paket MRO 3.5.2. Beban kerja Sparklyr dan SparkR untuk R Spark.

Menginstal paket dari repositori Maven ke kluster Spark saat runtime

Paket Maven dapat diinstal ke kluster Spark Anda menggunakan konfigurasi sel notebook di awal sesi spark Anda. Sebelum memulai sesi spark di Azure Data Studio, jalankan kode berikut:

%%configure -f \
{"conf": {"spark.jars.packages": "com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1"}}

Beberapa paket dan konfigurasi Spark tambahan

Dalam contoh sel buku catatan berikut, beberapa paket ditentukan.

%%configure -f \
{
    "conf": {
        "spark.jars.packages": "com.microsoft.azure:synapseml_2.12:0.9.4,com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.1",
        "spark.jars.repositories":"https://mmlspark.azureedge.net/maven"
    }
}

Menginstal paket Python di PySpark saat runtime

Manajemen paket sesi dan tingkat pekerjaan menjamin konsistensi dan isolasi pustaka. Konfigurasinya adalah konfigurasi pustaka standar Spark yang dapat diterapkan pada sesi Livy. azdata spark mendukung konfigurasi ini. Contoh di bawah ini disajikan sebagai Notebook Azure Data Studio mengonfigurasi sel yang perlu dijalankan setelah melampirkan ke kluster dengan kernel PySpark.

Jika konfigurasi "spark.pyspark.virtualenv.enabled" : "true" tidak diatur, sesi akan menggunakan python default kluster dan pustaka yang diinstal.

Konfigurasi Sesi/Pekerjaan dengan requirements.txt

Tentukan jalur ke file requirements.txt di HDFS untuk digunakan sebagai referensi paket yang akan diinstal.

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.8",
        "spark.pyspark.virtualenv.requirements" : "hdfs://user/project-A/requirements.txt"
    }
}

Konfigurasi Sesi/Pekerjaan dengan versi python yang berbeda

Buat conda virtualenv tanpa file persyaratan dan tambahkan paket secara dinamis selama sesi Spark.

%%configure -f \
{
    "conf": {
        "spark.pyspark.virtualenv.enabled" : "true",
        "spark.pyspark.virtualenv.python_version": "3.7"
    }
}

Penginstalan pustaka

Jalankan sc.install_packages untuk menginstal pustaka secara dinamis di sesi Anda. Pustaka akan diinstal ke driver dan di semua simpul eksekutor.

sc.install_packages("numpy==1.11.0")
import numpy as np

Dimungkinkan juga untuk menginstal beberapa pustaka dalam perintah yang sama menggunakan array.

sc.install_packages(["numpy==1.11.0", "xgboost"])
import numpy as np
import xgboost as xgb

Impor .jar dari HDFS untuk digunakan pada runtime

Impor jar saat runtime melalui konfigurasi sel notebook Azure Data Studio.

%%configure -f
{"conf": {"spark.jars": "/jar/mycodeJar.jar"}}

Langkah berikutnya

Untuk informasi selengkapnya tentang SQL Server kluster big data dan skenario terkait, Lihat SQL Server Kluster Big Data.