Mulai Cepat: Membuat kumpulan Apache Spark tanpa server menggunakan portal Microsoft Azure

Azure Synapse Analytics menawarkan berbagai mesin analitik untuk membantu Anda menyerap, mengubah, membuat model, menganalisis, dan mendistribusikan data. Kumpulan Apache Spark menawarkan kemampuan komputasi big data sumber terbuka. Setelah Anda membuat kumpulan Apache Spark di ruang kerja Synapse, data dapat dimuat, dimodelkan, diproses, dan didistribusikan untuk wawasan analitik yang lebih cepat.

Dalam panduan mulai cepat ini, Anda belajar cara menggunakan portal Microsoft Azure untuk membuat kumpulan Apache Spark di ruang kerja Synapse.

Penting

Tagihan untuk instans Spark diprorata per menit, baik digunakan atau tidak. Pastikan Anda mematikan instans Spark setelah selesai menggunakannya, atau atur waktu jangka pendek. Untuk informasi selengkapnya, lihat bagian Membersihkan sumber daya di artikel ini.

Jika Anda tidak memiliki langganan Azure, buat akun gratis sebelum Anda memulai.

Prasyarat

Masuk ke portal Microsoft Azure.

Masuk ke portal Microsoft Azure.

  1. Buka ruang kerja Synapse, tempat kumpulan Apache Spark akan dibuat dengan mengetik nama layanan (atau nama sumber daya secara langsung) ke bilah pencarian. Screenshot of the Azure portal search bar with Synapse workspaces typed in.

  2. Dari daftar ruang kerja, ketik nama (atau bagian dari nama) ruang kerja untuk membukanya. Untuk contoh ini, kami menggunakan ruang kerja bernama contosoanalytics. Screenshot from the Azure portal of the list of Synapse workspaces filtered to show those containing the name Contoso.

Membuat kumpulan Apache Spark baru

Penting

Azure Synapse Runtime untuk Apache Spark 2.4 telah ditolak dan secara resmi tidak didukung sejak September 2023. Mengingat Spark 3.1 dan Spark 3.2 juga Merupakan Akhir Dukungan yang diumumkan, kami sarankan pelanggan bermigrasi ke Spark 3.3.

  1. Di ruang kerja Synapse, tempat Anda ingin membuat kumpulan Apache Spark, pilih Kumpulan Apache Spark baru. Screenshot from the Azure portal of a Synapse workspace with a red box around the command to create a new Apache Spark pool.

  2. Masukkan detail berikut ini pada tab Dasar:

    Pengaturan Nilai yang disarankan Deskripsi
    Nama kumpulan Apache Spark Nama kumpulan yang valid, seperti contosospark Nama ini adalah nama untuk kumpulan Apache Spark.
    Ukuran simpul Kecil (4 vCPU / 32 GB) Atur ke ukuran terkecil untuk mengurangi biaya pada mulai cepat ini
    Skala Otomatis Nonaktif Kita tidak perlu penskalaan otomatis untuk panduan mulai cepat ini
    Jumlah node 5 Gunakan ukuran kecil untuk membatasi biaya dalam panduan mulai cepat ini

    Screenshot from the Azure portal of the Apache Spark pool create flow - basics tab.

    Penting

    Ada batasan khusus untuk nama yang dapat digunakan kumpulan Apache Spark. Nama harus berisi huruf atau angka saja, harus 15 karakter atau kurang, harus dimulai dengan huruf, tidak berisi kata khusus, dan unik di ruang kerja.

  3. Pilih Berikutnya: pengaturan tambahan dan tinjau pengaturan default. Jangan ubah pengaturan default apa pun. Screenshot from the Azure portal that shows the 'Create Apache Spark pool' page with the 'Additional settings' tab selected.

  4. Pilih Berikutnya: Tag. Pertimbangkan untuk menggunakan tag Azure. Misalnya, tag "Pemilik" atau "CreatedBy" untuk mengidentifikasi siapa yang membuat sumber daya, dan tag "Lingkungan" untuk mengidentifikasi apakah sumber daya ini berada di Produksi, Pengembangan, dll. Untuk informasi selengkapnya, lihat Mengembangkan strategi penamaan dan pemberian tag untuk sumber daya Azure. Screenshot from the Azure portal of Apache Spark pool create flow - additional settings tab.

  5. Pilih Tinjau + buat.

  6. Pastikan bahwa detailnya sudah terlihat benar sesuai dengan yang dimasukkan sebelumnya, lalu pilih Buat. Screenshot from the Azure portal of Apache Spark pool create flow - review settings tab.

  7. Pada titik ini, aliran provisi sumber daya akan dimulai, akan muncul tanda setelah selesai. Screenshot from the Azure portal of that shows the 'Overview' page with a 'Your deployment is complete' message displayed.

  8. Setelah provisi selesai, buka kembali ruang kerja dan Anda akan melihat entri baru untuk kumpulan Apache Spark yang baru dibuat. Screenshot from the Azure portal of Apache Spark pool create flow - resource provisioning.

  9. Pada titik ini, tidak ada sumber daya yang berjalan, tidak ada biaya untuk Spark, Anda telah membuat metadata tentang instance Spark yang ingin dibuat.

Membersihkan sumber daya

Langkah-langkah berikut menghapus kumpulan Apache Spark dari ruang kerja.

Peringatan

Menghapus kumpulan Apache Spark akan menghapus mesin analitik dari ruang kerja. Tidak akan mungkin lagi terhubung ke kumpulan, dan semua kueri, alur, serta buku catatan yang menggunakan kumpulan Apache Spark ini tidak akan berfungsi lagi.

Jika Anda ingin menghapus kumpulan Apache Spark, lakukan langkah-langkah berikut:

  1. Navigasikan ke panel kumpulan Apache Spark di ruang kerja.
  2. Pilih kumpulan Apache Spark yang akan dihapus (dalam hal ini, contosospark).
  3. Pilih Hapus. Screenshot from the Azure portal of a list of Apache Spark pools, with the recently created pool selected.
  4. Konfirmasi penghapusan, dan pilih tombol Hapus . Screenshot from the Azure portal of the Confirmation dialog to delete the selected Apache Spark pool.
  5. Ketika proses tersebut telah berhasil, kumpulan Apache Spark tidak akan lagi terdaftar di sumber daya ruang kerja.