Bagikan melalui


Apache Spark di Azure Databricks

Artikel ini menjelaskan bagaimana Apache Spark terkait dengan Azure Databricks dan Databricks Data Intelligence Platform.

Apache Spark adalah inti dari platform Azure Databricks dan merupakan teknologi yang mendukung kluster komputasi dan gudang SQL. Azure Databricks adalah platform yang dioptimalkan untuk Apache Spark, menyediakan platform yang efisien dan sederhana untuk menjalankan beban kerja Apache Spark.

Apa hubungan Apache Spark dengan Azure Databricks?

Perusahaan Databricks didirikan oleh pembuat asli Apache Spark. Sebagai proyek perangkat lunak sumber terbuka, Apache Spark memiliki komitter dari banyak perusahaan top, termasuk Databricks.

Databricks terus mengembangkan dan merilis fitur ke Apache Spark. Databricks Runtime mencakup pengoptimalan tambahan dan fitur kepemilikan yang membangun dan memperluas Apache Spark, termasuk Photon, versi Apache Spark yang dioptimalkan yang ditulis ulang di C++.

Bagaimana cara kerja Apache Spark di Azure Databricks?

Saat Anda menyebarkan kluster komputasi atau gudang SQL di Azure Databricks, Apache Spark dikonfigurasi dan disebarkan ke komputer virtual. Anda tidak perlu mengonfigurasi atau menginisialisasi konteks Spark atau sesi Spark, karena ini dikelola untuk Anda oleh Azure Databricks.

Dapatkah saya menggunakan Azure Databricks tanpa menggunakan Apache Spark?

Azure Databricks mendukung berbagai beban kerja dan menyertakan pustaka sumber terbuka di Databricks Runtime. Databricks SQL menggunakan Apache Spark di bawah tenda, tetapi pengguna akhir menggunakan sintaks SQL standar untuk membuat dan mengkueri objek database.

Databricks Runtime for Pembelajaran Mesin dioptimalkan untuk beban kerja ML, dan banyak ilmuwan data menggunakan pustaka sumber terbuka utama seperti TensorFlow dan SciKit Learn saat bekerja di Azure Databricks. Anda dapat menggunakan alur kerja untuk menjadwalkan beban kerja arbitrer terhadap sumber daya komputasi yang disebarkan dan dikelola oleh Azure Databricks.

Mengapa menggunakan Apache Spark di Azure Databricks?

Platform Databricks menyediakan lingkungan kolaboratif yang aman untuk mengembangkan dan menyebarkan solusi perusahaan yang menskalakan dengan bisnis Anda. Karyawan Databricks mencakup banyak pengurus dan pengguna Apache Spark yang paling berpengetahuan di dunia. Perusahaan terus mengembangkan dan merilis pengoptimalan baru untuk memastikan pengguna dapat mengakses lingkungan tercepat untuk menjalankan Apache Spark.

Bagaimana cara mempelajari selengkapnya tentang menggunakan Apache Spark di Azure Databricks?

Untuk mulai menggunakan Apache Spark di Azure Databricks, langsung menyelam! Tutorial Apache Spark DataFrames berjalan melalui pemuatan dan transformasi data di Python, R, atau Scala. Lihat Tutorial: Memuat dan mengubah data menggunakan Apache Spark DataFrames.

Informasi tambahan tentang dukungan bahasa Python, R, dan Scala di Spark ditemukan di bagian PySpark di Azure Databricks, gambaran umum SparkR, dan Azure Databricks untuk pengembang Scala, serta di Referensi untuk API Apache Spark.