Migrasikan beban kerja Apache Spark 2.1 dan 2.2 ke 2.3 dan 2.4
Dokumen ini menjelaskan cara memigrasikan beban kerja Apache Spark pada Spark 2.1 dan 2.2 ke 2.3 atau 2.4.
Seperti yang dibahas dalam Catatan Rilis, mulai 1 Juli 2020, konfigurasi kluster berikut tidak akan didukung dan pelanggan tidak akan dapat membuat kluster baru dengan konfigurasi ini:
- Spark 2.1 dan 2.2 dalam kluster Spark Microsoft Azure HDInsight 3.6
- Spark 2.3 dalam kluster Spark Microsoft Azure HDInsight 4.0
Kluster yang ada dalam konfigurasi ini akan berjalan apa adanya tanpa dukungan dari Microsoft. Jika Anda menggunakan Spark 2.1 atau 2.2 di Microsoft Azure HDInsight 3.6, pindah ke Spark 2.3 di Microsoft Azure HDInsight 3.6 pada 30 Juni 2020 untuk menghindari potensi gangguan sistem/dukungan. Jika Anda menggunakan Spark 2.3 di kluster Microsoft Azure HDInsight 4.0, pindah ke Spark 2.4 di Microsoft Azure HDInsight 4.0 pada 30 Juni 2020 untuk menghindari potensi gangguan sistem/dukungan.
Untuk informasi umum tentang memigrasikan kluster Microsoft Azure HDInsight dari 3,6 ke 4.0, lihat Memigrasikan kluster Microsoft Azure HDInsight ke versi yang lebih baru. Untuk informasi umum tentang migrasi ke versi Apache Spark yang lebih baru, lihat Apache Spark: Kebijakan Penerapan Versi.
Panduan tentang peningkatan versi Spark di Microsoft Azure HDInsight
| Skenario peningkatan | Mekanisme | Hal-hal yang perlu dipertimbangkan | Integrasi Spark/Apache Hive |
|---|---|---|---|
| Microsoft Azure HDInsight 3.6 Spark 2.1 ke Microsoft Azure HDInsight 3.6 Spark 2.3 | Buat ulang kluster dengan Microsoft Azure HDInsight Spark 2.3 | Tinjau artikel berikut: Apache Spark: Peningkatan Dari Spark SQL 2.2 ke 2.3 Apache Spark: Peningkatan Dari Spark SQL 2.1 ke 2.2 |
Tidak Ada Perubahan |
| Microsoft Azure HDInsight 3.6 Spark 2.2 ke Microsoft Azure HDInsight 3.6 Spark 2.3 | Buat ulang kluster dengan Microsoft Azure HDInsight Spark 2.3 | Tinjau artikel berikut: Apache Spark: Peningkatan Dari Spark SQL 2.2 ke 2.3 |
Tidak Ada Perubahan |
| Microsoft Azure HDInsight 3.6 Spark 2.1 ke Microsoft Azure HDInsight 4.0 Spark 2.4 | Buat ulang kluster dengan Microsoft Azure HDInsight 4.0 Spark 2.4 | Tinjau artikel berikut: Apache Spark: Peningkatan Dari Spark SQL 2.3 ke 2.4 Apache Spark: Peningkatan Dari Spark SQL 2.2 ke 2.3 Apache Spark: Peningkatan Dari Spark SQL 2.1 ke 2.2 |
Integrasi Spark dan Apache Hive telah berubah dalam Microsoft Azure HDInsight 4.0. Pada Microsoft Azure HDInsight 4.0, Spark dan Apache Hive menggunakan katalog independen untuk mengakses tabel Hive atau SparkSQL. Tabel yang dibuat oleh Spark lives di katalog Spark. Tabel yang dibuat oleh Apache Hive di katalog Apache Hive. Perilaku ini berbeda dari Microsoft Azure HDInsight 3.6 di mana Apache Hive dan Spark berbagi katalog yang sama. Integrasi Apache Hive dan Spark di Microsoft Azure HDInsight 4.0 mengandalkan Hive Warehouse Connector (HWC). HWC bekerja sebagai jembatan antara Spark dan Apache Hive. Pelajari tentang Apache Hive Warehouse Connector. Pada Microsoft Azure HDInsight 4.0 jika Anda ingin Berbagi metastore antara Apache Hive dan Spark, Anda dapat melakukannya dengan mengubah default katalog metastore properti ke hive di kluster Spark Anda. Anda dapat menemukan properti ini di Ambari spark2-hive-site-override Tingkat Lanjut. Penting untuk dipahami bahwa berbagi metastore hanya berfungsi untuk tabel hive eksternal, ini tidak akan berfungsi jika Anda memiliki tabel hive internal/terkelola atau tabel ACID. Baca Migrasikan beban kerja Microsoft Azure HDInsight 3.6 Apache Hive ke Microsoft Azure HDInsight 4.0 untuk informasi lebih lanjut. |
| Microsoft Azure HDInsight 3.6 Spark 2.2 ke Microsoft Azure HDInsight 4.0 Spark 2.4 | Buat ulang kluster dengan Microsoft Azure HDInsight 4.0 Spark 2.4 | Tinjau artikel berikut: Apache Spark: Peningkatan Dari Spark SQL 2.3 ke 2.4 Apache Spark: Peningkatan Dari Spark SQL 2.2 ke 2.3 |
Integrasi Spark dan Apache Hive telah berubah dalam Microsoft Azure HDInsight 4.0. Pada Microsoft Azure HDInsight 4.0, Spark dan Apache Hive menggunakan katalog independen untuk mengakses tabel Hive atau SparkSQL. Tabel yang dibuat oleh Spark lives di katalog Spark. Tabel yang dibuat oleh Apache Hive di katalog Apache Hive. Perilaku ini berbeda dari Microsoft Azure HDInsight 3.6 di mana Apache Hive dan Spark berbagi katalog yang sama. Integrasi Apache Hive dan Spark di Microsoft Azure HDInsight 4.0 mengandalkan Hive Warehouse Connector (HWC). HWC bekerja sebagai jembatan antara Spark dan Apache Hive. Pelajari tentang Apache Hive Warehouse Connector. Pada Microsoft Azure HDInsight 4.0 jika Anda ingin Berbagi metastore antara Apache Hive dan Spark, Anda dapat melakukannya dengan mengubah default katalog metastore properti ke hive di kluster Spark Anda. Anda dapat menemukan properti ini di Ambari spark2-hive-site-override Tingkat Lanjut. Penting untuk dipahami bahwa berbagi metastore hanya berfungsi untuk tabel hive eksternal, ini tidak akan berfungsi jika Anda memiliki tabel hive internal/terkelola atau tabel ACID. Baca Migrasikan beban kerja Microsoft Azure HDInsight 3.6 Apache Hive ke Microsoft Azure HDInsight 4.0 untuk informasi lebih lanjut. |