Menggunakan Data Lake Tools untuk Visual Studio untuk menyambungkan ke Azure HDInsight dan menjalankan kueri Apache Hive
Pelajari cara menggunakan Microsoft Azure Data Lake dan Stream Analytics Tools untuk Visual Studio (Data Lake Tools). Gunakan alat untuk menyambungkan ke kluster Apache Hadoop di Azure HDInsight dan mengirim kueri Apache Hive.
Untuk informasi selengkapnya tentang menggunakan HDInsight, lihat Mulai menggunakan HDInsight.
Anda dapat menggunakan Data Lake Tools untuk Visual Studio untuk mengakses Azure Data Lake Analytics dan HDInsight. Untuk informasi tentang Data Lake Tools, lihat Mengembangkan skrip U-SQL menggunakan Data Lake Tools untuk Visual Studio.
Prasyarat
Untuk menyelesaikan artikel ini dan menggunakan Data Lake Tools untuk Visual Studio, Anda memerlukan item berikut:
Kluster Microsoft Azure HDInsight. Untuk membuat kluster HDInsight, lihat Memulai dengan menggunakan Apache Hadoop di Azure HDInsight. Untuk menjalankan kueri Apache Hive interaktif, Anda memerlukan kluster HDInsight Interactive Query.
Visual Studio. Edisi Komunitas Visual Studio tidak dipungut biaya. Instruksi yang ditampilkan di sini adalah untuk Visual Studio 2019.
Menginstal Alat Data Lake untuk Visual Studio
Ikuti petunjuk yang sesuai untuk menginstal Data Lake Tools untuk versi Visual Studio Anda:
Untuk Visual Studio 2017 atau Visual Studio 2019:
Selama penginstalan Visual Studio, pastikan Anda menyertakan beban kerja pengembangan Azure atau beban kerja penyimpanan dan pemrosesan data.
Untuk penginstalan Visual Studio yang sudah ada, buka bilah menu IDE, dan pilih Alat>Dapatkan Alat dan Fitur untuk membuka Penginstal Visual Studio. Di tab Beban kerja, pilih setidaknya beban kerja Pengembangan Azure (di bagian Web & Cloud). Atau pilih beban kerja Penyimpanan dan Pemrosesan data (di bagian Alat Lainnya).
Untuk Visual Studio 2015:
Unduh Data Lake Tools. Pilih versi Data Lake Tools yang cocok dengan versi Visual Studio Anda.
Memperbarui Data Lake Tools untuk Visual Studio
Selanjutnya, pastikan Anda memperbarui Data Lake Tools ke versi terbaru.
Buka Visual Studio.
Di jendela Mulai, pilih Lanjutkan tanpa kode.
Di bilah menu IDE Visual Studio, pilih Ekstensi>Kelola Ekstensi.
Dalam kotak dialog Kelola Ekstensi, perluas node Pembaruan.
Jika daftar pembaruan yang tersedia menyertakan Azure Data Lake dan Stream Analytic Tools, pilih pembaruan tersebut. Kemudian pilih tombol Perbarui. Setelah kotak dialog Unduh dan Instal muncul dan menghilang, Visual Studio menambahkan ekstensi Azure Data Lake dan Stream Analytic Tools ke jadwal pembaruan.
Tutup semua jendela Visual Studio. Kotak dialog Penginstall VSIX muncul.
Pilih Lisensi untuk membaca ketentuan lisensi, lalu pilih Tutup untuk kembali ke kotak dialog Penginstall VSIX.
Pilih Modifikasi. Instalasi pembaruan ekstensi dimulai. Setelah beberapa saat, kotak dialog berubah untuk menunjukkan bahwa modifikasi selesai dilakukan. Pilih Tutup, lalu mulai ulang Visual Studio untuk menyelesaikan instalasi.
Catatan
Anda hanya dapat menggunakan Data Lake Tools versi 2.3.0.0 atau yang lebih baru untuk menyambungkan ke kluster Interactive Query dan menjalankan kueri Apache Hive interaktif.
Menyambungkan ke langganan Azure
Anda dapat menggunakan Data Lake Tools untuk Visual Studio untuk menyambungkan ke kluster HDInsight, melakukan beberapa operasi manajemen dasar, dan menjalankan kueri Apache Hive.
Catatan
Untuk informasi tentang menyambungkan ke kluster Hadoop generik, lihat Cara menulis dan mengirimkan kueri Apache Hive menggunakan Visual Studio.
Menyambungkan ke langganan Azure
Untuk menyambungkan ke langganan Azure Anda:
Buka Visual Studio.
Di jendela Mulai, pilih Lanjutkan tanpa kode.
Di bilah menu IDE, pilih Tampilan>Penjelajah Server.
Di Penjelajah Server, klik kanan Azure, pilih Sambungkan ke Langganan Microsoft Azure, dan selesaikan proses autentikasi. Dari Penjelajah Server, perluas Azure>HDInsight untuk melihat daftar kluster HDInsight yang ada.
Jika Anda tidak memiliki kluster apa pun, buat kluster dengan menggunakan portal Microsoft Azure, Azure PowerShell, atau SDK HDInsight. Untuk informasi selengkapnya, lihat Menyiapkan kluster di HDInsight.
Memperluas kluster HDInsight. Kluster berisi node untuk Database Apache Hive. Kluster juga berisi akun penyimpanan default, akun penyimpanan tertaut tambahan, dan Log Layanan Hadoop. Anda dapat memperluas entitas lebih lanjut.
Setelah tersambung ke langganan Azure, Anda bisa melakukan tugas berikut ini.
Menyambungkan ke Azure dari Visual Studio
Untuk menyambungkan ke portal Microsoft Azure dari Visual Studio:
Di Penjelajah Server, perluas Azure>HDInsight dan pilih kluster Anda.
Klik kanan kluster HDInsight, dan pilih Kelola Kluster di portal Microsoft Azure.
Mengajukan pertanyaan dan umpan balik dari Visual Studio
Untuk mengajukan pertanyaan dan, atau memberikan masukan dari Visual Studio:
Dari Penjelajah Server, pilih Azure>HDInsight.
Klik kanan HDInsight dan pilih Forum MSDN untuk mengajukan pertanyaan, atau Berikan Umpan Balik untuk memberikan umpan balik.
Menautkan ke atau mengedit kluster
Catatan
Saat ini, satu-satunya jenis kluster HDInsight yang dapat Anda tautkan adalah jenis Apache Hive.
Untuk menautkan kluster HDInsight:
Klik kanan HDInsight, lalu pilih Tautkan Klaster HDInsight untuk menampilkan kotak dialog Tautkan Kluster HDInsight.
Masukkan Url Koneksi dalam formulir
https://CLUSTERNAME.azurehdinsight.net
. Nama Kluster secara otomatis terisi dengan bagian nama kluster URL saat Anda membuka bidang lain. Kemudian masukkan Nama Pengguna dan Sandi, dan pilih Berikutnya.Pilih Selesai. Jika penautan kluster berhasil, kluster kemudian tercantum di bawah node HDInsight.
Untuk memperbarui kluster tertaut, klik kanan kluster dan pilih Edit. Anda kemudian dapat memperbarui informasi kluster.
Jelajahi sumber daya yang ditautkan
Dari Penjelajah Server, Anda dapat melihat akun penyimpanan default dan akun penyimpanan tertaut apa pun. Jika Anda memperluas akun penyimpanan default, Anda dapat melihat kontainer di akun penyimpanan. Akun penyimpanan default dan kontainer default ditandai.
Klik kanan kontainer dan pilih Tampilkan Kontainer untuk melihat konten kontainer. Setelah membuka kontainer, Anda dapat menggunakan tombol bilah alat untuk Refresh daftar konten, Unggah Blob, Hapus Blob yang dipilih, Buka Blob, dan unduh (Simpan Sebagai) blobs yang dipilih.
Menjalankan kueri Apache Hive interaktif
Apache Hive adalah infrastruktur gudang data yang dibangun di Hadoop. Apache Hive digunakan untuk meringkas, mengkueri, dan menganalisis data. Anda dapat menggunakan Data Lake Tools untuk Visual Studio untuk menjalankan kueri Apache Hive dari Visual Studio. Untuk informasi selengkapnya tentang Apache Hive, lihat Apa itu Apache Hive dan HiveQL di Azure HDInsight?.
Kueri Interaktif di Azure HDInsight menggunakan Hive pada LLAP di Apache Hive 2.1. Kueri Interaktif menghadirkan interaktivitas ke kueri bergaya gudang data yang kompleks pada himpunan data besar yang disimpan. Menjalankan kueri Apache Hive pada Kueri Interaktif jauh lebih cepat daripada pekerjaan batch Apache Hive tradisional.
Catatan
Anda dapat menjalankan kueri Apache Hive interaktif hanya saat menyambungkan ke kluster Interactive Query HDInsight.
Anda juga dapat menggunakan Data Lake Tools untuk Visual Studio untuk melihat apa yang ada di dalam pekerjaan Apache Hive. Data Lake Tools untuk Visual Studio mengumpulkan dan memunculkan log Yarn dari pekerjaan Apache Hive tertentu.
Di Penjelajah Server, pilih Azure>HDInsight dan pilih kluster Anda. Node ini adalah titik awal di Penjelajah Server untuk bagian-bagian selanjutnya.
Lihat hivesampletable
Semua kluster HDInsight memiliki contoh default tabel Apache Hive yang disebut hivesampletable
.
Dari kluster Anda, pilih Database Apache Hive>default>hivesampletable.
Untuk melihat skema
hivesampletable
:Perluas hivesampletable. Nama dan tipe data kolom
hivesampletable
diperlihatkan.Untuk menampilkan data
hivesampletable
:Klik kanan hivesampletable, dan pilih Tampilkan 100 Baris Teratas. Daftar 100 hasil muncul di jendela Tabel Apache Hive: hivesampletable. Tindakan ini setara dengan menjalankan kueri Apache Hive berikut dengan menggunakan driver ODBC Apache Hive:
SELECT * FROM hivesampletable LIMIT 100
Anda bisa mengkustomisasi jumlah baris dengan mengubah Jumlah baris; Anda dapat memilih 50, 100, 200, atau 1000 baris dari daftar tarik-turun.
Membuat tabel Apache Hive
Untuk membuat tabel Apache Hive, Anda bisa menggunakan GUI atau Anda bisa menggunakan kueri Apache Hive. Untuk informasi menggunakan kueri Apache Hive, lihat Membuat dan menjalankan kueri Apache Hive.
Dari kluster Anda, pilih Database Apache Hive>default.
Klik kanan default, dan pilih Buat Tabel.
Konfigurasikan tabel.
Pilih tombol Buat Tabel untuk mengirimkan tugas, yang membuat tabel Apache Hive baru.
Membuat dan menjalankan kueri Apache Hive
Anda memiliki dua opsi untuk membuat dan menjalankan kueri Hive:
- Membuat kueri ad-hoc
- Buat aplikasi Hive
Membuat kueri ad-hoc
Untuk membuat dan menjalankan kueri ad-hoc:
Klik kanan kluster tempat Anda ingin menjalankan kueri, dan pilih Tulis Kueri Apache Hive.
Masukkan kueri Apache Hive.
Editor Apache Hive mendukung IntelliSense. Data Lake Tools untuk Visual Studio mendukung pemuatan metadata jarak jauh saat Anda mengedit skrip Apache Hive. Misalnya, jika Anda mengetik
SELECT * FROM
, IntelliSense mencantumkan semua nama tabel yang disarankan. Saat nama tabel ditentukan, IntelliSense mencantumkan nama kolom. Alat-alat ini mendukung sebagian besar pernyataan DML Apache Hive, subkueri, dan UDF bawaan.Catatan
IntelliSense hanya menyarankan metadata kluster yang dipilih di bilah alat HDInsight.
Berikut adalah contoh kueri yang bisa Anda gunakan:
SELECT devicemodel, COUNT(devicemodel) AS deviceCount FROM hivesampletable GROUP BY devicemodel ORDER BY devicemodel
Pilih mode eksekusi:
Interaktif
Di daftar tarik-turun pertama, pilih Interaktif, lalu pilih Eksekusi.
Batch
Di daftar tarik-turun pertama, pilih Batch, lalu pilih Kirim. Atau pilih ikon tarik-turun di samping Kirim dan pilih Tingkat Lanjut.
Jika Anda memilih opsi kirim tingkat lanjut, kotak dialog Kirim Skrip akan muncul. Mengonfigurasi Nama Pekerjaan, Argumen, Konfigurasi Tambahan, dan Direktori Status untuk skrip.
Catatan
Anda tidak dapat mengirimkan batch ke kluster Kueri Interaktif. Anda harus menggunakan mode interaktif.
Buat aplikasi Hive
Untuk membuat dan menjalankan solusi Apache Hive:
Dari bilah menu, pilih File>Proyek>Baru.
Di jendela Buat proyek baru, pilih kotak pencarian dan ketik Apache Hive. Lalu pilih Aplikasi Hive dan pilih Berikutnya.
Di jendela Konfigurasikan proyek baru Anda, masukkan nama Proyek, pilih atau buat Lokasi proyek, lalu pilih Buat.
Di Penjelajah Solusi, klik dua kali Script.hql untuk membuka skrip.
Melihat ringkasan dan output pekerjaan
Ringkasan pekerjaan sedikit bervariasi antara mode Batch dan Interaktif.
Gunakan ikon Refresh untuk memperbarui status hingga status tugas berubah menjadi Selesai.
Untuk detail pekerjaan dari mode Batch, pilih tautan di bagian bawah untuk melihat Kueri Pekerjaan, Output Pekerjaan, atau Log Pekerjaan, atau untuk Menampilkan Log Yarn.
Untuk detail pekerjaan dari mode Interaktif, lihat panel Output dan Output HiveServer2.
Lihat grafik pekerjaan
Saat ini, grafik pekerjaan hanya ditampilkan untuk pekerjaan Apache Hive yang menggunakan Tez sebagai mesin eksekusi. Untuk informasi tentang mengaktifkan Tez, lihat Apa itu Apache Hive dan HiveQL di Azure HDInsight?. Lihat juga, Gunakan Apache Tez alih-alih Pengurangan Peta.
Untuk menampilkan semua operator di dalam puncak, klik dua kali pada puncak grafik pekerjaan. Anda juga dapat mengarahkan ke operator tertentu untuk melihat detail selengkapnya tentang operator tersebut.
Bahkan jika Tez ditentukan sebagai mesin eksekusi, grafik pekerjaan mungkin tidak muncul jika tidak ada aplikasi Tez yang diluncurkan. Situasi ini mungkin terjadi karena pekerjaan tidak berisi pernyataan DML. Atau karena pernyataan DML dapat kembali tanpa meluncurkan aplikasi Tez. Misalnya, SELECT * FROM table1
tidak akan meluncurkan aplikasi Tez.
Menampilkan detail eksekusi tugas
Dari grafik pekerjaan, Anda dapat memilih Detail Eksekusi Tugas untuk mendapatkan informasi terstruktur dan dikontrol untuk pekerjaan Apache Hive. Anda juga mungkin mendapatkan detail pekerjaan lebih lanjut. Jika masalah performa terjadi, Anda dapat menggunakan tampilan untuk mendapatkan detail selengkapnya tentang masalah ini. Misalnya, Anda dapat mengambil informasi bagaimana setiap tugas beroperasi dan informasi terperinci tentang setiap tugas (membaca/menulis data, menjadwalkan/memulai/mengakhiri waktu, dan lainnya). Gunakan informasi tersebut untuk menyelaraskan konfigurasi pekerjaan atau arsitektur sistem berdasarkan informasi yang dikontrol.
Menampilkan Pekerjaan Apache Hive
Anda dapat menampilkan kueri pekerjaan, output pekerjaan, log pekerjaan, dan log Yarn untuk pekerjaan Apache Hive.
Pada perilisan terbaru alat tersebut, Anda dapat melihat apa yang ada di dalam pekerjaan Apache Hive dengan mengumpulkan dan memunculkan log Yarn. Log Yarn dapat membantu Anda menyelidiki masalah performa. Untuk informasi selengkapnya tentang cara HDInsight mengumpulkan log Yarn, lihat Mengakses log aplikasi YARN Apache Hadoop.
Untuk menampilkan pekerjaan Apache Hive:
Klik kanan kluster HDInsight, dan pilih Tampilkan Pekerjaan.
Daftar pekerjaan Apache Hive yang berjalan di kluster muncul.
Pilih pekerjaan. Pada jendela Ringkasan Pekerjaan Apache Hive, pilih salah satu link berikut:
- Kueri Pekerjaan
- Output Pekerjaan
- Log Pekerjaan
- Log Yarn
Menjalankan skrip Apache Pig
Dari bilah menu, pilih File>Proyek>Baru.
Di jendela Mulai, pilih kotak pencarian dan masukkan Pig. Kemudian pilih Aplikasi Pig dan pilih Berikutnya.
Di jendela Konfigurasikan proyek baru Anda, masukkan Nama proyek, dan pilih atau buat Lokasi untuk proyek tersebut. Lalu pilih Buat.
Di panel IDE Penjelajah Solusi, klik ganda Script.pig untuk membuka skrip.
Umpan balik dan masalah yang diketahui
Masalah pada hasil yang diawali dengan 'nilai null tidak ditampilkan' telah diperbaiki. Jika Anda diblokir atas masalah ini, hubungi tim dukungan.
Skrip HQL yang dibuat Visual Studio dikodekan, bergantung pada pengaturan wilayah lokal pengguna. Skrip tidak dijalankan dengan benar jika Anda mengunggah skrip ke kluster sebagai file biner.
Langkah berikutnya
Dalam artikel ini, Anda mempelajari cara menggunakan paket Alat Data Lake untuk Visual Studio guna menyambungkan ke kluster HDInsight dari Visual Studio. Anda juga mempelajari cara menjalankan kueri Apache Hive.
- Jalankan kueri Apache Hive menggunakan alat Data Lake untuk Visual Studio
- Apa yang dimaksud dengan Apache Hive dan HiveQL pada Azure HDInsight?
- Membuat kluster Apache Hadoop - Template
- Mengirimkan pekerjaan Apache Hadoop di HDInsight
- Menganalisis data Twitter menggunakan Apache Hive dan Apache Hadoop di HDInsight
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk