Menjelajahi data dalam tabel Hive dengan kueri Hive
Artikel ini memberikan contoh skrip Hive yang digunakan untuk menjelajahi data dalam tabel Hive dalam klaster HDInsight Hadoop.
Tugas ini merupakan langkah dalam Team Data Science Process.
Prasyarat
Artikel ini mengasumsikan bahwa Anda telah:
- Membuat akun penyimpanan Azure. Jika Anda memerlukan petunjuk, lihat Membuat akun Azure Storage
- Menyediakan kluster Hadoop yang disesuaikan dengan layanan HDInsight. Jika Anda memerlukan instruksi, lihat Menyesuaikan Kluster Azure HDInsight Hadoop untuk Analitik Tingkat Lanjut.
- Data telah diunggah ke tabel Hive di kluster Azure HDInsight Hadoop. Jika belum, ikuti instruksi dalam Membuat dan memuat data ke tabel Hive untuk mengunggah data ke tabel Hive terlebih dahulu.
- Mengaktifkan akses jarak jauh ke kluster. Jika Anda memerlukan instruksi, lihat Mengakses Simpul Kepala Kluster Hadoop.
- Jika Anda memerlukan instruksi tentang cara mengirimkan kueri Hive, lihat Cara Mengirimkan Kueri Hive
Contoh skrip kueri Hive untuk eksplorasi data
Mendapatkan jumlah pengamatan per partisi
SELECT <partitionfieldname>, count(*) from <databasename>.<tablename> group by <partitionfieldname>;Mendapatkan jumlah pengamatan per hari
SELECT to_date(<date_columnname>), count(*) from <databasename>.<tablename> group by to_date(<date_columnname>);Mendapatkan level di kolom kategoris
SELECT distinct <column_name> from <databasename>.<tablename>Mendapatkan jumlah level dalam kombinasi dua kolom kategoris
SELECT <column_a>, <column_b>, count(*) from <databasename>.<tablename> group by <column_a>, <column_b>Mendapatkan distribusi untuk kolom numerik
SELECT <column_name>, count(*) from <databasename>.<tablename> group by <column_name>Mengekstrak rekaman dari menggabungkan dua tabel
SELECT a.<common_columnname1> as <new_name1>, a.<common_columnname2> as <new_name2>, a.<a_column_name1> as <new_name3>, a.<a_column_name2> as <new_name4>, b.<b_column_name1> as <new_name5>, b.<b_column_name2> as <new_name6> FROM ( SELECT <common_columnname1>, <common_columnname2>, <a_column_name1>, <a_column_name2>, FROM <databasename>.<tablename1> ) a join ( SELECT <common_columnname1>, <common_columnname2>, <b_column_name1>, <b_column_name2>, FROM <databasename>.<tablename2> ) b ON a.<common_columnname1>=b.<common_columnname1> and a.<common_columnname2>=b.<common_columnname2>
Skrip kueri tambahan untuk skenario data perjalanan taksi
Contoh kueri yang khusus untuk skenario Data Perjalanan Taksi NYC juga disediakan di repositori GitHub. Kueri ini sudah memiliki skema data yang ditentukan dan siap dikirim untuk dijalankan. Data Perjalanan Taksi NYC tersedia melalui Azure Open Datasets atau dari sumber Data Rekaman Perjalanan TLC.