Menjelajahi data dalam tabel Hive dengan kueri Hive

Artikel ini memberikan contoh skrip Hive yang digunakan untuk menjelajahi data dalam tabel Hive dalam klaster HDInsight Hadoop.

Tugas ini merupakan langkah dalam Team Data Science Process.

Prasyarat

Artikel ini mengasumsikan bahwa Anda telah:

Contoh skrip kueri Hive untuk eksplorasi data

  1. Mendapatkan jumlah pengamatan per partisiSELECT <partitionfieldname>, count(*) from <databasename>.<tablename> group by <partitionfieldname>;

  2. Mendapatkan jumlah pengamatan per hariSELECT to_date(<date_columnname>), count(*) from <databasename>.<tablename> group by to_date(<date_columnname>);

  3. Mendapatkan level di kolom kategoris
    SELECT distinct <column_name> from <databasename>.<tablename>

  4. Mendapatkan jumlah level dalam kombinasi dua kolom kategorisSELECT <column_a>, <column_b>, count(*) from <databasename>.<tablename> group by <column_a>, <column_b>

  5. Mendapatkan distribusi untuk kolom numerik
    SELECT <column_name>, count(*) from <databasename>.<tablename> group by <column_name>

  6. Mengekstrak rekaman dari menggabungkan dua tabel

    SELECT
        a.<common_columnname1> as <new_name1>,
        a.<common_columnname2> as <new_name2>,
        a.<a_column_name1> as <new_name3>,
        a.<a_column_name2> as <new_name4>,
        b.<b_column_name1> as <new_name5>,
        b.<b_column_name2> as <new_name6>
    FROM
        (
        SELECT <common_columnname1>,
            <common_columnname2>,
            <a_column_name1>,
            <a_column_name2>,
        FROM <databasename>.<tablename1>
        ) a
        join
        (
        SELECT <common_columnname1>,
            <common_columnname2>,
            <b_column_name1>,
            <b_column_name2>,
        FROM <databasename>.<tablename2>
        ) b
        ON a.<common_columnname1>=b.<common_columnname1> and a.<common_columnname2>=b.<common_columnname2>
    

Skrip kueri tambahan untuk skenario data perjalanan taksi

Contoh kueri yang khusus untuk skenario Data Perjalanan Taksi NYC juga disediakan di repositori GitHub. Kueri ini sudah memiliki skema data yang ditentukan dan siap dikirim untuk dijalankan. Data Perjalanan Taksi NYC tersedia melalui Azure Open Datasets atau dari sumber Data Rekaman Perjalanan TLC.