Apa itu Apache HBase di Azure HDInsight

Apache HBase adalah database NoSQL sumber terbuka yang dibuat di Apache Hadoop dan dimodelkan setelah Google BigTable. HBase menyediakan akses acak dan konsistensi yang kuat untuk sejumlah besar data dalam database tanpa skema. Database diatur menurut keluarga kolom.

Dari perspektif pengguna, HBase mirip dengan database. Data disimpan dalam baris dan kolom tabel, dan data dalam baris dikelompokkan menurut keluarga kolom. HBase adalah database tanpa skema. Kolom dan jenis data bisa tidak terdefinisi sebelum menggunakannya. Kode sumber terbuka menskalakan secara linier untuk menangani petabyte data pada ribuan simpul. Ini dapat mengandalkan redundansi data, pemrosesan batch, dan fitur lain yang disediakan oleh aplikasi terdistribusi di lingkungan Hadoop.

Bagaimana Apache HBase diterapkan di Azure HDInsight?

HDInsight HBase ditawarkan sebagai kluster terkelola yang terintegrasi ke dalam lingkungan Azure. Kluster dikonfigurasi untuk menyimpan data secara langsung di Azure Storage, yang memberikan latensi rendah dan peningkatan elastisitas dalam performa dan pilihan biaya. Properti ini memungkinkan pelanggan untuk membangun situs web interaktif yang bekerja dengan himpunan data besar. Untuk membangun layanan yang menyimpan sensor dan data telemetri dari jutaan titik akhir. Dan untuk menganalisis data ini dengan pekerjaan Hadoop. HBase dan Hadoop adalah titik awal yang baik untuk proyek big data di Azure. Layanan ini dapat memungkinkan aplikasi real-time untuk bekerja dengan set himpunan data.yang besar.

Implementasi HDInsight menggunakan arsitektur HBase yang ditingkatkan skalanya untuk menyediakan sharding tabel otomatis. Dan konsistensi yang kuat untuk membaca dan menulis, serta failover otomatis. Performa ditingkatkan dengan penembolokan dalam memori untuk bacaan dan streaming throughput tinggi untuk menulis. Kluster HBase dapat dibuat di dalam jaringan virtual. Untuk detailnya,lihat Buat kluster HDInsight di Azure Virtual Network.

Bagaimana data dikelola dalam HDInsight HBase?

Data dapat dikelola di HBase dengan menggunakan create, get, put, dan scan perintah dari shell HBase. Data ditulis ke database dengan menggunakan putdan membaca dengan menggunakanget. scanPerintah ini digunakan untuk mendapatkan data dari beberapa baris dalam tabel. Data juga dapat dikelola menggunakan HBase C# API, yang menyediakan pustaka klien di atas HBase REST API. Database HBase juga dapat dikueri dengan menggunakan Apache Hive. Untuk pengenalan model pemrograman ini, lihat Mulai menggunakan Apache HBase dengan Apache Hadoop di HDInsight. Koprosesor juga tersedia, yang memungkinkan pemrosesan data dalam simpul yang menghosting database.

Catatan

Thrift tidak didukung oleh HBase dalam Microsoft Azure HDInsight.

Gunakan kasus untuk Apache HBase

Kasus penggunaan kanonis di mana BigTable (dan berdasarkan ekstensi, HBase) dibuat dari pencarian web. Mesin pencari membangun indeks yang memetakan istilah ke halaman web yang berisinya. Tetapi ada banyak kasus penggunaan lain yang cocok untuk HBase — beberapa di antaranya di-item di bagian ini.

Skenario Deskripsi
Penyimpanan nilai kunci HBase dapat digunakan sebagai penyimpanan bernilai kunci, dan cocok untuk mengelola sistem pesan. Facebook menggunakan HBase untuk sistem Olahpesan mereka, dan sangat ideal untuk menyimpan dan mengelola komunikasi Internet. WebTable menggunakan HBase untuk mencari dan mengelola tabel yang diekstrak dari halaman web.
Data sensor HBase berguna untuk mengambil data yang dikumpulkan secara bertahap dari berbagai sumber. Data ini mencakup analitik sosial, dan rangkaian waktu. Dan menjaga dasbor interaktif tetap diperbarui dengan tren dan penghitung, dan mengelola sistem log audit. Contohnya termasuk terminal trader Bloomberg dan Open Time Series Database (OpenTSDB). OpenTSDB menyimpan dan menyediakan akses ke metrik yang dikumpulkan tentang kesehatan sistem server.
Kueri real-time Apache Phoenix adalah mesin kueri SQL untuk Apache HBase. Ini diakses sebagai driver JDBC, dan memungkinkan kueri dan mengelola tabel HBase dengan menggunakan SQL.
HBase sebagai platform Aplikasi dapat berjalan di atas HBase dengan menggunakannya sebagai penyimpanan data. Contohnya termasuk Phoenix, OpenTSDB, Kiji, dan Titan. Aplikasi juga dapat diintegrasikan dengan HBase. Contohnya meliputi: Apache Hive, Apache Pig, Solr, Apache Flume, Apache Impala, Apache Spark, Ganglia, dan Apache Drill.

Langkah berikutnya