Opsi konfigurasi HDInsight

Selesai

HDInsight memiliki berbagai teknologi OSS yang tersemat di dalamnya yang dapat digunakan untuk menangani skenario streaming dan data batch, yang merupakan istilah yang ditentukan dalam arsitektur Lambda. Dalam model arsitektur ini, ada jalur data panas dan jalur data dingin. Jalur data panas dihasilkan secara real time oleh perangkat, sensor, atau aplikasi dan analisis data dilakukan hampir secara real time, ini sering disebut sebagai data streaming. Jalur data dingin adalah ketika data dipindahkan dalam batch, biasanya dari penyimpanan data lain dan sering disebut sebagai data batch.

Lambda solution architecture

Saat menerapkan HDInsight, penyimpanan data disimpan dalam Hadoop Distributed File System (HDFS) yang sesuai. Di Azure, Data Lake Gen2 biasanya digunakan sebagai penyimpanan data karena sesuai dengan HDFS. Data dari jalur panas dan jalur dingin setelah diproses disimpan dalam penyimpanan data terpusat yang disebut Data Lake. Data lake itu sendiri dapat dipilah untuk menyimpan data di kompartemen yang berbeda, yang dapat ditentukan oleh status data (zona arahan, zona transformasi, dll.), persyaratan akses (panas, hangat, dan dingin) dan, grup bisnis. Lapisan Penyaji adalah kompartemen terakhir di data lake yang menyimpan data dalam format yang siap untuk digunakan oleh berbagai jenis konsumen.

Secara kritis, aspek komputasi HDInsight berkaitan dengan pemrosesan streaming atau data batch dan dapat bervariasi bergantung pada jenis kluster yang Anda pilih saat menyediakan kluster HDInsight. HDInsight menawarkan layanan dalam opsi kluster terpisah seperti yang ditunjukkan pada tabel berikut.

Jenis Kluster Keterangan
Apache Hadoop Kerangka kerja yang menggunakan HDFS, dan model pemrograman MapReduce sederhana untuk memproses dan menganalisis data batch.
Apache Spark Kerangka kerja pemrosesan paralel dengan sumber terbuka yang mendukung pemrosesan dalam memori untuk meningkatkan performa aplikasi analisis big data.
HBase Database NoSQL yang dibangun di Hadoop, yang menyediakan akses acak dan konsistensi kuat untuk sejumlah besar data tidak terstruktur dan semi terstruktur, yang mungkin berjumlah miliaran baris dengan jutaan kolom.
Apache Interactive Query Penembolokan dalam memori untuk kueri Apache Hive yang interaktif dan lebih cepat.
Apache Kafka Platform sumber terbuka yang digunakan untuk membangun alur dan aplikasi data streaming. Kafka juga menyediakan fungsi antrean pesan yang memungkinkan Anda untuk menerbitkan dan berlangganan aliran data.

Oleh karena itu, penting untuk memilih jenis kluster yang benar untuk memenuhi kasus bisnis yang Anda coba pecahkan. Terlepas dari jenis kluster yang dipilih, komponen sumber terbuka tambahan juga ditambahkan di dalam kluster untuk memberikan kemampuan tambahan termasuk:

Manajemen Hadoop

HCatalog - Lapisan manajemen tabel dan penyimpanan untuk Hadoop

Apache Ambari - Memfasilitasi manajemen dan pemantauan kluster Apache Hadoop

Apache Oozie - Sistem penjadwal alur kerja untuk mengelola pekerjaan Apache Hadoop

Apache Hadoop YARN – Mengelola manajemen sumber daya dan penjadwalan/pemantauan pekerjaan

Apache ZooKeeper - Layanan terpusat untuk memelihara informasi konfigurasi, penamaan, menyediakan sinkronisasi terdistribusi, dan menyediakan layanan grup. 

Pemrosesan data

Apache Hadoop MapReduce - Kerangka kerja untuk menulis aplikasi dengan mudah, yang memproses data dalam jumlah besar

Apache Tez - Kerangka kerja aplikasi untuk memproses data

Apache Hive - Memfasilitasi pengelolaan himpunan data besar yang berada di penyimpanan terdistribusi menggunakan SQL

Analisis data

Apache Pig – Menyediakan lapisan abstraksi melalui MapReduce untuk menganalisis himpunan data besar

Apache Phoenix - Mengaktifkan OLTP dan analitik operasional di Hadoop

Apache Mahout – Kerangka kerja Aljabar untuk membuat algoritma Anda sendiri

Catatan

Pada saat penulisan, Azure Data Lake Gen1, dan Azure Blob Storage didukung lapisan penyimpanan data untuk HDInsight. Anda harus mempertimangkan untuk memigrasikan data ini ke Azure Data Lake Gen2 karena ini adalah platform penyimpanan yang disarankan untuk Spark dan Hadoop, serta menjadi pilihan default untuk HBase.