Kriteria keputusan untuk memilih opsi konfigurasi HDInsight yang benar

7 menit

Ada konfigurasi berbeda dari layanan HDInsight yang dapat digunakan untuk skenario analitis yang berbeda. Faktanya, HDInsight berisi begitu banyak teknologi analitik OSS, yang dapat dianggap sebagai toko serbaguna untuk memenuhi kebutuhan analitik tingkat lanjut Anda. Semua jenis kluster yang tersedia dapat memenuhi kebutuhan skenario bisnis yang diuraikan di bawah ini. Dengan setiap jenis kluster, Anda memiliki kendali penuh atas cara Anda mengelola setiap skenario tersebut dalam HDInsight. 

Banyak bisnis memiliki persyaratan yang mirip dalam hal skenario untuk memproses dan menganalisis data untuk mendapatkan nilai bisnis. Persyaratan ini dapat mencakup:

Pemrosesan batch

HDInsight dapat digunakan untuk mengekstrak, mengubah, dan memuat (ETL) atau mengekstrak, memuat, dan mengubah (ELT) operasi pada data terstruktur dan tidak terstruktur menggunakan Hadoop atau Spark dan kerangka kerja pemrosesan data termasuk Apache Hive serta Sqoop.  

Pergudangan data

Biasanya dilakukan oleh database relasional lokal seperti SQL Server, dan baru-baru ini dengan Gudang Data Azure SQL melalui data terstruktur pada skala petabyte. HDInsight memungkinkan kueri interaktif pada skala petabyte melalui data terstruktur atau tidak terstruktur dalam banyak format. Kemampuan ini dapat berfungsi dengan baik jika Anda mengelola operasi data dan persyaratan pelaporan menggunakan HDInsight Hadoop dengan Apache Hive. 

Streaming data

Data streaming dapat diserap dari berbagai sumber menggunakan HDInsight melalui Event Hub atau IoT Hub menggunakan Spark Streaming.  

Hibrida

Beberapa organisasi sudah memiliki infrastruktur big data lokal. Anda dapat memperluas kemampuan ke cloud menggunakan HDInsight.

Poin keputusan utama untuk memilih opsi konfigurasi kluster HDInsight yang benar, didasarkan pada beban kerja yang akan dilayani kluster HDInsight. Jika organisasi Anda bekerja dengan banyak beban kerja, beralih ke konfigurasi HDInsight yang berbeda agar sesuai dengan beban kerja yang perlu diproses merupakan hal yang umum.

Jenis Beban Kerja	Jenis Kluster
Pergerakan batch data	Apache Hadoop
Ilmu Data – Batch dan Streaming	Apache Spark
Beban kerja transaksional	HBase
Analitik ad hoc/Pergudangan data	Apache Interactive Query
Analisis streaming	Apache Kafka

Penting

Klaster HDInsight tersedia dalam berbagai jenis, masing-masing untuk satu beban kerja atau teknologi. Tidak ada metode yang didukung untuk membuat kluster yang menggabungkan beberapa jenis, seperti Hadoop dan HBase pada satu kluster. Jika solusi Anda memerlukan teknologi yang tersebar di beberapa jenis kluster HDInsight, jaringan virtual Azure dapat menghubungkan berbagai jenis kluster yang diperlukan.

Lanjutkan

Kriteria keputusan untuk memilih opsi konfigurasi HDInsight yang benar

Pemrosesan batch

Pergudangan data

Streaming data

Hibrida

Saran dan Komentar