Apa itu Azure HDInsight?

Artikel
12/05/2023

Azure HDInsight adalah layanan analitik sumber terbuka dengan spektrum penuh yang terkelola di cloud untuk perusahaan. Dengan HDInsight, Anda dapat menggunakan kerangka kerja sumber terbuka seperti, Apache Spark, Apache Hive, LLAP, Apache Kafka, Hadoop, dan banyak lagi, di lingkungan Azure Anda.

Apa itu HDInsight dan tumpukan teknologi Hadoop?

Azure HDInsight adalah platform kluster terkelola yang memudahkan untuk menjalankan kerangka kerja big data seperti Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Hadoop, dan lainnya di lingkungan Azure Anda. Ini dirancang untuk menangani data dalam volume besar dengan kecepatan dan efisiensi tinggi.

Mengapa saya harus menggunakan Azure HDInsight?

Kemampuan	Deskripsi
Cloud asli	Azure HDInsight memungkinkan Anda membuat kluster yang dioptimalkan untuk Spark, kueri Interaktif (LLAP), Kafka, HBase, dan Hadoop di Azure. HDInsight juga menyediakan SLA end-to-end untuk semua beban kerja produksi Anda.
Biaya rendah dan dapat diskalakan	HDInsight memungkinkan Anda untuk menskalakan beban kerja ke atas atau ke bawah. Anda dapat mengurangi biaya dengan membuat kluster sesuai permintaan dan hanya membayar yang Anda gunakan saja. Anda juga dapat membuat alur data untuk mengoperasikan pekerjaan Anda. Komputasi dan penyimpanan yang terpisah memberikan performa dan fleksibilitas yang lebih baik.
Aman dan sesuai	HDInsight memungkinkan Anda melindungi aset data perusahaan Anda dengan Azure Virtual Network, enkripsi, dan integrasi dengan ID Microsoft Entra. HDInsight juga memenuhi standar kepatuhan industri dan pemerintah yang paling populer.
Pemantauan	Azure HDInsight melakukan integrasi dengan log Azure Monitor untuk menyediakan satu antarmuka yang dapat digunakan untuk memantau semua kluster Anda.
Ketersediaan global	HDInsight tersedia di lebih banyak wilayah daripada penawaran analitik big data lainnya. Azure HDInsight juga tersedia di Azure Government, Tiongkok, dan Jerman, yang memungkinkan Anda untuk memenuhi kebutuhan perusahaan Anda di area sovereign utama.
Produktivitas	Azure HDInsight memungkinkan Anda menggunakan alat produktif beraneka ragam untuk Hadoop dan Spark dengan lingkungan pengembangan pilihan Anda. Lingkungan pengembangan ini termasuk dukungan Visual Studio, VS Code, Eclipse, dan IntelliJ untuk Scala, Python, Java, dan .NET.
Ekstensibilitas	Anda dapat memperluas kluster HDInsight dengan komponen instalan (Hue, Presto, dan sebagainya) menggunakan tindakan skrip, yakni dengan menambahkan simpul tepi, atau dengan mengintegrasikannya dengan aplikasi bersertifikat big data lainnya. HDInsight memungkinkan integrasi yang mulus dengan solusi big data terpopuler menggunakan penyebaran sekali klik.

Apa itu big data?

Big data dikumpulkan dalam volume yang terus meningkat, pada kecepatan yang lebih tinggi, dan dalam berbagai format yang lebih besar dari sebelumnya. Ia bisa historis (berarti disimpan) atau real time (berarti dialirkan dari sumbernya). Lihat Skenario penggunaan HDInsight untuk mempelajari kasus-kasus penggunaan paling umum untuk big data.

Jenis kluster di HDInsight

HDInsight mencakup jenis kluster tertentu dan kemampuan penyesuaian kluster, seperti kemampuan untuk menambah komponen, utilitas, dan bahasa komputer. HDInsight menawarkan jenis kluster berikut:

Jenis Kluster	Deskripsi	Memulai
Apache Hadoop	Kerangka kerja yang menggunakan HDFS, manajemen sumber daya YARN, dan model pemrograman MapReduce sederhana untuk memproses dan menganalisis data batch secara paralel.	Membuat kluster Apache Hadoop
Apache Spark	Kerangka kerja pemrosesan paralel dengan sumber terbuka yang mendukung pemrosesan dalam memori untuk meningkatkan performa aplikasi analisis big data. Lihat Apa itu Apache Spark dalam HDInsight?.	Membuat kluster Apache Spark
Apache HBase	Database NoSQL yang dibangun di Hadoop, yang menyediakan akses acak dan konsistensi kuat untuk sejumlah besar data tidak terstruktur dan semi terstruktur, yang mungkin berjumlah miliaran baris dengan jutaan kolom. Lihat Apa itu HBase dalam HDInsight?	Membuat kluster HBase Apache
Apache Interactive Query	Penembolokan dalam memori untuk kueri Apache Hive yang interaktif dan lebih cepat. Lihat Menggunakan Interactive Query di HDInsight.	Membuat kluster Kueri Interaktif
Apache Kafka	Platform sumber terbuka digunakan untuk membangun alur dan aplikasi data streaming. Kafka juga menyediakan fungsi antrean pesan yang memungkinkan Anda untuk menerbitkan dan berlangganan aliran data. Lihat Pengantar Apache Kafka di HDInsight.	Membuat kluster Apache Kafka

Skenario penggunaan HDInsight

Azure HDInsight dapat digunakan untuk berbagai skenario dalam pemrosesan big data. Ini bisa berupa data historis (data yang sudah dikumpulkan dan disimpan) atau data real time (data yang langsung dialirkan dari sumber). Skenario untuk memproses data-data tersebut dapat diringkas dalam kategori berikut:

Pemrosesan batch (ETL)

Ekstraksi, transformasi, dan pemuatan (ETL) adalah proses ekstraksi data yang tidak terstruktur atau terstruktur dari sumber data heterogen. Data kemudian diubah menjadi format terstruktur dan dimuat ke dalam penyimpanan data. Anda dapat menggunakan data yang telah diubah untuk ilmu data atau pergudangan data.

Pergudangan data

Anda dapat menggunakan HDInsight untuk melakukan kueri interaktif dengan skala petabyte pada data terstruktur atau tidak terstruktur dalam format apa pun. Anda juga dapat membuat model yang menghubungkannya ke alat BI.

HDInsight architecture: Data warehousing.

Internet of Things (IoT)

Anda dapat menggunakan HDInsight untuk memproses data streaming yang diterima secara real time dari berbagai jenis perangkat. Untuk informasi selengkapnya, baca posting blog ini dari Azure yang mengumumkan pratinjau publik Apache Kafka di HDInsight dengan disk yang dikelola Azure.

Screenshot of the HDInsight architecture: Internet of Things.

Hibrid

Anda dapat menggunakan HDInsight untuk memperluas infrastruktur big data lokal yang ada ke Azure untuk menerapkan kemampuan analitik tingkat lanjut cloud.

HDInsight architecture: Hybrid.

Komponen sumber terbuka dalam HDInsight

Azure HDInsight memungkinkan Anda membuat kluster dengan kerangka kerja sumber terbuka seperti Spark, Apache Hive, LLAP, Kafka, Hadoop, dan HBase. Secara default, kluster ini mencakup berbagai komponen sumber terbuka seperti Apache Ambari, Avro, Apache Hive 3, HCatalog, Apache Hadoop MapReduce, Apache Hadoop YARN, Apache Phoenix, Apache Pig, Apache Sqoop, Apache Tez, Apache Oozie, dan Apache ZooKeeper.

Bahasa komputer dalam HDInsight

Kluster HDInsight, termasuk Spark, HBase, Kafka, Hadoop, dan lainnya, mendukung banyak bahasa komputer. Beberapa bahasa komputer secara default tidak diinstal. Untuk pustaka, modul, atau paket yang secara default tidak diinstal, gunakan tindakan skrip untuk menginstal komponen.

Bahasa pemrograman	Informasi
Dukungan bahasa komputer default	Secara default, kluster HDInsight mendukung: Java Python .NET Go
Bahasa komputer Java virtual machine (JVM/Komputer virtual Java)	Banyak bahasa komputer selain Java yang dapat berjalan di komputer virtual Java (JVM). Namun, jika Anda menjalankan beberapa bahasa, Anda mungkin harus menginstal komponen tambahan pada kluster. Bahasa berbasis JVM berikut didukung pada kluster HDInsight: Clojure Jython (Python untuk Java) Scala
Bahasa komputer khusus Hadoop	Kluster HDInsight mendukung bahasa berikut yang khusus untuk tumpukan teknologi Hadoop: Pig Latin for pekerjaan Pig HiveQL untuk pekerjaan Apache Hive dan SparkSQL

Alat pengembangan untuk HDInsight

Anda dapat menggunakan alat pengembangan HDInsight, termasuk IntelliJ, Eclipse, Visual Studio Code, dan Visual Studio, untuk menulis dan mengirimkan kueri data dan pekerjaan HDInsight dengan integrasi mulus ke Azure.

Toolkit Azure untuk IntelliJ 10
Toolkit Azure untuk Eclipse 6
Alat Azure HDInsight untuk VS Code 13
Alat data lake Azure untuk Visual Studio 9

Inteligensi bisnis pada HDInsight

Alat inteligensi bisnis (Business Intelligence/BI) familier yang mengambil, menganalisis, dan melaporkan data yang terintegrasi dengan HDInsight menggunakan add-in Power Query atau Microsoft Hive ODBC Driver:

Residensi data dalam wilayah

Spark, Hadoop, dan LLAP tidak menyimpan data pelanggan, sehingga layanan ini secara otomatis memenuhi persyaratan residensi data dalam wilayah yang ditentukan di Pusat Kepercayaan.

Kafka dan HBase menyimpan data pelanggan. Data ini secara otomatis disimpan oleh Kafka dan HBase dalam satu wilayah, sehingga layanan ini memenuhi persyaratan residensi data dalam wilayah yang ditentukan di Pusat Kepercayaan.

Alat inteligensi bisnis (BI) familier yang mengambil, menganalisis, dan melaporkan data yang terintegrasi dengan HDInsight menggunakan add-in Power Query atau Microsoft Hive ODBC Driver.