Azure HDInsight nedir?

Azure HDInsight kuruluşlar için bulutta yönetilen, tam spektrumlu, açık kaynak bir analiz hizmetidir. HDInsight ile Azure ortamınız içinde Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R ve daha fazlası gibi açık kaynak çerçeveleri kullanabilirsiniz.

HDInsight ve Hadoop teknoloji yığını nedir?

Azure HDInsight Hadoop bileşenlerinin bulut dağıtımıdır. Azure HDInsight, çok büyük miktarlardaki verileri özelleştirilebilir bir ortamda işlemeyi kolay, hızlı ve uygun maliyetli hale gelir. Hadoop, Spark, Hive, LLAP, Kafka, Storm ve R gibi en popüler açık kaynak çerçeveleri kullanabilirsiniz. Bu çerçeveler sayesinde ayıklama, dönüştürme ve yükleme (ETL), veri ambarı, makine öğrenimi ve IoT gibi diğer birçok senaryoyu mümkün kılabilirsiniz.

HDInsight üzerindeki kullanılabilir Hadoop teknolojisi yığını bileşenlerini görmek için, bkz. HDInsight ile sağlanan bileşenler ve sürümler. HDInsight'ta Hadoop hakkında daha fazla bilgi edinmek için bkz. HDInsight için Azure özellikleri sayfası.

Neden Azure HDInsight?

Özellik Açıklama
Bulutta yerel Azure HDInsight Hadoop, Spark, Interactive query (LLAP), Kafka, Storm, HBase on Azure için iyileştirilmiş kümeler oluşturmanıza olanak sağlar. HDInsight ayrıca tüm üretim iş yüklerinizde uçtan uca SLA sağlar.
Düşük maliyetli ve ölçeklendirilebilir HDInsight, iş yüklerinin ölçeğini artırır veya azaltır.Maliyetleri azaltmak için isteğe bağlı kümeler oluşturarak ve yalnızca kullanmakta olduğunuz kadar ödemeden tasarruf sabilirsiniz. İşlerinizi kullanıma hazır hale getirmek için veri işlem hatları da oluşturabilirsiniz. Ayrılmış işlem ve depolama daha iyi performans ve esneklik sağlar.
Güvenli ve uyumlu HDInsight; Azure Sanal Ağ, şifreleme ve Azure Active Directory tümleştirmesi ile kurumsal veri varlıklarınızı korumanıza olanak sağlar. HDInsight ayrıca en popüler sektör ve kamu uyumluluk standartlarını karşılar.
İzleme Azure HDInsight, tüm Azure İzleyici izleyebilirsiniz tek bir arabirim sağlamak için günlüklerle tümleştirilmiştir.
Genel kullanılabilirlik HDInsight, diğer tüm büyük veri analizi tekliflerine göre daha fazla bölgede kullanılabilir. Azure HDInsight ayrıca temel bağımsız bölgelerde kurumsal ihtiyaçlarınızı karşılamanıza olanak sağlayan Azure Kamu, Çin ve Almanya’da da kullanılabilir.
Üretkenlik Azure HDInsight, tercih ettiğiniz geliştirme ortamlarıyla Hadoop ve Spark için zengin üretkenlik araçları kullanmanıza imkan tanır. Bu geliştirme ortamlarına Scala, Python, R, Java ve .NET için Visual Studio, VSCode, Eclipse ve IntelliJ dahildir. Ayrıca, veri bilimcileri Jupyter ve Zeppelin gibi popüler not defterlerini kullanarak işbirliği yapabilir.
Genişletilebilirlik Betik eylemlerini kullanarak, kenar düğümleri ekleyerek veya diğer büyük veri sertifikalı uygulamalarla tümleştirerek HDInsight kümelerini yüklü bileşenlerle (Hue, Presto gibi) genişletebilirsiniz. HDInsight, tek tıklamayla dağıtım ile en popüler büyük veri çözümleriyle sorunsuz tümleştirme sağlar.

Büyük veri nedir?

Hacmi gittikçe artan büyük veriler hiç olmadığı kadar yüksek hızlarda ve yüksek çeşitlilikteki biçimlerde toplanmaktadır. Bu veriler geçmiş (depolanmış) veya gerçek zamanlı (kaynaktan aktarılan) olabilir. Büyük veriler için en yaygın kullanım örnekleri hakkında bilgi edinmek için bkz. HDInsight kullanma senaryoları.

HDInsight’taki küme türleri

HDInsight belirli küme türlerinin yanı sıra bileşen, yardımcı program ve dil ekleme olanağı gibi küme özelleştirme özelliklerini de içerir. HDInsight şu küme türlerini sunar:

Küme Türü Description Başlarken
Apache Hadoop Toplu verileri paralel olarak işip analiz etmek için HDFS, YARN kaynak yönetimi MapReduce basit bir programlama modeli kullanan bir çerçeve. Apache Hadoop kümesi oluşturma
Apache Spark Büyük veri analizi uygulamalarının performansını artırmak için bellek içinde işlemeyi destekleyen açık kaynak, paralel işleme çerçevesi. Bkz. HDInsight’ta Apache Spark nedir? Apache Spark kümesi oluşturma
Apache HBase Büyük miktarlarda yapılandırılmamış ve yarı yapılandırılmış veriler (potansiyel olarak milyarlarca satır katları milyonlarca sütun) için rastgele erişim ve güçlü tutarlılık sağlayan Hadoop'ta yerleşik bir NoSQL veritabanı. Bkz. HDInsight'ta HBase nedir? Apache HBase kümesi oluşturma
Apache Storm Büyük veri akışlarını hızlı bir şekilde işlemeye uygun, dağıtılmış, gerçek zamanlı bir hesaplama sistemi. Storm HDInsight’ta yönetilen küme olarak sunulur. Bkz. Storm ve Hadoop kullanarak gerçek zamanlı algılayıcı verilerini çözümleme. Apache Storm topolojisi oluşturma
Apache Interactive Query Etkileşimli ve daha hızlı Hive sorguları için bellek içinde önbelleğe alma. Bkz. HDInsight'ta Interactive Query kullanımı. Küme oluşturma Interactive Query oluşturma
Apache Kafka Akış verisi işlem hatları ve uygulamaları için kullanılan açık kaynak platform. Kafka ayrıca veri akışları yayımlamanızı ve abone olmanızı sağlayan ileti-kuyruk işlevi de sunar. Bkz. HDInsight'ta Apache Kafka'ya giriş. Apache Kafka kümesi oluşturma

HDInsight kullanma senaryoları

Azure HDInsight, büyük veri işlemede çeşitli senaryolar için kullanılabilir. Geçmiş verileri (zaten toplanmış ve depolanmış veriler) veya gerçek zamanlı veriler (doğrudan kaynaktan akışı yapılan veriler) olabilir. Bu tür verileri işlemeye yönelik senaryolar aşağıdaki kategorilerde özetlenebilir:

Toplu işleme (ETL)

Ayıklama, dönüştürme ve yükleme (ETL), heterojen veri kaynaklarından yapılandırılmış veya yapılandırılmamış verilerin ayıklandığı bir süreçtir. Bunlar daha sonra yapılandırılmış bir biçime dönüştürülür ve bir veri deposuna yüklenir. Dönüştürülen verileri veri bilimi veya veri ambarlama için kullanabilirsiniz.

Veri ambarlama

Herhangi bir biçimdeki yapılandırılmış veya yapılandırılmamış veriler üzerinde petabayt ölçeğinde etkileşimli sorgular gerçekleştirmek için HDInsight kullanabilirsiniz. Ayrıca bunları BI araçlarına bağlayan modeller de oluşturabilirsiniz.

HDInsight mimarisi: Veri ambarlama

Nesnelerin İnterneti (IoT)

HDInsight'ı kullanarak farklı cihaz türlerinden gerçek zamanlı olarak alınan akış verilerini işebilirsiniz. Daha fazla bilgi edinmek için Azure tarafından hazırlanan ve Azure Yönetilen disklerle HDInsight’ta Apache Kafka önizlemesinin genel önizlemeye sunulduğunu duyuran bu blog gönderisini okuyun.

HDInsight mimarisi: Nesnelerin İnterneti

Veri bilimi

Verilerden kritik öngörüleri ayıklayan uygulamalar oluşturmak için HDInsight kullanabilirsiniz. İşletmeniz için gelecekteki eğilimleri tahmin etmek için buna ek olarak Azure Machine Learning de kullanabilirsiniz. Daha fazla bilgi için, bu müşteri başarı öyküsünü okuyun.

HDInsight mimarisi: Veri bilimi

Hibrit

HdInsight'ı kullanarak mevcut şirket içi büyük veri altyapınızı Azure'a genişletebilirsiniz ve bulutun gelişmiş analiz özelliklerini kullanabilirsiniz.

HDInsight mimarisi: Karma

HDInsight’ta açık kaynak bileşenler

Azure HDInsight Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase ve R gibi açık kaynak çerçevelerle kümeler oluşturmanıza olanak sağlar. Bu kümeler varsayılan olarak kümeye dahil edilen Apache Ambari5, Avro5, Apache Hive3, HCatalog2, Apache Mahout2, Apache Hadoop MapReduce3, Apache Hadoop YARN2, Apache Phoenix3, Apache Pig3, Apache Sqoop3, Apache Tez3, Apache Oozie2 ve Apache ZooKeeper5 gibi diğer açık kaynak bileşenlerle birlikte gelir.

HDInsight’taki programlama dilleri

Spark, HBase, Kafka ve Hadoop gibi HDInsight kümeleri birçok programlama dilini destekler. Bazı programlama dilleri varsayılan olarak yüklü değildir. Varsayılan olarak yüklü olmayan kitaplıklar, modüller veya paketler için, bileşeni yüklemek için bir betik eylemi kullanın.

Programlama dili Bilgi
Varsayılan programlama dili desteği Varsayılan olarak, HDInsight kümeleri aşağıdakileri destekler:
  • Java
  • Python
  • .NET
  • Başlayın
Java sanal makine (JVM) dilleri Java sanal makinelerinde (JVM) Java dışındaki birçok dil çalışabilir. Bununla birlikte, bu dillerden bazılarını çalıştırırsanız kümeye ek bileşenler yüklemeniz gerekebilir. Aşağıdaki JVM tabanlı diller HDInsight kümelerinde desteklenir:
  • Clojure
  • Jython (Java için Python)
  • Scala
Hadoop’a özgü diller HDInsight kümeleri, Hadoop teknoloji yığınına özgü aşağıdaki dilleri destekler:
  • Pig işleri için Pig Latin
  • Hive işleri için HiveQL ve SparkSQL

HDInsight için geliştirme araçları

Azure sayesinde sorunsuz tümleştirmeyle HDInsight veri sorgusu ve işi yazıp göndermek için IntelliJ, Eclipse, Visual Studio Code ve Visual Studio gibi HDInsight geliştirme araçlarını kullanabilirsiniz.

  • IntelliJ10 için Azure araç seti
  • Eclipse6 için Azure araç seti
  • VS Code Azure HDInsight araçları13
  • Visual Studio için Azure Data Lake araçları9

HDInsight’ta İş Zekası

Bilinen iş zekası (BI) araçları, Power Query eklentisini veya Microsoft Hive ODBC sürücüsünü kullanarak HDInsight ile tümleştirilmiş verileri alır, çözümler ve raporlar:

Bölge içinde veri varlığı

Spark, Hadoop, LLAP, Storm ve MLService müşteri verilerini depolamaz, bu nedenle bu hizmetler Güven Merkezi'nde belirtilenler de dahil olmak üzere bölge içinde veri depolama gereksinimlerini otomatik olarak karşılar.

Kafka ve HBase müşteri verilerini depolar. Bu veriler Kafka ve HBase tarafından otomatik olarak tek bir bölgede depolanır, bu nedenle bu hizmet Güven Merkezi'nde belirtilenler de dahil olmak üzere bölge içinde veri bulunarak gereksinimlerini karşılar.

Tanıdık iş zekası (BI) araçları, hdInsight ile tümleştirilmiş verileri almak, analiz etmek ve rapor etmek için Power Query eklentiyi veya Microsoft Hive ODBC Sürücüsü.

Sonraki adımlar