Azure HDInsight 'ta Apache Hadoop nedir?

Kümelerde büyük veri kümelerinin dağıtılmış işlenmesi ve analizine yönelik ilk açık kaynak çerçeve Apache Hadoop’tu. Hadoop ekosistemi Apache Hive, Apache HBase, Spark, Kafka ve diğer birçok tane dahil olmak üzere ilgili yazılım ve yardımcı programları içerir.

Azure HDInsight, kuruluşlar için bulutta tam olarak yönetilen, tam bir açık kaynaklı analiz hizmetidir. Azure HDInsight 'taki Apache Hadoop kümesi türü, toplu verileri paralel olarak işlemek ve analiz etmek için Apache Hadoop Dağıtılmış dosya sistemi (bir) Apache Hadoop, Yarn kaynak yönetimini ve basit bir MapReduce programlama modelini kullanmanıza olanak sağlar. HDInsight 'ta Hadoop kümeleri Azure Blob depolama, Azure Data Lake Storage 1.veya Azure Data Lake Storage 2.uyumludur.

HDInsight üzerindeki kullanılabilir Hadoop teknolojisi yığını bileşenlerini görmek için, bkz. HDInsight ile sağlanan bileşenler ve sürümler. HDInsight'ta Hadoop hakkında daha fazla bilgi edinmek için bkz. HDInsight için Azure özellikleri sayfası.

MapReduce nedir?

MapReduce Apache Hadoop , çok miktarda veriyi işleyen işleri yazmaya yönelik bir yazılım çerçevesidir. Giriş verileri bağımsız parçalara bölünür. Her bir öbek, kümenizdeki düğümler arasında paralel olarak işlenir. MapReduce işi iki işlevden oluşur:

  • Eşleyici: giriş verilerini kullanır, analiz eder (genellikle filtre ve sıralama işlemleriyle birlikte) ve tanımlama gruplarını yayar (anahtar-değer çiftleri)

  • Reducer: Eşleyici tarafından yayılan başlıkları kullanır ve Eşleyici verilerinden daha küçük ve birleştirilmiş bir sonuç oluşturan bir Özet işlem gerçekleştirir

Temel bir sözcük sayısı MapReduce iş örneği aşağıdaki diyagramda gösterilmiştir:

HDI. WordCountDiagram

Bu işin çıkışı, metinde her bir sözcüğün kaç kez oluştuğunu gösteren bir saydır.

  • Eşleyici her satırı giriş metinden girdi olarak alır ve sözcüklere ayırır. Bir sözcüğün her oluşması durumunda 1 ' in ardından bir anahtar/değer çifti yayar. Çıktı, Reducer 'e gönderilmeden önce sıralanır.
  • Reducer, her sözcük için bu ayrı sayıları toplar ve sonra tekrarlarının toplamına göre, sözcüğü içeren tek bir anahtar/değer çifti yayar.

MapReduce, çeşitli dillerde uygulanabilir. Java en yaygın uygulamasıdır ve bu belgede tanıtım amacıyla kullanılır.

Geliştirme dilleri

Java ve Java Sanal Makinesi temel alan diller veya çerçeveler doğrudan MapReduce işiolarak çalıştırılabilir. Bu belgede kullanılan örnek bir Java MapReduce uygulamasıdır. C#, Python veya tek başına yürütülebilir dosyalar gibi Java olmayan diller Hadoop akışını kullanmalıdır.

Hadoop akışı Eşleyici ve Reducer üzerinden STDıN ve STDOUT üzerinden iletişim kurar. Eşleyici ve Reducer verileri STDIN 'den bir kerede bir satıra okur ve çıktıyı STDOUT 'a yazar. Eşleyici ve Reducer tarafından okunan veya yayılan her satır, bir sekme karakteriyle ayrılmış bir anahtar/değer çifti biçiminde olmalıdır:

[key]\t[value]

Daha fazla bilgi için bkz. Hadoop akışı.

HDInsight ile Hadoop akışını kullanma örnekleri için aşağıdaki belgeye bakın:

Nereden başlayabilirim?

Sonraki adımlar