Apache Hadoop, Apache Spark, Apache Kafka ve daha fazlasıyla HDInsight'ta küme oluşturma

HDInsight'ta Apache Hadoop, Apache Spark, Apache Kafka, Interactive Query, Apache HBase veya Apache Storm ayarlamayı ve yapılandırmayı öğrenin. Ayrıca, kümeleri özelleştirmeyi ve bunları bir etki alanına katarak güvenlik eklemeyi öğrenin.

Hadoop kümesi, görevlerin dağıtılmış işlemesi için kullanılan birkaç sanal makineden (düğüm) oluşur. Azure HDInsight düğümlerin yükleme ve yapılandırma ayrıntılarını ele almak için yalnızca genel yapılandırma bilgileri sağlayabilirsiniz.

Önemli

HDInsight kümesi faturalandırması küme oluşturulduğunda başlar ve küme silindiğinde sona erer. Fatura dakikalara eşit olarak dağıtıldığından, kullanılmayan kümelerinizi mutlaka silmelisiniz. Küme silmeyi öğrenin.

Birden çok kümeyi birlikte kullanıyorsanız bir sanal ağ oluşturmak ve Spark kümesi kullanıyorsanız sanal ağı da Hive Warehouse Connector. Daha fazla bilgi için bkz. Azure HDInsight için sanal ağ planlama ve Apache Spark ve Apache Hive ile Hive Warehouse Connector.

Küme kurulum yöntemleri

Aşağıdaki tabloda HDInsight kümesi ayarlamak için kullanabileceğiniz farklı yöntemler yer almaktadır.

Ile oluşturulan kümeler Web tarayıcısı Komut satırı REST API SDK
Azure portalı      
Azure Data Factory
Azure CLI      
Azure PowerShell      
Curl    
Azure Resource Manager şablonları      

Bu makalede, HDInsight kümesi oluştur Azure portal' da kurulum işlemi açıklanmıştır.

Temel Bilgiler

hdinsight oluşturma seçenekleri özel hızlı

Proje ayrıntıları

Azure Resource Manager, uygulamanıza Azure kaynak grubu olarak adlandırılan bir grup olarak çalışmanıza yardımcı olur. Tek bir eşgüdümle işlemle uygulamanızın tüm kaynaklarını dağıtabilirsiniz, güncelleştirebilir, izleyebilir veya silebilirsiniz.

Küme ayrıntıları

Küme adı

HDInsight küme adları aşağıdaki kısıtlamalara sahip:

  • İzin verilen karakterler: a-z, 0-9, A-Z
  • En fazla uzunluk: 59
  • Ayrılmış adlar: uygulamalar
  • Küme adlandırma kapsamı tüm Abonelikler genelinde tüm Azure'a göredir. Bu nedenle küme adı dünya çapında benzersiz olmalıdır.
  • İlk altı karakter bir sanal ağ içinde benzersiz olmalıdır

Region

Küme konumunu açıkça belirtmeniz gerekmez: Küme, varsayılan depolama alanıyla aynı konumdadır. Desteklenen bölgelerin listesi için HDInsightfiyatlandırması'nın Bölge açılan listesini seçin.

Küme türü

Azure HDInsight, her biri belirli işlevleri sağlamak için bir dizi bileşenle birlikte aşağıdaki küme türlerini sağlar.

Önemli

HDInsight kümeleri, her biri tek bir iş yükü veya teknoloji için olmak üzere çeşitli türlerde kullanılabilir. Storm ve HBase gibi birden çok türü tek bir kümede birleştiren bir küme oluşturmak için desteklenen bir yöntem yoktur. Çözümünüz birden çok HDInsight küme türüne yayılmış teknolojiler gerektiriyorsa, bir Azure sanal ağı gerekli küme türlerini bağ olabilir.

Küme türü İşlev
Hadoop Toplu sorgu ve depolanan verilerin analizi
HBase Büyük miktarlarda şemasız, NoSQL verileri için işleme
Interactive Query Etkileşimli ve daha hızlı Hive sorguları için bellek içinde önbelleğe alma
Kafka Gerçek zamanlı akış veri işlem hatları ve uygulamaları oluşturmak için kullanılmaktadır dağıtılmış akış platformu
Spark Bellek içinde işleme, etkileşimli sorgular, mikro toplu akış işleme
Storm Gerçek zamanlı olay işleme

Sürüm

Bu küme için HDInsight sürümünü seçin. Daha fazla bilgi için bkz. Desteklenen HDInsight sürümleri.

Küme kimlik bilgileri

HDInsight kümeleri ile, küme oluşturma sırasında iki kullanıcı hesabı yapılandırabilirsiniz:

  • Küme oturum açma kullanıcı adı: Varsayılan kullanıcı adı yöneticidir. Uygulamanın temel yapılandırmasını Azure portal. Bazen "Küme kullanıcısı" veya "HTTP kullanıcısı" olarak da adlandırılan bir uygulamadır.
  • Secure Shell (SSH) kullanıcı adı: SSH aracılığıyla kümeye bağlanmak için kullanılır. Daha fazla bilgi için bkz. HDInsight ile SSH kullanma.

HTTP kullanıcı adı aşağıdaki kısıtlamalara sahip:

  • İzin verilen özel karakterler: _ ve @
  • İzin verilmiyor: #;."', / :'!*?$() {} []<>|&--=+%~^boşluk
  • En fazla uzunluk: 20

SSH kullanıcı adı aşağıdaki kısıtlamalara sahip:

  • İzin verilen özel karakterler: _ ve @
  • İzin verilmiyor: #;."', / :'!*?$() {} []<>|&--=+%~^boşluk
  • En fazla uzunluk: 64
  • Ayrılmış adlar: hadoop, kullanıcılar, oozie, hive, mapred, ambari-qa, zookeeper, tez, hdfs, sqoop, yarn, hcat, ams, hbase, storm, administrator, admin, user, user, user1, test, user3, admin1, 1, 123, a, actuser, adm, admin2, aspnet, backup, console, david, guest, john, owner, root, server, sql, support, support_388945a0, sys, test2, test3, user4, user5, spark

Depolama

Küme depolama ayarları: HDFS ile uyumlu uç noktalar

Hadoop'un şirket içi yüklemesi kümede depolama için Hadoop Dağıtılmış Dosya Sistemi (HDFS) kullansa da, bulutta kümeye bağlı depolama uç noktalarını kullanırsınız. Bulut depolamayı kullanmak, verilerinizi korurken hesaplama için kullanılan HDInsight kümelerini güvenli bir şekilde silebilirsiniz.

HDInsight kümeleri aşağıdaki depolama seçeneklerini kullanabilir:

  • Azure Data Lake Storage Gen2
  • Azure Data Lake Storage Gen1
  • Azure Depolama Genel Amaçlı v2
  • Azure Depolama Genel Amaçlı v1
  • Azure Depolama Blok blobu (yalnızca ikincil depolama olarak desteklenen)

HDInsight ile depolama seçenekleri hakkında daha fazla bilgi için bkz. Kümelerle kullanım için depolama Azure HDInsight karşılaştırma.

Uyarı

HDInsight kümesinden farklı bir konumda ek depolama hesabı kullanmak desteklenmez.

Yapılandırma sırasında, varsayılan depolama uç noktası için Azure Depolama hesabının veya Data Lake Depolama. Varsayılan depolama alanı uygulama ve sistem günlüklerini içerir. İsteğe bağlı olarak, ek bağlı Azure Depolama hesapları ve kümenin Depolama Data Lake Depolama hesapları belirtebilirsiniz. HDInsight kümesi ve bağımlı depolama hesapları aynı Azure konumda olmalıdır.

Not

Güvenli aktarım gerektiren özellik, güvenli bir bağlantı aracılığıyla hesabınıza yapılan tüm istekleri zorlar. Bu özelliği yalnızca HDInsight kümesi sürüm 3.6 veya daha yenisi destekler. Daha fazla bilgi için bkz. Azure HDInsight'de güvenli aktarım depolama hesaplarıyla Apache Hadoop kümesi oluşturma.

Önemli

Küme oluşturdukta güvenli depolama aktarımının etkinleştirilmesi, depolama hesabınız kullanılarak hatalara neden olabilir ve önerilmez. Güvenli aktarım zaten etkinleştirilmiş bir depolama hesabı kullanarak yeni bir küme oluşturmak daha iyidir.

Not

Azure HDInsight, Azure'da depolanan verilerinizi bir bölgeden diğerine Depolama, taşımaz veya kopyalamaz.

Meta veri deposu ayarları

İsteğe bağlı Hive veya Apache Oozie meta veri deposu oluşturabilirsiniz. Ancak, tüm küme türleri meta veri deposu desteklemez ve Azure Synapse Analytics meta veri deposuyla uyumlu değildir.

Daha fazla bilgi için bkz. Dış meta veri depolarını Azure HDInsight.

Önemli

Özel bir meta veri deposu oluşturduktan sonra veritabanı adı içinde tire, kısa çizgi veya boşluk kullanmayın. Bu, küme oluşturma işleminin başarısız olmasına neden olabilir.

Hive SQL veritabanı oluşturma

HdInsight kümesi sildikten sonra Hive tablolarınızı korumak için özel bir meta veri deposu kullanın. Daha sonra meta veri deposu başka bir HDInsight kümesine iliştirin.

Bir HDInsight kümesi sürümü için oluşturulan bir HDInsight meta veri deposu, farklı HDInsight küme sürümleri arasında paylaşılamaz. HDInsight sürümlerinin listesi için bkz. Desteklenen HDInsight sürümleri.

Önemli

Varsayılan meta veri deposu, Azure SQL Veritabanı katman 5 DTU sınırı (yükseltilemez) ile bir bağlantı sağlar! Temel test amaçları için uygundur. Büyük veya üretim iş yükleri için bir dış meta veri deposuna öneriyoruz.

Oozie SQL veritabanı

Oozie kullanırken performansı artırmak için özel bir meta veri deposu kullanın. Bir meta veri deposu, kümenizi sildikten sonra Oozie iş verilerine erişim de sağlar.

Ambari SQL veritabanı oluşturma

HDInsight kümelerini izlemek, yapılandırma değişiklikleri yapmak ve küme yönetimi bilgilerini ve iş geçmişini depolamak için Ambari kullanılır. Özel Ambari DB özelliği, yeni bir küme dağıtmanızı ve Ambari'yi sizin yönetmenizi dış bir veritabanına ayarlamanızı sağlar. Daha fazla bilgi için bkz. Özel Ambari DB.

Önemli

Özel bir Oozie meta veri deposu yeniden kullanılamaz. Özel bir Oozie meta veri deposu kullanmak için HDInsight kümesi Azure SQL Veritabanı boş bir depolama alanı sağlamış olun.

Güvenlik ve ağ

hdinsight oluşturma seçenekleri kurumsal güvenlik paketi seçme

Enterprise paketi

Hadoop, Spark, HBase, Kafka ve Interactive Query küme türleri için, Enterprise Güvenlik Paketi'ni etkinleştirmeyi seçebilirsiniz. Bu paket, Apache Ranger kullanarak daha güvenli bir küme kurulumuna sahip olmak ve bu kümelerle tümleştirerek daha güvenli bir Azure Active Directory. Daha fazla bilgi için bkz. Azure HDInsight.

Güvenlik Enterprise paketi HDInsight'ı Active Directory ve Apache Ranger ile tümleştirebilirsiniz. Güvenlik paketi kullanılarak birden çok Enterprise oluşturulabilir.

Etki alanına katılmış HDInsight kümesi oluşturma hakkında daha fazla bilgi için bkz. Etki alanına katılmış HDInsight korumalı alan ortamı oluşturma.

TLS

Daha fazla bilgi için bkz. Aktarım Katmanı Güvenliği

Sanal ağ

Çözümünüz birden çok HDInsight küme türüne yayılmış teknolojiler gerektiriyorsa, bir Azure sanal ağı gerekli küme türlerini bağ olabilir. Bu yapılandırma, kümelerin ve bu kümelere dağıtan tüm kodun birbirleriyle doğrudan iletişim kurmasına olanak sağlar.

HDInsight ile Azure sanal ağı kullanma hakkında daha fazla bilgi için bkz. HDInsight için sanal ağ planlama.

Bir Azure sanal ağı içinde iki küme türü kullanma örneği için bkz. Apache Spark ile Yapılandırılmış Akış Apache Kafka. Sanal ağ için belirli yapılandırma gereksinimleri de dahil olmak üzere bir sanal ağ ile HDInsight kullanma hakkında daha fazla bilgi için bkz. HDInsightiçin sanal ağ planlama.

Disk şifreleme ayarı

Daha fazla bilgi için bkz. Müşteri tarafından yönetilen anahtar disk şifrelemesi.

Kafka REST ara sunucusu

Bu ayar yalnızca Kafka küme türü için kullanılabilir. Daha fazla bilgi için bkz. REST ara sunucusu kullanma.

Kimlik

Daha fazla bilgi için bkz. Azure HDInsight.

Yapılandırma + fiyatlandırma

HDInsight düğüm boyutu seçin

Küme mevcut olduğu sürece düğüm kullanımı için faturalandırabilirsiniz. Faturalandırma, bir küme oluşturulduğunda başlar ve küme silindiğinde durur. Kümeler için ayrılanlar veya basılı tutunmaları gerekir.

Düğüm yapılandırması

Her küme türünün kendi düğüm sayısı, düğümler için terminoloji ve varsayılan VM boyutu vardır. Aşağıdaki tabloda, her düğüm türü için düğüm sayısı parantez içindedir.

Tür Düğümler Diyagram
Hadoop Baş düğüm (2), Çalışan düğümü (1+) HDInsight Hadoop küme düğümleri
HBase Baş sunucu (2), bölge sunucusu (1+), ana/ZooKeeper düğümü (3) HDInsight HBase küme türü kurulumu
Storm Nimbus düğümü (2), gözetmen sunucusu (1+), ZooKeeper düğümü (3) HDInsight storm küme türü kurulumu
Spark Baş düğüm (2), Çalışan düğümü (1+), ZooKeeper düğümü (3) (A1 ZooKeeper VM boyutu için ücretsiz) HDInsight spark küme türü kurulumu

Daha fazla bilgi için "HDInsight'ta Hadoop bileşenleri ve sürümleri nedir?" içinde kümeler için varsayılan düğüm yapılandırması ve sanal makine boyutları bölümüne bakın.

HDInsight kümelerinin maliyeti düğüm sayısına ve düğümler için sanal makine boyutlarına göre belirlenir.

Farklı küme türleri farklı düğüm türlerine, düğüm sayısına ve düğüm boyutlarına sahiptir:

  • Hadoop küme türü varsayılan:
    • İki baş düğüm
    • Dört Çalışan düğümü
  • Storm küme türü varsayılan:
    • İki Nimbus düğümü
    • Üç ZooKeeper düğümü
    • Dört gözetmen düğümü

YALNıZCA HDInsight'ı denmeye çalışıyorsanız, tek bir Çalışan düğümü kullanmanizi öneririz. HDInsight fiyatlandırması hakkında daha fazla bilgi için bkz. HDInsight fiyatlandırması.

Not

Küme boyutu sınırı, Azure abonelikleri arasında değişir. Sınırı artırmak için Azure faturalama desteğine başvurun.

Kümeyi yapılandırmak Azure portal düğüm boyutunu Yapılandırma + fiyatlandırma sekmesinden kullanabilirsiniz. Portalda farklı düğüm boyutlarıyla ilişkili maliyeti de bulabilirsiniz.

Sanal makine boyutları

Kümeleri dağıtırken, dağıtmayı plan seçtiğiniz çözüme göre işlem kaynaklarını seçin. HDInsight kümeleri için aşağıdaki VM'ler kullanılır:

Farklı VM'leri kullanarak veya vm'leri kullanırken bir küme oluştururken VM boyutunu belirtmek için hangi değeri Azure PowerShell, bkz. HDInsightkümeleri için kullanmak üzere VM boyutları. Bu bağlantılı makalede tabloların Boyut sütunundaki değeri kullanın.

Önemli

Bir kümede 32'den fazla Çalışan düğümüne ihtiyacınız varsa, en az 8 çekirdek ve 14 GB RAM'e sahip bir baş düğüm boyutu seçmeniz gerekir.

Daha fazla bilgi için bkz. Sanal makinelerin boyutları. Çeşitli boyutların fiyatlandırması hakkında bilgi için bkz. HDInsight fiyatlandırması.

Uygulama ekleme

HDInsight uygulaması kullanıcıların Linux tabanlı HDInsight kümesine yükleyebileceği bir uygulamadır. Microsoft, üçüncü taraflar veya kendi geliştirdiğiniz uygulamaları kullanabilirsiniz. Daha fazla bilgi için bkz. Üçüncü taraf Apache Hadoop uygulamalarını Azure HDInsight.

HDInsight uygulamalarının çoğu boş bir kenar düğümüne yüklenir. Boş bir kenar düğümü, baş düğümde olduğu gibi aynı istemci araçlarının yüklü ve yapılandırılmış olduğu bir Linux sanal makinesidir. Küme erişimi, istemci uygulamalarınızı test etmek ve istemci uygulamalarınızı barındırmak için kenar düğümünü kullanabilirsiniz. Daha fazla bilgi için bkz. HDInsight 'ta boş kenar düğümlerini kullanma.

Betik eylemleri

Oluşturma sırasında betikleri kullanarak ek bileşenler yükleyebilir veya küme yapılandırmasını özelleştirebilirsiniz. bu komut dosyaları, Azure portal, hdınsight Windows PowerShell cmdlet 'leri veya hdınsight .net SDK 'dan kullanılabilen bir yapılandırma seçeneği olan betik eylemi aracılığıyla çağrılır. Daha fazla bilgi için bkz. betik eylemini kullanarak HDInsight kümesini özelleştirme.

Apache Mahout ve basamaklı gibi bazı yerel Java bileşenleri, küme üzerinde Java arşivi (JAR) dosyaları olarak çalıştırılabilir. bu JAR dosyaları Azure Depolama dağıtılabilir ve Hadoop iş gönderme mekanizmalarıyla hdınsight kümelerine gönderilebilir. Daha fazla bilgi için bkz. Apache Hadoop işleri programlı olarak gönderme.

Not

JAR dosyalarını HDInsight kümelerine dağıtmaya veya HDInsight kümelerinde JAR dosyalarını çağırmaya sorunlarınız varsa Microsoft desteğibaşvurun.

HDInsight, HDInsight tarafından desteklenmez ve Microsoft Desteği için uygun değildir. Desteklenen bileşenlerin listesi için bkz. HDInsight tarafından sunulan küme sürümlerindekiyenilikler.

Bazen, oluşturma işlemi sırasında aşağıdaki yapılandırma dosyalarını yapılandırmak isteyebilirsiniz:

  • clusterIdentity.xml
  • core-site.xml
  • gateway.xml
  • hbase-env.xml
  • hbase-site.xml
  • hdfs-site.xml
  • hive-env.xml
  • hive-site.xml
  • mapred-site
  • oozie-site.xml
  • oozie-env.xml
  • storm-site.xml
  • tez-site.xml
  • webhcat-site.xml
  • yarn-site.xml

Daha fazla bilgi için bkz. önyükleme kullanarak HDInsight kümelerini özelleştirme.

Sonraki adımlar