Apache Hadoop, Apache Spark, Apache Kafka ve daha fazlasıyla HDInsight'ta küme oluşturma
HDInsight'ta Apache Hadoop, Apache Spark, Apache Kafka, Interactive Query, Apache HBase veya Apache Storm ayarlamayı ve yapılandırmayı öğrenin. Ayrıca, kümeleri özelleştirmeyi ve bunları bir etki alanına katarak güvenlik eklemeyi öğrenin.
Hadoop kümesi, görevlerin dağıtılmış işlemesi için kullanılan birkaç sanal makineden (düğüm) oluşur. Azure HDInsight düğümlerin yükleme ve yapılandırma ayrıntılarını ele almak için yalnızca genel yapılandırma bilgileri sağlayabilirsiniz.
Önemli
HDInsight kümesi faturalandırması küme oluşturulduğunda başlar ve küme silindiğinde sona erer. Fatura dakikalara eşit olarak dağıtıldığından, kullanılmayan kümelerinizi mutlaka silmelisiniz. Küme silmeyi öğrenin.
Birden çok kümeyi birlikte kullanıyorsanız bir sanal ağ oluşturmak ve Spark kümesi kullanıyorsanız sanal ağı da Hive Warehouse Connector. Daha fazla bilgi için bkz. Azure HDInsight için sanal ağ planlama ve Apache Spark ve Apache Hive ile Hive Warehouse Connector.
Küme kurulum yöntemleri
Aşağıdaki tabloda HDInsight kümesi ayarlamak için kullanabileceğiniz farklı yöntemler yer almaktadır.
| Ile oluşturulan kümeler | Web tarayıcısı | Komut satırı | REST API | SDK |
|---|---|---|---|---|
| Azure portalı | ✅ | |||
| Azure Data Factory | ✅ | ✅ | ✅ | ✅ |
| Azure CLI | ✅ | |||
| Azure PowerShell | ✅ | |||
| Curl | ✅ | ✅ | ||
| Azure Resource Manager şablonları | ✅ |
Bu makalede, HDInsight kümesi oluştur Azure portal' da kurulum işlemi açıklanmıştır.
Temel Bilgiler
Proje ayrıntıları
Azure Resource Manager, uygulamanıza Azure kaynak grubu olarak adlandırılan bir grup olarak çalışmanıza yardımcı olur. Tek bir eşgüdümle işlemle uygulamanızın tüm kaynaklarını dağıtabilirsiniz, güncelleştirebilir, izleyebilir veya silebilirsiniz.
Küme ayrıntıları
Küme adı
HDInsight küme adları aşağıdaki kısıtlamalara sahip:
- İzin verilen karakterler: a-z, 0-9, A-Z
- En fazla uzunluk: 59
- Ayrılmış adlar: uygulamalar
- Küme adlandırma kapsamı tüm Abonelikler genelinde tüm Azure'a göredir. Bu nedenle küme adı dünya çapında benzersiz olmalıdır.
- İlk altı karakter bir sanal ağ içinde benzersiz olmalıdır
Region
Küme konumunu açıkça belirtmeniz gerekmez: Küme, varsayılan depolama alanıyla aynı konumdadır. Desteklenen bölgelerin listesi için HDInsightfiyatlandırması'nın Bölge açılan listesini seçin.
Küme türü
Azure HDInsight, her biri belirli işlevleri sağlamak için bir dizi bileşenle birlikte aşağıdaki küme türlerini sağlar.
Önemli
HDInsight kümeleri, her biri tek bir iş yükü veya teknoloji için olmak üzere çeşitli türlerde kullanılabilir. Storm ve HBase gibi birden çok türü tek bir kümede birleştiren bir küme oluşturmak için desteklenen bir yöntem yoktur. Çözümünüz birden çok HDInsight küme türüne yayılmış teknolojiler gerektiriyorsa, bir Azure sanal ağı gerekli küme türlerini bağ olabilir.
| Küme türü | İşlev |
|---|---|
| Hadoop | Toplu sorgu ve depolanan verilerin analizi |
| HBase | Büyük miktarlarda şemasız, NoSQL verileri için işleme |
| Interactive Query | Etkileşimli ve daha hızlı Hive sorguları için bellek içinde önbelleğe alma |
| Kafka | Gerçek zamanlı akış veri işlem hatları ve uygulamaları oluşturmak için kullanılmaktadır dağıtılmış akış platformu |
| Spark | Bellek içinde işleme, etkileşimli sorgular, mikro toplu akış işleme |
| Storm | Gerçek zamanlı olay işleme |
Sürüm
Bu küme için HDInsight sürümünü seçin. Daha fazla bilgi için bkz. Desteklenen HDInsight sürümleri.
Küme kimlik bilgileri
HDInsight kümeleri ile, küme oluşturma sırasında iki kullanıcı hesabı yapılandırabilirsiniz:
- Küme oturum açma kullanıcı adı: Varsayılan kullanıcı adı yöneticidir. Uygulamanın temel yapılandırmasını Azure portal. Bazen "Küme kullanıcısı" veya "HTTP kullanıcısı" olarak da adlandırılan bir uygulamadır.
- Secure Shell (SSH) kullanıcı adı: SSH aracılığıyla kümeye bağlanmak için kullanılır. Daha fazla bilgi için bkz. HDInsight ile SSH kullanma.
HTTP kullanıcı adı aşağıdaki kısıtlamalara sahip:
- İzin verilen özel karakterler:
_ve@ - İzin verilmiyor: #;."', / :'!*?$() {} []<>|&--=+%~^boşluk
- En fazla uzunluk: 20
SSH kullanıcı adı aşağıdaki kısıtlamalara sahip:
- İzin verilen özel karakterler:
_ve@ - İzin verilmiyor: #;."', / :'!*?$() {} []<>|&--=+%~^boşluk
- En fazla uzunluk: 64
- Ayrılmış adlar: hadoop, kullanıcılar, oozie, hive, mapred, ambari-qa, zookeeper, tez, hdfs, sqoop, yarn, hcat, ams, hbase, storm, administrator, admin, user, user, user1, test, user3, admin1, 1, 123, a, actuser, adm, admin2, aspnet, backup, console, david, guest, john, owner, root, server, sql, support, support_388945a0, sys, test2, test3, user4, user5, spark
Depolama
Hadoop'un şirket içi yüklemesi kümede depolama için Hadoop Dağıtılmış Dosya Sistemi (HDFS) kullansa da, bulutta kümeye bağlı depolama uç noktalarını kullanırsınız. Bulut depolamayı kullanmak, verilerinizi korurken hesaplama için kullanılan HDInsight kümelerini güvenli bir şekilde silebilirsiniz.
HDInsight kümeleri aşağıdaki depolama seçeneklerini kullanabilir:
- Azure Data Lake Storage Gen2
- Azure Data Lake Storage Gen1
- Azure Depolama Genel Amaçlı v2
- Azure Depolama Genel Amaçlı v1
- Azure Depolama Blok blobu (yalnızca ikincil depolama olarak desteklenen)
HDInsight ile depolama seçenekleri hakkında daha fazla bilgi için bkz. Kümelerle kullanım için depolama Azure HDInsight karşılaştırma.
Uyarı
HDInsight kümesinden farklı bir konumda ek depolama hesabı kullanmak desteklenmez.
Yapılandırma sırasında, varsayılan depolama uç noktası için Azure Depolama hesabının veya Data Lake Depolama. Varsayılan depolama alanı uygulama ve sistem günlüklerini içerir. İsteğe bağlı olarak, ek bağlı Azure Depolama hesapları ve kümenin Depolama Data Lake Depolama hesapları belirtebilirsiniz. HDInsight kümesi ve bağımlı depolama hesapları aynı Azure konumda olmalıdır.
Not
Güvenli aktarım gerektiren özellik, güvenli bir bağlantı aracılığıyla hesabınıza yapılan tüm istekleri zorlar. Bu özelliği yalnızca HDInsight kümesi sürüm 3.6 veya daha yenisi destekler. Daha fazla bilgi için bkz. Azure HDInsight'de güvenli aktarım depolama hesaplarıyla Apache Hadoop kümesi oluşturma.
Önemli
Küme oluşturdukta güvenli depolama aktarımının etkinleştirilmesi, depolama hesabınız kullanılarak hatalara neden olabilir ve önerilmez. Güvenli aktarım zaten etkinleştirilmiş bir depolama hesabı kullanarak yeni bir küme oluşturmak daha iyidir.
Not
Azure HDInsight, Azure'da depolanan verilerinizi bir bölgeden diğerine Depolama, taşımaz veya kopyalamaz.
Meta veri deposu ayarları
İsteğe bağlı Hive veya Apache Oozie meta veri deposu oluşturabilirsiniz. Ancak, tüm küme türleri meta veri deposu desteklemez ve Azure Synapse Analytics meta veri deposuyla uyumlu değildir.
Daha fazla bilgi için bkz. Dış meta veri depolarını Azure HDInsight.
Önemli
Özel bir meta veri deposu oluşturduktan sonra veritabanı adı içinde tire, kısa çizgi veya boşluk kullanmayın. Bu, küme oluşturma işleminin başarısız olmasına neden olabilir.
Hive SQL veritabanı oluşturma
HdInsight kümesi sildikten sonra Hive tablolarınızı korumak için özel bir meta veri deposu kullanın. Daha sonra meta veri deposu başka bir HDInsight kümesine iliştirin.
Bir HDInsight kümesi sürümü için oluşturulan bir HDInsight meta veri deposu, farklı HDInsight küme sürümleri arasında paylaşılamaz. HDInsight sürümlerinin listesi için bkz. Desteklenen HDInsight sürümleri.
Önemli
Varsayılan meta veri deposu, Azure SQL Veritabanı katman 5 DTU sınırı (yükseltilemez) ile bir bağlantı sağlar! Temel test amaçları için uygundur. Büyük veya üretim iş yükleri için bir dış meta veri deposuna öneriyoruz.
Oozie SQL veritabanı
Oozie kullanırken performansı artırmak için özel bir meta veri deposu kullanın. Bir meta veri deposu, kümenizi sildikten sonra Oozie iş verilerine erişim de sağlar.
Ambari SQL veritabanı oluşturma
HDInsight kümelerini izlemek, yapılandırma değişiklikleri yapmak ve küme yönetimi bilgilerini ve iş geçmişini depolamak için Ambari kullanılır. Özel Ambari DB özelliği, yeni bir küme dağıtmanızı ve Ambari'yi sizin yönetmenizi dış bir veritabanına ayarlamanızı sağlar. Daha fazla bilgi için bkz. Özel Ambari DB.
Önemli
Özel bir Oozie meta veri deposu yeniden kullanılamaz. Özel bir Oozie meta veri deposu kullanmak için HDInsight kümesi Azure SQL Veritabanı boş bir depolama alanı sağlamış olun.
Güvenlik ve ağ
Enterprise paketi
Hadoop, Spark, HBase, Kafka ve Interactive Query küme türleri için, Enterprise Güvenlik Paketi'ni etkinleştirmeyi seçebilirsiniz. Bu paket, Apache Ranger kullanarak daha güvenli bir küme kurulumuna sahip olmak ve bu kümelerle tümleştirerek daha güvenli bir Azure Active Directory. Daha fazla bilgi için bkz. Azure HDInsight.
Güvenlik Enterprise paketi HDInsight'ı Active Directory ve Apache Ranger ile tümleştirebilirsiniz. Güvenlik paketi kullanılarak birden çok Enterprise oluşturulabilir.
Etki alanına katılmış HDInsight kümesi oluşturma hakkında daha fazla bilgi için bkz. Etki alanına katılmış HDInsight korumalı alan ortamı oluşturma.
TLS
Daha fazla bilgi için bkz. Aktarım Katmanı Güvenliği
Sanal ağ
Çözümünüz birden çok HDInsight küme türüne yayılmış teknolojiler gerektiriyorsa, bir Azure sanal ağı gerekli küme türlerini bağ olabilir. Bu yapılandırma, kümelerin ve bu kümelere dağıtan tüm kodun birbirleriyle doğrudan iletişim kurmasına olanak sağlar.
HDInsight ile Azure sanal ağı kullanma hakkında daha fazla bilgi için bkz. HDInsight için sanal ağ planlama.
Bir Azure sanal ağı içinde iki küme türü kullanma örneği için bkz. Apache Spark ile Yapılandırılmış Akış Apache Kafka. Sanal ağ için belirli yapılandırma gereksinimleri de dahil olmak üzere bir sanal ağ ile HDInsight kullanma hakkında daha fazla bilgi için bkz. HDInsightiçin sanal ağ planlama.
Disk şifreleme ayarı
Daha fazla bilgi için bkz. Müşteri tarafından yönetilen anahtar disk şifrelemesi.
Kafka REST ara sunucusu
Bu ayar yalnızca Kafka küme türü için kullanılabilir. Daha fazla bilgi için bkz. REST ara sunucusu kullanma.
Kimlik
Daha fazla bilgi için bkz. Azure HDInsight.
Yapılandırma + fiyatlandırma
Küme mevcut olduğu sürece düğüm kullanımı için faturalandırabilirsiniz. Faturalandırma, bir küme oluşturulduğunda başlar ve küme silindiğinde durur. Kümeler için ayrılanlar veya basılı tutunmaları gerekir.
Düğüm yapılandırması
Her küme türünün kendi düğüm sayısı, düğümler için terminoloji ve varsayılan VM boyutu vardır. Aşağıdaki tabloda, her düğüm türü için düğüm sayısı parantez içindedir.
| Tür | Düğümler | Diyagram |
|---|---|---|
| Hadoop | Baş düğüm (2), Çalışan düğümü (1+) |
|
| HBase | Baş sunucu (2), bölge sunucusu (1+), ana/ZooKeeper düğümü (3) |
|
| Storm | Nimbus düğümü (2), gözetmen sunucusu (1+), ZooKeeper düğümü (3) |
|
| Spark | Baş düğüm (2), Çalışan düğümü (1+), ZooKeeper düğümü (3) (A1 ZooKeeper VM boyutu için ücretsiz) |
|
Daha fazla bilgi için "HDInsight'ta Hadoop bileşenleri ve sürümleri nedir?" içinde kümeler için varsayılan düğüm yapılandırması ve sanal makine boyutları bölümüne bakın.
HDInsight kümelerinin maliyeti düğüm sayısına ve düğümler için sanal makine boyutlarına göre belirlenir.
Farklı küme türleri farklı düğüm türlerine, düğüm sayısına ve düğüm boyutlarına sahiptir:
- Hadoop küme türü varsayılan:
- İki baş düğüm
- Dört Çalışan düğümü
- Storm küme türü varsayılan:
- İki Nimbus düğümü
- Üç ZooKeeper düğümü
- Dört gözetmen düğümü
YALNıZCA HDInsight'ı denmeye çalışıyorsanız, tek bir Çalışan düğümü kullanmanizi öneririz. HDInsight fiyatlandırması hakkında daha fazla bilgi için bkz. HDInsight fiyatlandırması.
Not
Küme boyutu sınırı, Azure abonelikleri arasında değişir. Sınırı artırmak için Azure faturalama desteğine başvurun.
Kümeyi yapılandırmak Azure portal düğüm boyutunu Yapılandırma + fiyatlandırma sekmesinden kullanabilirsiniz. Portalda farklı düğüm boyutlarıyla ilişkili maliyeti de bulabilirsiniz.
Sanal makine boyutları
Kümeleri dağıtırken, dağıtmayı plan seçtiğiniz çözüme göre işlem kaynaklarını seçin. HDInsight kümeleri için aşağıdaki VM'ler kullanılır:
- A ve D1-4 serisi VM'ler: Genel amaçlı Linux VM boyutları
- D11-14 serisi VM: Bellek için iyileştirilmiş Linux VM boyutları
Farklı VM'leri kullanarak veya vm'leri kullanırken bir küme oluştururken VM boyutunu belirtmek için hangi değeri Azure PowerShell, bkz. HDInsightkümeleri için kullanmak üzere VM boyutları. Bu bağlantılı makalede tabloların Boyut sütunundaki değeri kullanın.
Önemli
Bir kümede 32'den fazla Çalışan düğümüne ihtiyacınız varsa, en az 8 çekirdek ve 14 GB RAM'e sahip bir baş düğüm boyutu seçmeniz gerekir.
Daha fazla bilgi için bkz. Sanal makinelerin boyutları. Çeşitli boyutların fiyatlandırması hakkında bilgi için bkz. HDInsight fiyatlandırması.
Uygulama ekleme
HDInsight uygulaması kullanıcıların Linux tabanlı HDInsight kümesine yükleyebileceği bir uygulamadır. Microsoft, üçüncü taraflar veya kendi geliştirdiğiniz uygulamaları kullanabilirsiniz. Daha fazla bilgi için bkz. Üçüncü taraf Apache Hadoop uygulamalarını Azure HDInsight.
HDInsight uygulamalarının çoğu boş bir kenar düğümüne yüklenir. Boş bir kenar düğümü, baş düğümde olduğu gibi aynı istemci araçlarının yüklü ve yapılandırılmış olduğu bir Linux sanal makinesidir. Küme erişimi, istemci uygulamalarınızı test etmek ve istemci uygulamalarınızı barındırmak için kenar düğümünü kullanabilirsiniz. Daha fazla bilgi için bkz. HDInsight 'ta boş kenar düğümlerini kullanma.
Betik eylemleri
Oluşturma sırasında betikleri kullanarak ek bileşenler yükleyebilir veya küme yapılandırmasını özelleştirebilirsiniz. bu komut dosyaları, Azure portal, hdınsight Windows PowerShell cmdlet 'leri veya hdınsight .net SDK 'dan kullanılabilen bir yapılandırma seçeneği olan betik eylemi aracılığıyla çağrılır. Daha fazla bilgi için bkz. betik eylemini kullanarak HDInsight kümesini özelleştirme.
Apache Mahout ve basamaklı gibi bazı yerel Java bileşenleri, küme üzerinde Java arşivi (JAR) dosyaları olarak çalıştırılabilir. bu JAR dosyaları Azure Depolama dağıtılabilir ve Hadoop iş gönderme mekanizmalarıyla hdınsight kümelerine gönderilebilir. Daha fazla bilgi için bkz. Apache Hadoop işleri programlı olarak gönderme.
Not
JAR dosyalarını HDInsight kümelerine dağıtmaya veya HDInsight kümelerinde JAR dosyalarını çağırmaya sorunlarınız varsa Microsoft desteğibaşvurun.
HDInsight, HDInsight tarafından desteklenmez ve Microsoft Desteği için uygun değildir. Desteklenen bileşenlerin listesi için bkz. HDInsight tarafından sunulan küme sürümlerindekiyenilikler.
Bazen, oluşturma işlemi sırasında aşağıdaki yapılandırma dosyalarını yapılandırmak isteyebilirsiniz:
- clusterIdentity.xml
- core-site.xml
- gateway.xml
- hbase-env.xml
- hbase-site.xml
- hdfs-site.xml
- hive-env.xml
- hive-site.xml
- mapred-site
- oozie-site.xml
- oozie-env.xml
- storm-site.xml
- tez-site.xml
- webhcat-site.xml
- yarn-site.xml
Daha fazla bilgi için bkz. önyükleme kullanarak HDInsight kümelerini özelleştirme.