Hızlı Başlangıç: Azure HDInsight kullanarak Azure HDInsight Apache Hadoop kümesi Azure portal
Bu makalede, Azure portal kullanarak HDInsight'ta Apache Hadoop kümeleri oluşturma ve ardından HDInsight'ta Apache Hive işleri çalıştırma hakkında bilgi edineceksiniz. Hadoop işlerinin çoğu toplu işlemdir. Bir küme oluşturur, bazı işleri çalıştırır ve kümeyi silersiniz. Bu makalede, üç görevi de gerçekleştirirsiniz. Kullanılabilir yapılandırmaların ayrıntılı açıklamaları için bkz. HDInsight'ta kümeleri ayarlama. Portalın küme oluşturmak için kullanımı hakkında daha fazla bilgi için bkz. Portalda küme oluşturma.
Bu hızlı başlangıçta, HDInsight Hadoop kümesi oluşturmak için Azure portalını kullanırsınız. Azure Resource Manager şablonunu kullanarak da küme oluşturabilirsiniz.
HdInsight şu anda yedi farklı küme türüyle birlikte gelir. Her küme türü farklı bir bileşen kümesini destekler. Tüm küme türleri Hive'ı destekler. HDInsight'ta desteklenen bileşenlerin listesi için bkz. HDInsight tarafından sağlanan Apache Hadoop küme sürümlerindeki güncelleştirmeler.
Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.
Apache Hadoop kümesi oluşturma
Bu bölümde, Azure portalını kullanarak HDInsight’ta Hadoop kümesi oluşturursunuz.
Üst menüden + Kaynak oluştur'a tıklayın.
-
HDInsight Azure HDInsight oluştur sayfasına gitmek için Analytics Azure HDInsight'yi seçin.
Temel Bilgiler sekmesinde aşağıdaki bilgileri ekleyin:
Özellik Açıklama Abonelik Açılan listeden küme için kullanılan Azure aboneliğini seçin. Kaynak grubu Açılan listeden mevcut kaynak grubularınızı seçin veya Yeni oluştur'a tıklayın. Küme adı Genel olarak benzersiz bir ad girin. Ad harf, sayı ve kısa çizgi dahil olmak üzere en fazla 59 karakterden oluşur. Adın ilk ve son karakterleri kısa çizgi olamaz. Region Açılan listeden kümenin oluşturulacak bölgeyi seçin. Daha iyi performans için kendinize yakın bir konum seçin. Küme türü Küme türünü seçin'i seçin. Ardından küme türü olarak Hadoop'ı seçin. Sürüm Açılan listeden bir sürümü seçin. Ne seçeceklerini bilmiyorsanız varsayılan sürümü kullanın. Küme oturum açma kullanıcı adı ve parolası Varsayılan oturum açma adı admin 'tir. Parola en az 10 karakter uzunluğunda olmalı ve en az bir rakam, bir büyük harf ve bir küçük harf, bir alfasayısal olmayan karakter içermelidir (' " ' karakterleri ) hariç). "Pass@word1" gibi genel parolalar sağlamadığınızdan emin olun. Secure Shell (SSH) kullanıcı adı Varsayılan kullanıcı adı sshuser şeklindedir. SSH kullanıcı adı için başka bir ad sağlayabilirsiniz. SSH için küme oturum açma parolasını kullanma SSH kullanıcısı için küme oturum açma kullanıcısı için sağladığınız parolanın aynısını kullanmak üzere bu onay kutusunu işaretleyin.
Depolama ayarlarına Depolama >>için Sonraki: Uygulama'ya tıklayın.
Depolama sekmesinden aşağıdaki değerleri ekleyin:
Özellik Açıklama Birincil depolama türü Azure Depolama. Seçim yöntemi Listeden seç varsayılan değerini kullanın. Birincil depolama hesabı Var olan bir depolama hesabını seçmek için açılan listeyi kullanın veya Yeni oluştur'a tıklayın. Yeni bir hesap sanız, ad 3 ile 24 karakter uzunluğunda olmalıdır ve yalnızca sayı ve küçük harf içerebilir Kapsayıcı Otomatik doldurulan değeri kullanın.
Her kümenin bir Azure Depolama hesabı, Azure Data Lake 1. Nesilveya bir bağımlılığı
Azure Data Lake Storage Gen2vardır. Varsayılan depolama hesabı olarak adlandırılır. HDInsight kümesi ve varsayılan depolama hesabının aynı Azure bölgesinde birlikte konumlanması gerekir. Kümelerin silinmesi depolama hesabını silemez.Gözden geçir ve oluştur sekmesini seçin.
Gözden geçir ve oluştur sekmesinde, önceki adımlarda seçtiğiniz değerleri doğrulayın.
Oluştur’u seçin. Bir küme oluşturmak yaklaşık 20 dakika sürer.
Küme oluşturulduktan sonra, Azure portalında kümeye genel bakış sayfasını görürsünüz.
Sorgu Apache Hive çalıştırma
Apache Hive HDInsight’ta kullanılan en popüler bileşendir. HDInsight’ta Hive işleri çalıştırmanın birçok yolu vardır. Bu hızlı başlangıçta, portaldan Ambari Hive görünümünü kullanırsınız. Hive işlerini göndermenin diğer yöntemleri için bkz. HDInsight’ta Hive kullanma.
Not
Apache Hive Görünümü HDInsight 4.0'da kullanılamaz.
Ambari’yi açmak için, önceki ekran görüntüsünden Küme Panosu’nu seçin. Ayrıca, önceki bölümde
https://ClusterName.azurehdinsight.netClusterNameoluşturduğunuz kümenin bulunduğu yere de göz atabilirsiniz.
Kümeyi oluştururken belirlediğiniz Hadoop kullanıcı adını ve parolasını girin. Varsayılan kullanıcı adı admin şeklindedir.
Aşağıdaki ekran görüntüsünde gösterildiği gibi Hive Görünümü’nü açın:
Sayfadaki SORGU sekmesinde, aşağıdaki HiveQL ifadelerini çalışma sayfasına yapıştırın:
SHOW TABLES;
Yürüt’ü seçin. SORGU sekmesinin altında bir SONUÇLAR sekmesi görünür. Bu sekmede işle ilgili bilgiler görüntülenir.
Sorgu tamam olduktan sonra QUERY sekmesi, işlem sonuçlarını görüntüler. hivesampletable adlı bir tablo görürsünüz. Bu örnek Hive tablosu tüm HDInsight kümeleri ile birlikte gelir.
Aşağıdaki sorguyu çalıştırmak için 4. ve 5. adımı yineleyin:
SELECT * FROM hivesampletable;Ayrıca sorgunun sonuçlarını da kaydedebilirsiniz. Sağdaki menü düğmesini seçtikten sonra, sonuçları CSV dosyası olarak indirme veya kümeyle ilişkili depolama hesabında depolama seçeneklerinden birini belirleyin.
Hive işini tamamlandıktan sonra, sonuçları Azure SQL Veritabanı veya SQL Serververitabanına dışarı aktarabilirsiniz. Ayrıca, Excel kullanarak sonuçları görselleştirebilirsiniz. HDInsight'ta Hive kullanma hakkında daha fazla bilgi için bkz. Örnek bir Apache log4j dosyasını analiz etmek için HDInsight'ta Apache Hadoopile Apache Hive ve HiveQL kullanma.
Kaynakları temizleme
Hızlı başlangıç tamamlandıktan sonra kümeyi silmek istiyor olabilir. HDInsight ile verileriniz Azure Depolama'da depolanır, böylece bir kümeyi kullanımda değilse güvenle silebilirsiniz. HdInsight kümesi kullanımda olmayanlar için de ücret ödemeniz gerekir. Kümenin ücretleri depolama ücretlerinden çok daha fazla olduğu için, kullanımda olmayan kümeleri silmek ekonomik açıdan mantıklıdır.
Not
HDInsight üzerinde Hadoop kullanarak ETL işlemlerini çalıştırmayı öğrenmek için bir sonraki makaleye hemen devam ediyorsanız, kümeyi çalıştırmaya devam etmek iyi olabilir. Bunun nedeni, öğreticide yeniden bir Hadoop kümesi oluşturmanız gerektir. Ancak, bir sonraki makaleyi hemen geçe değil, kümeyi hemen silmeniz gerekir.
Küme ve/veya varsayılan depolama hesabını silmek için
Azure portalın bulunduğu tarayıcı sekmesine dönün. Kümeye genel bakış sayfasında olmalısınız. Yalnızca kümeyi silmek, ancak varsayılan depolama hesabını korumak istiyorsanız Sil’i seçin.
Kümeyi ve varsayılan depolama hesabını silmek istiyorsanız, kaynak grubu sayfasını açmak için kaynak grubu adını (önceki ekran görüntüsünde vurgulanan) seçin.
Kaynak grubunu sil’i seçerek, kümeyi ve varsayılan depolama hesabını içeren kaynak grubunu silin. Kaynak grubu silindiğinde depolama hesabının da silindiğini unutmayın. Depolama hesabını tutmak istiyorsanız, yalnızca küme silmeyi seçin.
Sonraki adımlar
Bu hızlı başlangıçta, Resource Manager şablonu kullanarak Linux tabanlı HDInsight kümesi oluşturma ve temel Hive sorguları gerçekleştirme hakkında bilgi edindiniz. Sonraki makalede, HDInsight üzerinde Hadoop kullanarak ayıklama, dönüştürme ve yükleme (ETL) işlemi gerçekleştirmeyi öğreneceksiniz.