Hızlı Başlangıç: Azure HDInsight kullanarak Azure HDInsight Apache Hadoop kümesi Azure portal

Bu makalede, Azure portal kullanarak HDInsight'ta Apache Hadoop kümeleri oluşturma ve ardından HDInsight'ta Apache Hive işleri çalıştırma hakkında bilgi edineceksiniz. Hadoop işlerinin çoğu toplu işlemdir. Bir küme oluşturur, bazı işleri çalıştırır ve kümeyi silersiniz. Bu makalede, üç görevi de gerçekleştirirsiniz. Kullanılabilir yapılandırmaların ayrıntılı açıklamaları için bkz. HDInsight'ta kümeleri ayarlama. Portalın küme oluşturmak için kullanımı hakkında daha fazla bilgi için bkz. Portalda küme oluşturma.

Bu hızlı başlangıçta, HDInsight Hadoop kümesi oluşturmak için Azure portalını kullanırsınız. Azure Resource Manager şablonunu kullanarak da küme oluşturabilirsiniz.

HdInsight şu anda yedi farklı küme türüyle birlikte gelir. Her küme türü farklı bir bileşen kümesini destekler. Tüm küme türleri Hive'ı destekler. HDInsight'ta desteklenen bileşenlerin listesi için bkz. HDInsight tarafından sağlanan Apache Hadoop küme sürümlerindeki güncelleştirmeler.

Azure aboneliğiniz yoksa başlamadan önce ücretsiz bir hesap oluşturun.

Apache Hadoop kümesi oluşturma

Bu bölümde, Azure portalını kullanarak HDInsight’ta Hadoop kümesi oluşturursunuz.

  1. Azure portal.

  2. Üst menüden + Kaynak oluştur'a tıklayın.

    Kaynak HDInsight kümesi oluşturma

  3. HDInsight Azure HDInsight oluştur sayfasına gitmek için Analytics Azure HDInsight'yi seçin.

  4. Temel Bilgiler sekmesinde aşağıdaki bilgileri ekleyin:

    Özellik Açıklama
    Abonelik Açılan listeden küme için kullanılan Azure aboneliğini seçin.
    Kaynak grubu Açılan listeden mevcut kaynak grubularınızı seçin veya Yeni oluştur'a tıklayın.
    Küme adı Genel olarak benzersiz bir ad girin. Ad harf, sayı ve kısa çizgi dahil olmak üzere en fazla 59 karakterden oluşur. Adın ilk ve son karakterleri kısa çizgi olamaz.
    Region Açılan listeden kümenin oluşturulacak bölgeyi seçin. Daha iyi performans için kendinize yakın bir konum seçin.
    Küme türü Küme türünü seçin'i seçin. Ardından küme türü olarak Hadoop'ı seçin.
    Sürüm Açılan listeden bir sürümü seçin. Ne seçeceklerini bilmiyorsanız varsayılan sürümü kullanın.
    Küme oturum açma kullanıcı adı ve parolası Varsayılan oturum açma adı admin 'tir. Parola en az 10 karakter uzunluğunda olmalı ve en az bir rakam, bir büyük harf ve bir küçük harf, bir alfasayısal olmayan karakter içermelidir (' " ' karakterleri ) hariç). "Pass@word1" gibi genel parolalar sağlamadığınızdan emin olun.
    Secure Shell (SSH) kullanıcı adı Varsayılan kullanıcı adı sshuser şeklindedir. SSH kullanıcı adı için başka bir ad sağlayabilirsiniz.
    SSH için küme oturum açma parolasını kullanma SSH kullanıcısı için küme oturum açma kullanıcısı için sağladığınız parolanın aynısını kullanmak üzere bu onay kutusunu işaretleyin.

    HDInsight Linux ile çalışmaya başlama küme temel değerleri sağlama

    Depolama ayarlarına Depolama >>için Sonraki: Uygulama'ya tıklayın.

  5. Depolama sekmesinden aşağıdaki değerleri ekleyin:

    Özellik Açıklama
    Birincil depolama türü Azure Depolama.
    Seçim yöntemi Listeden seç varsayılan değerini kullanın.
    Birincil depolama hesabı Var olan bir depolama hesabını seçmek için açılan listeyi kullanın veya Yeni oluştur'a tıklayın. Yeni bir hesap sanız, ad 3 ile 24 karakter uzunluğunda olmalıdır ve yalnızca sayı ve küçük harf içerebilir
    Kapsayıcı Otomatik doldurulan değeri kullanın.

    HDInsight Linux küme depolama değerleri sağlamayı başlama

    Her kümenin bir Azure Depolama hesabı, Azure Data Lake 1. Nesilveya bir bağımlılığı Azure Data Lake Storage Gen2 vardır. Varsayılan depolama hesabı olarak adlandırılır. HDInsight kümesi ve varsayılan depolama hesabının aynı Azure bölgesinde birlikte konumlanması gerekir. Kümelerin silinmesi depolama hesabını silemez.

    Gözden geçir ve oluştur sekmesini seçin.

  6. Gözden geçir ve oluştur sekmesinde, önceki adımlarda seçtiğiniz değerleri doğrulayın.

    HDInsight Linux ile çalışmaya başlama küme özeti

  7. Oluştur’u seçin. Bir küme oluşturmak yaklaşık 20 dakika sürer.

    Küme oluşturulduktan sonra, Azure portalında kümeye genel bakış sayfasını görürsünüz.

    HDInsight Linux kullanmaya başlama küme ayarları

Sorgu Apache Hive çalıştırma

Apache Hive HDInsight’ta kullanılan en popüler bileşendir. HDInsight’ta Hive işleri çalıştırmanın birçok yolu vardır. Bu hızlı başlangıçta, portaldan Ambari Hive görünümünü kullanırsınız. Hive işlerini göndermenin diğer yöntemleri için bkz. HDInsight’ta Hive kullanma.

Not

Apache Hive Görünümü HDInsight 4.0'da kullanılamaz.

  1. Ambari’yi açmak için, önceki ekran görüntüsünden Küme Panosu’nu seçin. Ayrıca, önceki bölümde https://ClusterName.azurehdinsight.net ClusterName oluşturduğunuz kümenin bulunduğu yere de göz atabilirsiniz.

    HDInsight Linux küme panosuna başlama

  2. Kümeyi oluştururken belirlediğiniz Hadoop kullanıcı adını ve parolasını girin. Varsayılan kullanıcı adı admin şeklindedir.

  3. Aşağıdaki ekran görüntüsünde gösterildiği gibi Hive Görünümü’nü açın:

    Ambari'den Hive Görünümü seçme

  4. Sayfadaki SORGU sekmesinde, aşağıdaki HiveQL ifadelerini çalışma sayfasına yapıştırın:

    SHOW TABLES;
    

    HDInsight Hive Görünüm Sorgu Düzenleyicisi

  5. Yürüt’ü seçin. SORGU sekmesinin altında bir SONUÇLAR sekmesi görünür. Bu sekmede işle ilgili bilgiler görüntülenir.

    Sorgu tamam olduktan sonra QUERY sekmesi, işlem sonuçlarını görüntüler. hivesampletable adlı bir tablo görürsünüz. Bu örnek Hive tablosu tüm HDInsight kümeleri ile birlikte gelir.

    HDInsight Apache Hive görüntüleme

  6. Aşağıdaki sorguyu çalıştırmak için 4. ve 5. adımı yineleyin:

    SELECT * FROM hivesampletable;
    
  7. Ayrıca sorgunun sonuçlarını da kaydedebilirsiniz. Sağdaki menü düğmesini seçtikten sonra, sonuçları CSV dosyası olarak indirme veya kümeyle ilişkili depolama hesabında depolama seçeneklerinden birini belirleyin.

    Sorgunun Apache Hive kaydetme

Hive işini tamamlandıktan sonra, sonuçları Azure SQL Veritabanı veya SQL Serververitabanına dışarı aktarabilirsiniz. Ayrıca, Excel kullanarak sonuçları görselleştirebilirsiniz. HDInsight'ta Hive kullanma hakkında daha fazla bilgi için bkz. Örnek bir Apache log4j dosyasını analiz etmek için HDInsight'ta Apache Hadoopile Apache Hive ve HiveQL kullanma.

Kaynakları temizleme

Hızlı başlangıç tamamlandıktan sonra kümeyi silmek istiyor olabilir. HDInsight ile verileriniz Azure Depolama'da depolanır, böylece bir kümeyi kullanımda değilse güvenle silebilirsiniz. HdInsight kümesi kullanımda olmayanlar için de ücret ödemeniz gerekir. Kümenin ücretleri depolama ücretlerinden çok daha fazla olduğu için, kullanımda olmayan kümeleri silmek ekonomik açıdan mantıklıdır.

Not

HDInsight üzerinde Hadoop kullanarak ETL işlemlerini çalıştırmayı öğrenmek için bir sonraki makaleye hemen devam ediyorsanız, kümeyi çalıştırmaya devam etmek iyi olabilir. Bunun nedeni, öğreticide yeniden bir Hadoop kümesi oluşturmanız gerektir. Ancak, bir sonraki makaleyi hemen geçe değil, kümeyi hemen silmeniz gerekir.

Küme ve/veya varsayılan depolama hesabını silmek için

  1. Azure portalın bulunduğu tarayıcı sekmesine dönün. Kümeye genel bakış sayfasında olmalısınız. Yalnızca kümeyi silmek, ancak varsayılan depolama hesabını korumak istiyorsanız Sil’i seçin.

    Azure HDInsight silme

  2. Kümeyi ve varsayılan depolama hesabını silmek istiyorsanız, kaynak grubu sayfasını açmak için kaynak grubu adını (önceki ekran görüntüsünde vurgulanan) seçin.

  3. Kaynak grubunu sil’i seçerek, kümeyi ve varsayılan depolama hesabını içeren kaynak grubunu silin. Kaynak grubu silindiğinde depolama hesabının da silindiğini unutmayın. Depolama hesabını tutmak istiyorsanız, yalnızca küme silmeyi seçin.

Sonraki adımlar

Bu hızlı başlangıçta, Resource Manager şablonu kullanarak Linux tabanlı HDInsight kümesi oluşturma ve temel Hive sorguları gerçekleştirme hakkında bilgi edindiniz. Sonraki makalede, HDInsight üzerinde Hadoop kullanarak ayıklama, dönüştürme ve yükleme (ETL) işlemi gerçekleştirmeyi öğreneceksiniz.