Hızlı Başlangıç: Apache Spark kullanarak Azure HDInsight küme Azure portal

Bu hızlı başlangıçta, Azure portal'da bir Apache Spark kümesi oluşturmak için Azure HDInsight. Daha sonra bir Jupyter Notebook oluşturur ve spark tablolarında Spark SQL çalıştırmak için Apache Hive kullanır. Azure HDInsight kuruluşlara yönelik, yönetilen, tam spektrumlu ve açık kaynaklı bir analiz hizmetidir. HDInsight Apache Spark çerçevesi, bellek içinde işlemeyi kullanarak hızlı veri analizi ve küme bilgi işlemi sağlar. Jupyter Notebook verilerinizle etkileşim kurmanıza, kodu markdown metniyle birleştirmenize ve basit görselleştirmeler yapmaya olanak sağlar.

Kullanılabilir yapılandırmaların ayrıntılı açıklamaları için bkz. HDInsight'ta kümeleri ayarlama. Portalın küme oluşturmak için kullanımı hakkında daha fazla bilgi için bkz. Portalda küme oluşturma.

Birden çok kümeyi birlikte kullanıyorsanız bir sanal ağ oluşturmak ve Spark kümesi kullanıyorsanız sanal ağı da Hive Warehouse Connector. Daha fazla bilgi için bkz. Azure HDInsight için sanal planlama ve Apache Spark ve Apache Hive ile Hive Warehouse Connector.

Önemli

İster kullanın, ister kullanmayın, HDInsight kümeleri faturalaması dakika başına eşit olarak dağıtılmıştır. Kullanmayı bitirdikten sonra kümenizi sildiğinizden emin olun. Daha fazla bilgi için bu makalenin Kaynakları temizleme bölümüne bakın.

Önkoşullar

Etkin aboneliği olan bir Azure hesabı. Ücretsiz bir hesap oluşturun.

HDInsight'Apache Spark küme oluşturma

Küme depolama alanı olarak Azure Azure portal Blobları kullanan bir HDInsight kümesi oluşturmak Depolama kümeyi kullanırsiniz. Data Lake Storage Gen2'yi kullanma hakkında daha fazla bilgi için bkz. Hızlı başlangıç: HDInsight'ta kümeleri ayarlama.

  1. Azure Portal oturum açın.

  2. Üst menüden + Kaynak oluştur'a tıklayın.

    Azure portal urce" border="true":::

  3. HDInsight Azure HDInsight oluştur sayfasına gitmek için Analytics Azure HDInsight'yi seçin.

  4. Temel Bilgiler sekmesinde aşağıdaki bilgileri ekleyin:

    Özellik Açıklama
    Abonelik Açılan listeden küme için kullanılan Azure aboneliğini seçin.
    Kaynak grubu Açılan listeden mevcut kaynak grubularınızı seçin veya Yeni oluştur'a tıklayın.
    Küme adı Genel olarak benzersiz bir ad girin.
    Region Açılan listeden kümenin oluşturulacak bölgeyi seçin.
    Küme türü Bir liste açmak için Küme türünü seçin'i seçin. Listeden Spark'ı seçin.
    Küme sürümü Küme türü seçildikten sonra bu alan varsayılan sürümle otomatik olarak doldurmak için kullanılır.
    Küme oturum açma kullanıcı adı Küme oturum açma kullanıcı adını girin. Varsayılan ad admin 'tir. Bu hesabı kullanarak hızlı başlangıç sonrasında Jupyter Notebook oturum açabilirsiniz.
    Küme oturum açma parolası Küme oturum açma parolasını girin.
    Secure Shell (SSH) kullanıcı adı SSH kullanıcı adını girin. Bu hızlı başlangıç için kullanılan SSH kullanıcı adı, sshuser şeklindedir. Varsayılan olarak bu hesap, Küme Oturum Açma kullanıcı adı hesabıyla aynı parolayı paylaşır.

    Temel Bilgiler sekmesinin seçili olduğu H D Insight kümesi oluşturma ekran görüntüsü.

    Depolama Depolama >> devam etmek için Sonraki: Depolama seçin.

  5. Depolama bölümünde aşağıdaki değerleri sağlayın:

    Özellik Açıklama
    Birincil depolama türü Azure Depolama.
    Seçim yöntemi Listeden seç varsayılan değerini kullanın.
    Birincil depolama hesabı Otomatik olarak doldurulan değeri kullanın.
    Kapsayıcı Otomatik olarak doldurulan değeri kullanın.

    Ekran görüntüsü, Depolama sekmesinin seçili olduğu H D Insight kümesi oluştur'ları gösterir.

    Devam etmek için Gözden geçir ve oluştur'a seçin.

  6. Gözden geçir ve oluştur altında Oluştur'a seçin. Kümenin oluşturulması yaklaşık 20 dakika sürer. Sonraki oturumuna devam etmeden önce küme oluşturulması gerekir.

HDInsight kümeleri oluştururken bir sorunla karşısanız, bunu yapmak için doğru izinlere sahip olmadığınız olabilir. Daha fazla bilgi için bkz. Erişim denetimi gereksinimleri.

Jupyter Notebook oluşturma

Jupyter Notebook, çeşitli programlama dillerini destekleyen etkileşimli bir not defteri ortamıdır. Not defteri, verilerle etkileşim kurmanıza, kodu markdown metniyle birleştirmenize ve basit görselleştirmeler gerçekleştirmenize olanak sağlar.

  1. Bir web tarayıcısında https://CLUSTERNAME.azurehdinsight.net/jupyter ,'ya CLUSTERNAME gidin; burada kümenizin adıdır. İstendiğinde, küme için küme oturum açma kimlik bilgilerini girin.

  2. Not defteri oluşturmak için Yeni > PySpark'ı seçin.

    Etkileşimli Spark Jupyter Notebook sorgusunu çalıştırmak için SQL oluşturma

    Untitled(Untitled.pynb) adıyla yeni bir not defteri oluşturulur ve açılır.

Apache Spark SQL deyimlerini çalıştırma

SQL (Yapılandırılmış Sorgu Dili), veri sorgulama ve tanımlama için en çok kullanılan dildir. Bilinen SQL söz dizimini kullanan Spark SQL, yapısal verileri işleyen bir Apache Spark uzantısı olarak çalışır.

  1. Çekirdeğin hazır olduğunu doğrulayın. Not defterinde çekirdek adının yanında boş bir daire görmeniz, çekirdeğin hazır olduğu anlamına gelir. Dolu daire, çekirdeğin meşgul olduğunu belirtir.

    PySpark göstergesine sahip bir Jupyter penceresini gösteren ekran görüntüsü. ark göstergesi." border="true":::

    Not defterini ilk kez başlattığınızda, çekirdek arka planda birkaç görev gerçekleştirir. Çekirdeğin hazır olmasını bekleyin.

  2. Aşağıdaki kodu boş bir hücreye yapıştırın ve kodu çalıştırmak için SHIFT + ENTER tuşlarına basın. Komut, kümedeki Hive tablolarını listeler:

    %%sql
    SHOW TABLES
    

    HDInsight kümeniz ile bir Jupyter Notebook kullanırken, Spark sorgularını kullanarak Hive sorguları çalıştırmak için kullanabileceğiniz bir ön sqlContext ayar SQL. %%sql, Hive sorgusunu çalıştırmak için Jupyter Not Defteri’ne sqlContext ön ayarını kullanmasını söyler. Sorgu, varsayılan olarak tüm HDInsight kümelerinde sağlanan Hive tablosundaki (hivesampletable) ilk 10 satırı getirir. Sonuçları almak 30 saniye kadar sürer. Çıktı şuna benzer:

    Bu hızlı başlangıçta oluşturulan not defteri için Jupyter penceresini gösteren ekran görüntüsü. hızlı başlangıç." border="true":::

    Jupyter’de bir sorguyu her çalıştırdığınızda web tarayıcınızın pencere başlığında not defteri başlığı ile birlikte (Meşgul) durumu gösterilir. Ayrıca sağ üst köşedeki PySpark metninin yanında içi dolu bir daire görürsünüz.

  3. hivesampletable komutundaki verileri görmek için başka bir sorgu çalıştırın.

    %%sql
    SELECT * FROM hivesampletable LIMIT 10
    

    Sorgu çıkışının görüntülenmesi için ekranın yenilenmesi gerekir.

    HDInsight 'Ta Hive sorgusu çıkışı Insight "Border =" true ":::

  4. Not defterindeki Dosya menüsünden Kapat ve Durdur’u seçin. Not defterini kapatmak, küme kaynaklarını serbest bırakır.

Kaynakları temizleme

hdınsight, verilerinizi Azure Depolama veya Azure Data Lake Storage kaydeder; böylece kullanımda olmadığında bir kümeyi güvenle silebilirsiniz. Ayrıca, kullanımda olmasa bile bir HDInsight kümesi için de ücretlendirilirsiniz. Kümenin ücretleri depolama ücretinden çok daha fazla olduğundan, kullanımda olmadıkları zaman kümeleri silmek ekonomik bir anlam sağlar. Sonraki adımlar içinde listelenen öğretici üzerinde hemen çalışmayı planlıyorsanız, kümeyi tutmak isteyebilirsiniz.

Azure portalına geri dönüp Sil’i seçin.

HDInsight kümesi bir "Border =" true " olan bir HDInsight kümesini silme Azure Portal :::

Kaynak grubu adını seçerek de kaynak grubu sayfasını açabilir ve sonra Kaynak grubunu sil’i seçebilirsiniz. Kaynak grubunu silerek, hem HDInsight kümesini hem de varsayılan depolama hesabını silersiniz.

Sonraki adımlar

bu hızlı başlangıçta, hdınsight 'ta Apache Spark kümesi oluşturmayı ve temel Spark SQL sorgusunu çalıştırmayı öğrendiniz. Örnek verilerde etkileşimli sorgular çalıştırmak için bir HDInsight kümesi kullanmayı öğrenmek üzere bir sonraki öğreticiye ilerleyin.