Hızlı Başlangıç: Apache Spark kullanarak Azure HDInsight küme Azure portal
Bu hızlı başlangıçta, Azure portal'da bir Apache Spark kümesi oluşturmak için Azure HDInsight. Daha sonra bir Jupyter Notebook oluşturur ve spark tablolarında Spark SQL çalıştırmak için Apache Hive kullanır. Azure HDInsight kuruluşlara yönelik, yönetilen, tam spektrumlu ve açık kaynaklı bir analiz hizmetidir. HDInsight Apache Spark çerçevesi, bellek içinde işlemeyi kullanarak hızlı veri analizi ve küme bilgi işlemi sağlar. Jupyter Notebook verilerinizle etkileşim kurmanıza, kodu markdown metniyle birleştirmenize ve basit görselleştirmeler yapmaya olanak sağlar.
Kullanılabilir yapılandırmaların ayrıntılı açıklamaları için bkz. HDInsight'ta kümeleri ayarlama. Portalın küme oluşturmak için kullanımı hakkında daha fazla bilgi için bkz. Portalda küme oluşturma.
Birden çok kümeyi birlikte kullanıyorsanız bir sanal ağ oluşturmak ve Spark kümesi kullanıyorsanız sanal ağı da Hive Warehouse Connector. Daha fazla bilgi için bkz. Azure HDInsight için sanal ağ planlama ve Apache Spark ve Apache Hive ile Hive Warehouse Connector.
Önemli
İster kullanın, ister kullanmayın, HDInsight kümeleri faturalaması dakika başına eşit olarak dağıtılmıştır. Kullanmayı bitirdikten sonra kümenizi sildiğinizden emin olun. Daha fazla bilgi için bu makalenin Kaynakları temizleme bölümüne bakın.
Önkoşullar
Etkin aboneliği olan bir Azure hesabı. Ücretsiz bir hesap oluşturun.
HDInsight'Apache Spark küme oluşturma
Küme depolama alanı olarak Azure Azure portal Blobları kullanan bir HDInsight kümesi oluşturmak Depolama kümeyi kullanırsiniz. Data Lake Storage Gen2'yi kullanma hakkında daha fazla bilgi için bkz. Hızlı başlangıç: HDInsight'ta kümeleri ayarlama.
Azure Portal oturum açın.
Üst menüden + Kaynak oluştur'a tıklayın.
border="true":::-
HDInsight Azure HDInsight oluştur sayfasına gitmek için Analytics Azure HDInsight'yi seçin.
Temel Bilgiler sekmesinde aşağıdaki bilgileri ekleyin:
Özellik Açıklama Abonelik Açılan listeden küme için kullanılan Azure aboneliğini seçin. Kaynak grubu Açılan listeden mevcut kaynak grubularınızı seçin veya Yeni oluştur'a tıklayın. Küme adı Genel olarak benzersiz bir ad girin. Region Açılan listeden kümenin oluşturulacak bölgeyi seçin. Küme türü Bir liste açmak için Küme türünü seçin'i seçin. Listeden Spark'ı seçin. Küme sürümü Küme türü seçildikten sonra bu alan varsayılan sürümle otomatik olarak doldurmak için kullanılır. Küme oturum açma kullanıcı adı Küme oturum açma kullanıcı adını girin. Varsayılan ad admin 'tir. Bu hesabı kullanarak hızlı başlangıç sonrasında Jupyter Notebook oturum açabilirsiniz. Küme oturum açma parolası Küme oturum açma parolasını girin. Secure Shell (SSH) kullanıcı adı SSH kullanıcı adını girin. Bu hızlı başlangıç için kullanılan SSH kullanıcı adı, sshuser şeklindedir. Varsayılan olarak bu hesap, Küme Oturum Açma kullanıcı adı hesabıyla aynı parolayı paylaşır.
Depolama Depolama >> devam etmek için Sonraki: Depolama seçin.
Depolama bölümünde aşağıdaki değerleri sağlayın:
Özellik Açıklama Birincil depolama türü Azure Depolama. Seçim yöntemi Listeden seç varsayılan değerini kullanın. Birincil depolama hesabı Otomatik olarak doldurulan değeri kullanın. Kapsayıcı Otomatik olarak doldurulan değeri kullanın.
Devam etmek için Gözden geçir ve oluştur'a seçin.
Gözden geçir ve oluştur altında Oluştur'a seçin. Kümenin oluşturulması yaklaşık 20 dakika sürer. Sonraki oturumuna devam etmeden önce küme oluşturulması gerekir.
HDInsight kümeleri oluştururken bir sorunla karşısanız, bunu yapmak için doğru izinlere sahip olmadığınız olabilir. Daha fazla bilgi için bkz. Erişim denetimi gereksinimleri.
Jupyter Notebook oluşturma
Jupyter Notebook, çeşitli programlama dillerini destekleyen etkileşimli bir not defteri ortamıdır. Not defteri, verilerle etkileşim kurmanıza, kodu markdown metniyle birleştirmenize ve basit görselleştirmeler gerçekleştirmenize olanak sağlar.
Bir web tarayıcısında
https://CLUSTERNAME.azurehdinsight.net/jupyter,'yaCLUSTERNAMEgidin; burada kümenizin adıdır. İstendiğinde, küme için küme oturum açma kimlik bilgilerini girin.Not defteri oluşturmak için Yeni > PySpark'ı seçin.
Untitled(Untitled.pynb) adıyla yeni bir not defteri oluşturulur ve açılır.
Apache Spark SQL deyimlerini çalıştırma
SQL (Yapılandırılmış Sorgu Dili), veri sorgulama ve tanımlama için en çok kullanılan dildir. Bilinen SQL söz dizimini kullanan Spark SQL, yapısal verileri işleyen bir Apache Spark uzantısı olarak çalışır.
Çekirdeğin hazır olduğunu doğrulayın. Not defterinde çekirdek adının yanında boş bir daire görmeniz, çekirdeğin hazır olduğu anlamına gelir. Dolu daire, çekirdeğin meşgul olduğunu belirtir.
ark göstergesi." border="true":::Not defterini ilk kez başlattığınızda, çekirdek arka planda birkaç görev gerçekleştirir. Çekirdeğin hazır olmasını bekleyin.
Aşağıdaki kodu boş bir hücreye yapıştırın ve kodu çalıştırmak için SHIFT + ENTER tuşlarına basın. Komut, kümedeki Hive tablolarını listeler:
%%sql SHOW TABLESHDInsight kümeniz ile bir Jupyter Notebook kullanırken, Spark sorgularını kullanarak Hive sorguları çalıştırmak için kullanabileceğiniz bir ön
sqlContextayar SQL.%%sql, Hive sorgusunu çalıştırmak için Jupyter Not Defteri’nesqlContextön ayarını kullanmasını söyler. Sorgu, varsayılan olarak tüm HDInsight kümelerinde sağlanan Hive tablosundaki (hivesampletable) ilk 10 satırı getirir. Sonuçları almak 30 saniye kadar sürer. Çıktı şuna benzer:
hızlı başlangıç." border="true":::Jupyter’de bir sorguyu her çalıştırdığınızda web tarayıcınızın pencere başlığında not defteri başlığı ile birlikte (Meşgul) durumu gösterilir. Ayrıca sağ üst köşedeki PySpark metninin yanında içi dolu bir daire görürsünüz.
hivesampletablekomutundaki verileri görmek için başka bir sorgu çalıştırın.%%sql SELECT * FROM hivesampletable LIMIT 10Sorgu çıkışının görüntülenmesi için ekranın yenilenmesi gerekir.
Insight "Border =" true ":::Not defterindeki Dosya menüsünden Kapat ve Durdur’u seçin. Not defterini kapatmak, küme kaynaklarını serbest bırakır.
Kaynakları temizleme
hdınsight, verilerinizi Azure Depolama veya Azure Data Lake Storage kaydeder; böylece kullanımda olmadığında bir kümeyi güvenle silebilirsiniz. Ayrıca, kullanımda olmasa bile bir HDInsight kümesi için de ücretlendirilirsiniz. Kümenin ücretleri depolama ücretinden çok daha fazla olduğundan, kullanımda olmadıkları zaman kümeleri silmek ekonomik bir anlam sağlar. Sonraki adımlar içinde listelenen öğretici üzerinde hemen çalışmayı planlıyorsanız, kümeyi tutmak isteyebilirsiniz.
Azure portalına geri dönüp Sil’i seçin.
HDInsight kümesi bir "Border =" true "
:::
Kaynak grubu adını seçerek de kaynak grubu sayfasını açabilir ve sonra Kaynak grubunu sil’i seçebilirsiniz. Kaynak grubunu silerek, hem HDInsight kümesini hem de varsayılan depolama hesabını silersiniz.
Sonraki adımlar
bu hızlı başlangıçta, hdınsight 'ta Apache Spark kümesi oluşturmayı ve temel Spark SQL sorgusunu çalıştırmayı öğrendiniz. Örnek verilerde etkileşimli sorgular çalıştırmak için bir HDInsight kümesi kullanmayı öğrenmek üzere bir sonraki öğreticiye ilerleyin.