HDInsight 'ta Apache Spark kümelerinde jupi Not defterleri ile dış paketleri kullanma
HDInsight 'ta Apache Spark kümesindeki bir Jupyter Notebook , kümede kullanıma hazır olmayan, topluluk tarafından katkıda bulunulan Apache Maven paketlerini kullanmak üzere nasıl yapılandıracağınızı öğrenin.
Maven deposunda kullanılabilen paketlerin tüm listesini arayabilirsiniz. Ayrıca, diğer kaynaklardan kullanılabilir paketlerin bir listesini alabilirsiniz. Örneğin, topluluk tarafından katkıda bulunulan paketlerin tam bir listesi Spark paketlerindebulunabilir.
Bu makalede, Spark-CSV paketini Jupyter Notebook ile kullanmayı öğreneceksiniz.
Önkoşullar
HDInsight üzerinde bir Apache Spark kümesi. Yönergeler için bkz. Azure HDInsight'ta Apache Spark kümeleri oluşturma.
HDInsight üzerinde Spark ile Jupyter Notebook kullanma bilgisi. Daha fazla bilgi için bkz. HDInsight üzerinde verileri yükleme ve sorguları çalıştırma Apache Spark.
Kümelerinizin birincil depolama alanı için URI şeması . Bu
wasb://,abfs://Azure Data Lake Storage 2. veya Azure Data Lake Storage 1. Için Azure depolama için olacaktıradl://. Azure depolama veya Data Lake Storage 2. için güvenli aktarım etkinleştirilirse, URIwasbs://veyaabfss://Ayrıca, Güvenli aktarım' ı da görürsünüz.
Jupyıter Not defterleri ile dış paketleri kullanma
https://CLUSTERNAME.azurehdinsight.net/jupyterCLUSTERNAMESpark Kümenizin adı olduğu yere gidin.Yeni bir not defteri oluşturun. Yeni' yi ve ardından Spark' ı seçin.
Yeni bir not defteri oluşturulur ve Untitled.pynb adı ile açılır. Üstteki Not defteri adını seçin ve kolay bir ad girin.
%%configureNot defterini harici bir paket kullanacak şekilde yapılandırmak için Magic 'i kullanacaksınız. Dış paketleri kullanan not defterlerinde,%%configureilk kod hücresinde Magic ' i çağırdığınızdan emin olun. Bu, çekirdeğin oturum başlamadan önce paketi kullanacak şekilde yapılandırılmasını sağlar.Önemli
İlk hücrede çekirdeği yapılandırmayı unutursanız,
%%configure-fparametresini parametresiyle kullanabilirsiniz, ancak bu işlem oturumu yeniden başlatır ve tüm ilerleme kaybedilir.HDInsight sürümü Komut HDInsight 3,5 ve HDInsight için 3,6 %%configure{ "conf": {"spark.jars.packages": "com.databricks:spark-csv_2.11:1.5.0" }}HDInsight 3,3 ve HDInsight için 3,4 %%configure{ "packages":["com.databricks:spark-csv_2.10:1.4.0"] }Yukarıdaki kod parçacığı, Maven merkezi deposundaki Dış paketin Maven koordinatlarını bekler. Bu kod parçacığında
com.databricks:spark-csv_2.11:1.5.0Spark-CSV paketi için Maven koordinatı. Bir paket için koordinatları nasıl oluşturabileceğiniz aşağıda açıklanmaktadır.a. Maven deposundaki paketi bulun. Bu makalede Spark-CSVkullanırız.
b. Deposundan GroupID, ArtifactId ve Version değerlerini toplayın. Toplamakta olduğunuz değerlerin kümenize eşleştiğinden emin olun. Bu durumda, bir Scala 2,11 ve Spark 1.5.0 paketi kullanıyoruz, ancak kümenizdeki uygun Scala veya Spark sürümü için farklı sürümler seçmeniz gerekebilir.
scala.util.Properties.versionStringSpark Jupyıter çekirdeği üzerinde veya Spark göndermesi üzerinde çalıştırarak, kümenizde Scala sürümünü bulabilirsiniz.sc.versionJupi Not defterleri üzerinde çalıştırarak Spark sürümünü kümenizde bulabilirsiniz.
c. İki nokta üst üste (:) ayırarak üç değeri birleştirir.
com.databricks:spark-csv_2.11:1.5.0Kod hücresini Magic ile çalıştırın
%%configure. Bu, temel alınan Livy oturumu verdiğiniz paketi kullanacak şekilde yapılandırır. Not defterindeki sonraki hücrelerde, artık paketini aşağıda gösterildiği gibi kullanabilirsiniz.val df = spark.read.format("com.databricks.spark.csv"). option("header", "true"). option("inferSchema", "true"). load("wasb:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")HDInsight 3,4 ve sonraki bir için aşağıdaki kod parçacığını kullanmanız gerekir.
val df = sqlContext.read.format("com.databricks.spark.csv"). option("header", "true"). option("inferSchema", "true"). load("wasb:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")Daha sonra, önceki adımda oluşturduğunuz veri çerçevesindeki verileri görüntülemek için aşağıda gösterildiği gibi parçacıkları çalıştırabilirsiniz.
df.show() df.select("Time").count()
Ayrıca bkz.
Senaryolar
- BI ile Apache Spark: bı araçlarıyla HDInsight 'ta Spark kullanarak etkileşimli veri çözümlemesi gerçekleştirme
- Machine Learning ile Apache Spark: HVAC verilerini kullanarak oluşturma sıcaklığını çözümlemek için HDInsight 'ta Spark kullanma
- Machine Learning Apache Spark: yemek İnceleme sonuçlarını tahmin etmek için HDInsight 'ta Spark kullanma
- HDInsight 'ta Apache Spark kullanarak Web sitesi günlüğü Analizi
Uygulamaları oluşturma ve çalıştırma
- Scala kullanarak tek başına uygulama oluşturma
- Apache Livy kullanarak Apache Spark kümesinde işleri uzaktan çalıştırma
Araçlar ve uzantılar
- HDInsight Linux 'ta Apache Spark kümelerinde Jupyıter Not defterleri ile dış Python paketleri kullanma
- Spark Scala uygulamaları oluşturmak ve göndermek amacıyla IntelliJ IDEA için HDInsight Araçları Eklentisini kullanma
- Apache Spark uygulamalarında uzaktan hata ayıklama için IntelliJ fıkır için HDInsight Araçları eklentisini kullanın
- HDInsight 'ta Apache Spark kümesiyle Apache Zeppelin not defterlerini kullanma
- HDInsight için Apache Spark kümesinde Jupyter Notebook için kullanılabilir olan kernels
- Jupyter’i bilgisayarınıza yükleme ve bir HDInsight Spark kümesine bağlanma