HDInsight 'ta Apache Spark kümelerinde jupi Not defterleri ile dış paketleri kullanma

HDInsight 'ta Apache Spark kümesindeki bir Jupyter Notebook , kümede kullanıma hazır olmayan, topluluk tarafından katkıda bulunulan Apache Maven paketlerini kullanmak üzere nasıl yapılandıracağınızı öğrenin.

Maven deposunda kullanılabilen paketlerin tüm listesini arayabilirsiniz. Ayrıca, diğer kaynaklardan kullanılabilir paketlerin bir listesini alabilirsiniz. Örneğin, topluluk tarafından katkıda bulunulan paketlerin tam bir listesi Spark paketlerindebulunabilir.

Bu makalede, Spark-CSV paketini Jupyter Notebook ile kullanmayı öğreneceksiniz.

Önkoşullar

Jupyıter Not defterleri ile dış paketleri kullanma

  1. https://CLUSTERNAME.azurehdinsight.net/jupyter CLUSTERNAME Spark Kümenizin adı olduğu yere gidin.

  2. Yeni bir not defteri oluşturun. Yeni' yi ve ardından Spark' ı seçin.

    Yeni bir Spark Jupyter Notebook oluşturma

  3. Yeni bir not defteri oluşturulur ve Untitled.pynb adı ile açılır. Üstteki Not defteri adını seçin ve kolay bir ad girin.

    Not defteri adını belirtme

  4. %%configureNot defterini harici bir paket kullanacak şekilde yapılandırmak için Magic 'i kullanacaksınız. Dış paketleri kullanan not defterlerinde, %%configure ilk kod hücresinde Magic ' i çağırdığınızdan emin olun. Bu, çekirdeğin oturum başlamadan önce paketi kullanacak şekilde yapılandırılmasını sağlar.

    Önemli

    İlk hücrede çekirdeği yapılandırmayı unutursanız, %%configure -f parametresini parametresiyle kullanabilirsiniz, ancak bu işlem oturumu yeniden başlatır ve tüm ilerleme kaybedilir.

    HDInsight sürümü Komut
    HDInsight 3,5 ve HDInsight için 3,6 %%configure
    { "conf": {"spark.jars.packages": "com.databricks:spark-csv_2.11:1.5.0" }}
    HDInsight 3,3 ve HDInsight için 3,4 %%configure
    { "packages":["com.databricks:spark-csv_2.10:1.4.0"] }
  5. Yukarıdaki kod parçacığı, Maven merkezi deposundaki Dış paketin Maven koordinatlarını bekler. Bu kod parçacığında com.databricks:spark-csv_2.11:1.5.0 Spark-CSV paketi için Maven koordinatı. Bir paket için koordinatları nasıl oluşturabileceğiniz aşağıda açıklanmaktadır.

    a. Maven deposundaki paketi bulun. Bu makalede Spark-CSVkullanırız.

    b. Deposundan GroupID, ArtifactId ve Version değerlerini toplayın. Toplamakta olduğunuz değerlerin kümenize eşleştiğinden emin olun. Bu durumda, bir Scala 2,11 ve Spark 1.5.0 paketi kullanıyoruz, ancak kümenizdeki uygun Scala veya Spark sürümü için farklı sürümler seçmeniz gerekebilir. scala.util.Properties.versionStringSpark Jupyıter çekirdeği üzerinde veya Spark göndermesi üzerinde çalıştırarak, kümenizde Scala sürümünü bulabilirsiniz. sc.versionJupi Not defterleri üzerinde çalıştırarak Spark sürümünü kümenizde bulabilirsiniz.

    Jupyter Notebook ile dış paketleri kullanma

    c. İki nokta üst üste (:) ayırarak üç değeri birleştirir.

    com.databricks:spark-csv_2.11:1.5.0
    
  6. Kod hücresini Magic ile çalıştırın %%configure . Bu, temel alınan Livy oturumu verdiğiniz paketi kullanacak şekilde yapılandırır. Not defterindeki sonraki hücrelerde, artık paketini aşağıda gösterildiği gibi kullanabilirsiniz.

    val df = spark.read.format("com.databricks.spark.csv").
    option("header", "true").
    option("inferSchema", "true").
    load("wasb:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")
    

    HDInsight 3,4 ve sonraki bir için aşağıdaki kod parçacığını kullanmanız gerekir.

    val df = sqlContext.read.format("com.databricks.spark.csv").
    option("header", "true").
    option("inferSchema", "true").
    load("wasb:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")
    
  7. Daha sonra, önceki adımda oluşturduğunuz veri çerçevesindeki verileri görüntülemek için aşağıda gösterildiği gibi parçacıkları çalıştırabilirsiniz.

    df.show()
    
    df.select("Time").count()
    

Ayrıca bkz.

Senaryolar

Uygulamaları oluşturma ve çalıştırma

Araçlar ve uzantılar

Kaynakları yönetme