Použití externích balíčků s Jupyter poznámkovým blokům v clusterech s Apache Spark v HDInsight
Naučte se, jak nakonfigurovat Jupyter notebook v clusteru Apache Spark ve službě HDInsight tak, aby používaly externí balíčky Apache Maven poskytované komunitou, které nejsou zahrnuté do clusteru.
Úplný seznam dostupných balíčků můžete vyhledat v úložišti Maven . Můžete také získat seznam dostupných balíčků z jiných zdrojů. Například úplný seznam balíčků, které jsou součástí komunity, je k dispozici v balíčcích Spark.
V tomto článku se dozvíte, jak pomocí Jupyter Notebook balíčku Spark-CSV .
Požadavky
Cluster Apache Spark ve službě HDInsight. Pokyny najdete v tématu Vytváření clusterů Apache Spark ve službě Azure HDInsight.
Znalost používání poznámkových bloků Jupyter se Sparkem ve službě HDInsight. Další informace najdete v tématech načtení dat a spuštění dotazů s Apache Spark v HDInsight.
Schéma identifikátoru URI pro primární úložiště clusterů. To Azure Storage pro
wasb://abfs://Azure Data Lake Storage Gen2 neboadl://pro Azure Data Lake Storage Gen1. Pokud je pro Azure Storage nebo Data Lake Storage Gen2 povolený zabezpečený přenos, identifikátor URI by bylwasbs://nebo vabfss://uvedeném pořadí taky zabezpečený přenos.
Použití externích balíčků s Jupyter poznámkovým blokem
Přejděte na
https://CLUSTERNAME.azurehdinsight.net/jupytermísto, kdeCLUSTERNAMEje název vašeho clusteru Spark.Vytvořte nový poznámkový blok. Vyberte Nový a pak vyberte Spark.
Nový poznámkový blok se vytvoří a otevře s názvem Untitled.pynb. Vyberte název poznámkového bloku v horní části a zadejte popisný název.
%%configureK nakonfigurování poznámkového bloku pro použití externího balíčku použijete Magic. V poznámkových blocích, které používají externí balíčky, se ujistěte, že jste volali%%configureMagic do první buňky kódu. Tím se zajistí, že jádro je nakonfigurované na použití balíčku před spuštěním relace.Důležité
Pokud zapomenete nakonfigurovat jádro v první buňce, můžete použít
%%configure-fparametr s parametrem, který ale bude restartovat relaci a veškerý průběh bude ztracen.Verze HDInsight Příkaz Pro HDInsight 3,5 a HDInsight 3,6 %%configure{ "conf": {"spark.jars.packages": "com.databricks:spark-csv_2.11:1.5.0" }}Pro HDInsight 3,3 a HDInsight 3,4 %%configure{ "packages":["com.databricks:spark-csv_2.10:1.4.0"] }Výše uvedený fragment kódu očekává souřadnice Maven pro externí balíček v centrálním úložišti Maven. V tomto fragmentu kódu
com.databricks:spark-csv_2.11:1.5.0je souřadnice Maven balíčku Spark-CSV . Tady je postup, jak sestavit souřadnice balíčku.a. Vyhledejte balíček v úložišti Maven. V tomto článku používáme Spark-CSV.
b. Z úložiště Shromážděte hodnoty pro ID skupiny, ArtifactId a verzi. Ujistěte se, že hodnoty, které shromáždíte, odpovídají vašemu clusteru. V tomto případě používáme balíček Scala 2,11 a Spark 1.5.0, ale v clusteru možná budete muset vybrat jiné verze pro příslušnou verzi Scala nebo Sparku. Verzi Scala můžete v clusteru zjistit spuštěním
scala.util.Properties.versionStringv jádru Spark Jupyter nebo v Sparku odeslat. Verzi Sparku v clusteru můžete zjistit spuštěnímsc.versionna poznámkových blocích Jupyter.
c. Zřetězí tři hodnoty oddělené dvojtečkou (:).
com.databricks:spark-csv_2.11:1.5.0Spusťte buňku Code s
%%configureMagic. Tím se nakonfiguruje základní Livy relace tak, aby používala balíček, který jste zadali. V následujících buňkách poznámkového bloku teď můžete použít balíček, jak vidíte níže.val df = spark.read.format("com.databricks.spark.csv"). option("header", "true"). option("inferSchema", "true"). load("wasb:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")Pro HDInsight 3,4 a níže byste měli použít následující fragment kódu.
val df = sqlContext.read.format("com.databricks.spark.csv"). option("header", "true"). option("inferSchema", "true"). load("wasb:///HdiSamples/HdiSamples/SensorSampleData/hvac/HVAC.csv")Potom můžete spustit fragmenty, jako je například znázorněno níže, a zobrazit tak data z datového rámce, který jste vytvořili v předchozím kroku.
df.show() df.select("Time").count()
Viz také
Scénáře
- Apache Spark s BI: provádějte interaktivní analýzy dat pomocí Sparku v HDInsight pomocí nástrojů BI.
- Apache Spark s Machine Learning: pomocí Sparku v HDInsight můžete analyzovat teplotu budovy pomocí dat TVK.
- Apache Spark s Machine Learning: pomocí Sparku v HDInsight předpovídat výsledky kontroly potravin
- Analýza webového protokolu pomocí Apache Spark ve službě HDInsight
Vytvoření a spouštění aplikací
- Vytvoření samostatné aplikace pomocí Scala
- Vzdálené spouštění úloh na clusteru Apache Spark s využitím Apache Livy
Nástroje a rozšíření
- Použití externích balíčků Pythonu s Jupyter poznámkovým blokům v clusterech s Apache Spark v HDInsight Linux
- Modul plug-in nástroje HDInsight pro IntelliJ IDEA pro vytvoření a odesílání aplikací Spark Scala
- Použití modulu plug-in nástrojů HDInsight pro IntelliJ NÁPADu při vzdáleném ladění aplikací Apache Spark
- Použití poznámkových bloků Apache Zeppelin s clusterem Apache Spark v HDInsight
- Jádra dostupná pro Jupyter Notebook v clusteru Apache Spark pro HDInsight
- Nainstalujte do počítače Jupyter a připojte ho ke clusteru HDInsight Spark