Apache Spark-irányelvek

Cikk
01/10/2024

Ez a cikk különböző irányelveket tartalmaz az Apache Spark Azure HDInsighton való használatához.

Hogyan Spark-feladatokat futtatni vagy elküldeni?

Lehetőség	Documents
VSCode	A Spark > Hive Tools for Visual Studio Code használata
Jupyter-notebookok	Oktatóanyag: Adatok betöltése és lekérdezések futtatása Apache Spark-fürtön az Azure HDInsightban
IntelliJ	Oktatóanyag: Apache Spark-alkalmazások létrehozása HDInsight-fürtökhöz az Azure Toolkit for IntelliJ használatával
IntelliJ	Oktatóanyag: Scala Maven-alkalmazás létrehozása az Apache Sparkhoz a HDInsightban az IntelliJ használatával
Zeppelin-notebookok	Use Apache Zeppelin notebooks with Apache Spark cluster on Azure HDInsight
Távoli feladatbeküldés Livyvel	Az Apache Spark REST API használata távoli feladatok küldéséhez egy HDInsight Spark-fürtre
Apache Oozie	Az Oozie egy munkafolyamat- és koordinációs rendszer, amely a Hadoop-feladatokat kezeli.
Apache Livy	A Livy használatával interaktív Spark-rendszerhéjakat futtathat, vagy kötegelt feladatokat küldhet a Sparkon való futtatáshoz.
Azure Data Factory for Apache Spark	A Data Factory-folyamatok Spark-tevékenysége egy Spark-programot hajt végre saját vagy [igény szerinti HDInsight-fürtön.
Azure Data Factory for Apache Hive	A Data Factory-folyamatok HDInsight Hive-tevékenysége hive-lekérdezéseket hajt végre saját vagy igény szerinti HDInsight-fürtön.

Hogyan Spark-feladatok figyelése és hibakeresése?

Lehetőség	Documents
Azure Toolkit for IntelliJ	Hibakeresési spark-feladat hibakeresése az IntelliJ-hez készült Azure Toolkittel (előzetes verzió)
Azure Toolkit for IntelliJ through SSH	HDInsight-fürtön futó Apache Spark-alkalmazások helyi vagy távoli hibakeresése az IntelliJ-hez készült Azure-eszközkészlettel SSH-n keresztül
Azure Toolkit for IntelliJ VPN-en keresztül	Az Azure Toolkit for IntelliJ használatával távolról hibakeresést végezhet az Apache Spark-alkalmazásokban a HDInsightban VPN-en keresztül
Feladatgráf az Apache Spark-előzmények kiszolgálóján	Kiterjesztett Apache Spark-előzménykiszolgáló használata az Apache Spark-alkalmazások hibakereséséhez és diagnosztizálásához

Hogyan a Spark-feladatok hatékonyabb futtatását?

Lehetőség	Documents
IO-gyorsítótár	Az Apache Spark-számítási feladatok teljesítményének javítása az Azure HDInsight IO Cache használatával (előzetes verzió)
Konfigurációs lehetőségek	Apache Spark-feladatok optimalizálása

Hogyan csatlakozni más Azure-szolgáltatásokhoz?

Lehetőség	Documents
Apache Hive a HDInsighton	Az Apache Spark és az Apache Hive integrálása a Hive Warehouse Csatlakozás orral
HDInsight-alapú Apache HBase	Apache Spark használata Apache HBase-adatok olvasásához és írásához
Apache Kafka a HDInsighton	Oktatóanyag: Apache Spark strukturált streamelés használata az Apache Kafkával a HDInsighton
Azure Cosmos DB	Azure Synapse Link for Azure Cosmos DB

Mik a tárolási lehetőségeim?

Lehetőség	Documents
Azure Data Lake Storage Gen2	Use Azure Data Lake Storage Gen2 with Azure HDInsight clusters
Azure Data Lake Storage Gen1	Az Azure Data Lake Storage Gen1 használata Azure HDInsight-fürtökkel
Azure Blob Storage	Use Azure storage with Azure HDInsight clusters

További lépések