Richtlijnen voor Apache Spark

Artikel
01/10/2024

Dit artikel bevat verschillende richtlijnen voor het gebruik van Apache Spark in Azure HDInsight.

Hoe kan ik Spark-taken uitvoeren of verzenden?

Optie	Documenten
VSCode	Spark & Hive Tools voor Visual Studio Code gebruiken
Jupyter Notebooks	Zelfstudie: Gegevens laden en query's uitvoeren op een Apache Spark-cluster in Azure HDInsight
IntelliJ	Zelfstudie: Azure Toolkit voor IntelliJ gebruiken om Apache Spark-toepassingen te maken voor een HDInsight-cluster
IntelliJ	Zelfstudie: Een Scala Maven-toepassing maken voor Apache Spark in HDInsight met behulp van IntelliJ
Zeppelin-notebooks	Apache Zeppelin-notebooks gebruiken met Apache Spark-cluster in Azure HDInsight
Inzending van externe taken met Livy	Apache Spark REST API gebruiken voor het verzenden van externe taken naar een HDInsight Spark-cluster
Apache Oozie	Oozie is een werkstroom- en coördinatiesysteem dat Hadoop-taken beheert.
Apache Livy	U kunt Livy gebruiken om interactieve Spark-shells uit te voeren of batchtaken te verzenden die in Spark moeten worden uitgevoerd.
Azure Data Factory voor Apache Spark	De Spark-activiteit in een Data Factory-pijplijn voert een Spark-programma uit op uw eigen of [on-demand HDInsight-cluster.
Azure Data Factory voor Apache Hive	De HDInsight Hive-activiteit in een Data Factory-pijplijn voert Hive-query's uit op uw eigen of on-demand HDInsight-cluster.

Hoe kan ik Spark-taken bewaken en fouten opsporen?

Optie	Documenten
Azure-toolkit voor IntelliJ	Foutopsporing in Spark-taken met Azure Toolkit voor IntelliJ (preview)
Azure Toolkit voor IntelliJ via SSH	Lokaal of op afstand fouten opsporen in Apache Spark-toepassingen in een HDInsight-cluster met de Azure-toolkit voor IntelliJ via SSH
Azure Toolkit voor IntelliJ via VPN	Azure Toolkit voor IntelliJ gebruiken om fouten op te sporen in Apache Spark-toepassingen op afstand in HDInsight via VPN
Taakgrafiek op Apache Spark History Server	Uitgebreide Apache Spark History Server gebruiken om fouten op te sporen in Apache Spark-toepassingen

Hoe kan ik mijn Spark-taken efficiënter uitvoeren?

Optie	Documenten
IO-cache	Prestaties van Apache Spark-workloads verbeteren met behulp van Azure HDInsight IO Cache (preview)
Configuratieopties	Apache Spark-taken optimaliseren

Hoe kan ik verbinding maken met andere Azure-services?

Optie	Documenten
Apache Hive in HDInsight	Apache Spark en Apache Hive integreren met Hive Warehouse Connector
Apache HBase in HDInsight	Apache Spark gebruiken om Apache HBase-gegevens te lezen en schrijven
Apache Kafka in HDInsight	Zelfstudie: Apache Spark Structured Streaming gebruiken met Apache Kafka in HDInsight
Azure Cosmos DB	Azure Synapse Link voor Azure Cosmos DB

Wat zijn mijn opslagopties?

Optie	Documenten
Azure Data Lake Storage Gen2	Azure Data Lake Storage Gen2 gebruiken met Azure HDInsight-clusters
Azure Data Lake Storage Gen1	Azure Data Lake Storage Gen1 gebruiken met Azure HDInsight-clusters
Azure Blob-opslag	Azure-opslag gebruiken met Azure HDInsight-clusters

Volgende stappen