Richtlijnen voor Apache Spark

Dit artikel bevat verschillende richtlijnen voor het gebruik van Apache Spark in Azure HDInsight.

Hoe kan ik Spark-taken uitvoeren of verzenden?

Optie Documenten
VSCode Spark & Hive Tools voor Visual Studio Code gebruiken
Jupyter Notebooks Zelfstudie: Gegevens laden en query's uitvoeren op een Apache Spark-cluster in Azure HDInsight
IntelliJ Zelfstudie: Azure Toolkit voor IntelliJ gebruiken om Apache Spark-toepassingen te maken voor een HDInsight-cluster
IntelliJ Zelfstudie: Een Scala Maven-toepassing maken voor Apache Spark in HDInsight met behulp van IntelliJ
Zeppelin-notebooks Apache Zeppelin-notebooks gebruiken met Apache Spark-cluster in Azure HDInsight
Inzending van externe taken met Livy Apache Spark REST API gebruiken voor het verzenden van externe taken naar een HDInsight Spark-cluster
Apache Oozie Oozie is een werkstroom- en coƶrdinatiesysteem dat Hadoop-taken beheert.
Apache Livy U kunt Livy gebruiken om interactieve Spark-shells uit te voeren of batchtaken te verzenden die in Spark moeten worden uitgevoerd.
Azure Data Factory voor Apache Spark De Spark-activiteit in een Data Factory-pijplijn voert een Spark-programma uit op uw eigen of [on-demand HDInsight-cluster.
Azure Data Factory voor Apache Hive De HDInsight Hive-activiteit in een Data Factory-pijplijn voert Hive-query's uit op uw eigen of on-demand HDInsight-cluster.

Hoe kan ik Spark-taken bewaken en fouten opsporen?

Optie Documenten
Azure-toolkit voor IntelliJ Foutopsporing in Spark-taken met Azure Toolkit voor IntelliJ (preview)
Azure Toolkit voor IntelliJ via SSH Lokaal of op afstand fouten opsporen in Apache Spark-toepassingen in een HDInsight-cluster met de Azure-toolkit voor IntelliJ via SSH
Azure Toolkit voor IntelliJ via VPN Azure Toolkit voor IntelliJ gebruiken om fouten op te sporen in Apache Spark-toepassingen op afstand in HDInsight via VPN
Taakgrafiek op Apache Spark History Server Uitgebreide Apache Spark History Server gebruiken om fouten op te sporen in Apache Spark-toepassingen

Hoe kan ik mijn Spark-taken efficiƫnter uitvoeren?

Optie Documenten
IO-cache Prestaties van Apache Spark-workloads verbeteren met behulp van Azure HDInsight IO Cache (preview)
Configuratieopties Apache Spark-taken optimaliseren

Hoe kan ik verbinding maken met andere Azure-services?

Optie Documenten
Apache Hive in HDInsight Apache Spark en Apache Hive integreren met Hive Warehouse Connector
Apache HBase in HDInsight Apache Spark gebruiken om Apache HBase-gegevens te lezen en schrijven
Apache Kafka in HDInsight Zelfstudie: Apache Spark Structured Streaming gebruiken met Apache Kafka in HDInsight
Azure Cosmos DB Azure Synapse Link voor Azure Cosmos DB

Wat zijn mijn opslagopties?

Optie Documenten
Azure Data Lake Storage Gen2 Azure Data Lake Storage Gen2 gebruiken met Azure HDInsight-clusters
Azure Data Lake Storage Gen1 Azure Data Lake Storage Gen1 gebruiken met Azure HDInsight-clusters
Azure Blob-opslag Azure-opslag gebruiken met Azure HDInsight-clusters

Volgende stappen