Instructions Apache Spark

Article
07/12/2023

Cet article présente différentes instructions pour l’utilisation d’Apache Spark sur Azure HDInsight.

Comment exécuter ou envoyer des travaux Spark ?

Option	Documents
VSCode	Utiliser les outils Spark et Hive pour Visual Studio Code
Notebooks Jupyter	Tutoriel : Charger des données et exécuter des requêtes sur un cluster Apache Spark dans Azure HDInsight
IntelliJ	Tutoriel : Utiliser Azure Toolkit for IntelliJ pour créer des applications Apache Spark pour un cluster HDInsight
IntelliJ	Tutoriel : Créer une application Scala Maven pour Apache Spark dans HDInsight à l’aide d’IntelliJ
Notebooks Zeppelin	Utiliser des blocs-notes Apache Zeppelin avec un cluster Apache Spark sur HDInsight
Envoi de travaux à distance avec Livy	Utiliser l’API REST Spark Apache pour envoyer des travaux à distance à un cluster Spark HDInsight
Apache Oozie	Oozie est un workflow et un système de coordination qui gère les travaux Hadoop.
Apache Livy	Vous pouvez utiliser Livy pour exécuter des interpréteurs de commandes Spark interactifs ou soumettre des traitements par lots à exécuter sur Spark.
Azure Data Factory pour Apache Spark	L’activité Spark d’un pipeline Data Factory exécute un programme Spark sur votre propre cluster HDInsight ou sur un cluster HDInsight à la demande.
Azure Data Factory pour Apache Hive	L’activité Hive HDInsight d’un pipeline Data Factory exécute des requêtes Hive sur votre propre cluster HDInsight ou sur un cluster HDInsight à la demande.

Comment superviser et déboguer les travaux Spark ?

Option	Documents
Kit de ressources Azure pour IntelliJ	Échec du débogage du travail Spark avec Azure Toolkit for IntelliJ (préversion)
Azure Toolkit for IntelliJ via SSH	Déboguer les applications Apache Spark localement ou à distance sur un cluster HDInsight, avec Azure Toolkit for IntelliJ via SSH
Azure Toolkit for IntelliJ via VPN	Utiliser Azure Toolkit for IntelliJ pour déboguer des applications Apache Spark à distance dans HDInsight via VPN
Graphe du travail sur le serveur d’historique Apache Spark	Utiliser le serveur d’historique Apache Spark étendu pour déboguer et diagnostiquer des applications Apache Spark

Comment faire en sorte que mes travaux Spark s’exécutent plus efficacement ?

Option	Documents
Cache d’E/S	Améliorer les performances des charges de travail Apache Spark à l’aide d’Azure HDInsight IO Cache (préversion)
Options de configuration	Optimiser des travaux Apache Spark

Comment me connecter à d’autres services Azure ?

Option	Documents
Apache Hive sur HDInsight	Intégrer Apache Spark et Apache Hive au le connecteur d’entrepôt Hive
Apache HBase sur HDInsight	Utiliser Apache Spark pour lire et écrire des données Apache HBase
Apache Kafka sur HDInsight	Tutoriel : Utiliser Apache Spark Structured Streaming avec Apache Kafka sur HDInsight
Azure Cosmos DB	Synapse Link pour Azure Cosmos DB

Quelles sont mes options de stockage ?

Option	Documents
Azure Data Lake Storage Gen2	Utiliser Azure Data Lake Storage Gen2 avec des clusters Azure HDInsight
Azure Data Lake Storage Gen1	Utilisation d’Azure Data Lake Storage Gen1 avec des clusters Azure HDInsight
Stockage Blob Azure	Utiliser Stockage Azure avec des clusters Azure HDInsight

Étapes suivantes