Instructions Apache Spark

Cet article présente différentes instructions pour l’utilisation d’Apache Spark sur Azure HDInsight.

Comment exécuter ou envoyer des travaux Spark ?

Option Documents
VSCode Utiliser les outils Spark et Hive pour Visual Studio Code
Notebooks Jupyter Tutoriel : Charger des données et exécuter des requêtes sur un cluster Apache Spark dans Azure HDInsight
IntelliJ Tutoriel : Utiliser Azure Toolkit for IntelliJ pour créer des applications Apache Spark pour un cluster HDInsight
IntelliJ Tutoriel : Créer une application Scala Maven pour Apache Spark dans HDInsight à l’aide d’IntelliJ
Notebooks Zeppelin Utiliser des blocs-notes Apache Zeppelin avec un cluster Apache Spark sur HDInsight
Envoi de travaux à distance avec Livy Utiliser l’API REST Spark Apache pour envoyer des travaux à distance à un cluster Spark HDInsight
Apache Oozie Oozie est un workflow et un système de coordination qui gère les travaux Hadoop.
Apache Livy Vous pouvez utiliser Livy pour exécuter des interpréteurs de commandes Spark interactifs ou soumettre des traitements par lots à exécuter sur Spark.
Azure Data Factory pour Apache Spark L’activité Spark d’un pipeline Data Factory exécute un programme Spark sur votre propre cluster HDInsight ou sur un cluster HDInsight à la demande.
Azure Data Factory pour Apache Hive L’activité Hive HDInsight d’un pipeline Data Factory exécute des requêtes Hive sur votre propre cluster HDInsight ou sur un cluster HDInsight à la demande.

Comment superviser et déboguer les travaux Spark ?

Option Documents
Kit de ressources Azure pour IntelliJ Échec du débogage du travail Spark avec Azure Toolkit for IntelliJ (préversion)
Azure Toolkit for IntelliJ via SSH Déboguer les applications Apache Spark localement ou à distance sur un cluster HDInsight, avec Azure Toolkit for IntelliJ via SSH
Azure Toolkit for IntelliJ via VPN Utiliser Azure Toolkit for IntelliJ pour déboguer des applications Apache Spark à distance dans HDInsight via VPN
Graphe du travail sur le serveur d’historique Apache Spark Utiliser le serveur d’historique Apache Spark étendu pour déboguer et diagnostiquer des applications Apache Spark

Comment faire en sorte que mes travaux Spark s’exécutent plus efficacement ?

Option Documents
Cache d’E/S Améliorer les performances des charges de travail Apache Spark à l’aide d’Azure HDInsight IO Cache (préversion)
Options de configuration Optimiser des travaux Apache Spark

Comment me connecter à d’autres services Azure ?

Option Documents
Apache Hive sur HDInsight Intégrer Apache Spark et Apache Hive au le connecteur d’entrepôt Hive
Apache HBase sur HDInsight Utiliser Apache Spark pour lire et écrire des données Apache HBase
Apache Kafka sur HDInsight Tutoriel : Utiliser Apache Spark Structured Streaming avec Apache Kafka sur HDInsight
Azure Cosmos DB Synapse Link pour Azure Cosmos DB

Quelles sont mes options de stockage ?

Option Documents
Azure Data Lake Storage Gen2 Utiliser Azure Data Lake Storage Gen2 avec des clusters Azure HDInsight
Azure Data Lake Storage Gen1 Utilisation d’Azure Data Lake Storage Gen1 avec des clusters Azure HDInsight
Stockage Blob Azure Utiliser Stockage Azure avec des clusters Azure HDInsight

Étapes suivantes