Lavorare all'interno dell'ecosistema Apache Hadoop in HDInsight da un computer Windows

Informazioni sulle opzioni di sviluppo e gestione sul computer Windows per lavorare nell'ecosistema di Apache Hadoop in HDInsight.

HDInsight si basa su componenti Apache Hadoop e Hadoop, tecnologie open source sviluppate in Linux. HDInsight 3.4 e versioni successive usa la distribuzione Ubuntu Linux come sistema operativo sottostante per il cluster. Tuttavia, è possibile lavorare con HDInsight da un client Windows o l'ambiente di sviluppo Windows.

Usare PowerShell per attività di distribuzione e gestione

Azure PowerShell è un ambiente di scripting che può essere usato per controllare e automatizzare attività di distribuzione e gestione in HDInsight da Windows.

Esempi di attività che è possibile eseguire con PowerShell:

Seguire la procedura per installare e configurare Azure PowerShell per ottenere la versione più recente.

Utilità che è possibile eseguire in un browser

Le seguenti utilità hanno un'interfaccia utente Web che viene eseguita in un browser:

Prima di passare agli esempi seguenti, installare e provare gli strumenti Data Lake per Visual Studio.

Visual Studio e .NET SDK

È possibile usare Visual Studio con .NET SDK per gestire i cluster e sviluppare applicazioni Big Data. È possibile usare altri IDE per le attività seguenti, ma gli esempi presentati sono in Visual Studio.

Esempi di attività che è possibile eseguire con .NET SDK in Visual Studio:

Intellij IDEA e IDE di Eclipse per cluster Spark

È possibile usare sia Intellij IDEA che l'IDE di Eclipse per:

  • Sviluppare e inviare un'applicazione Spark in Scala in un cluster HDInsight Spark.
  • Accedere a risorse cluster di Spark.
  • Sviluppare ed eseguire un'applicazione Spark in Scala localmente.

Questi articoli mostrano come:

Notebook su Spark per data scientist

I cluster Apache Spark in HDInsight includono notebook e kernel Apache Zeppelin che possono essere usati con Jupyter Notebook.

Eseguire strumenti e tecnologie basate su Linux in Windows

Se si verifica una situazione in cui è necessario usare uno strumento o una tecnologia disponibile solo in Linux, prendere in considerazione le opzioni seguenti:

  • Bash in Ubuntu in Windows 10 fornisce un sottosistema Linux in Windows. Bash consente di eseguire direttamente le utilità di Linux senza dover gestire un'installazione di Linux dedicata. Per la procedura di installazione, vedere Guida all'installazione del sottosistema Windows per Linux per Windows 10. Anche altre shell Unix funzionano.
  • Docker per Windows fornisce l'accesso a molti strumenti basati su Linux e può essere eseguito direttamente da Windows. Ad esempio è possibile usare Docker per eseguire il client Beeline per Hive direttamente da Windows. È anche possibile usare Docker per eseguire un Jupyter Notebook locale e connettersi in remoto a Spark in HDInsight. Introduzione a Docker per Windows
  • MobaXTerm consente di visualizzare graficamente il file system del cluster tramite una connessione SSH.

Strumenti multipiattaforma

L'interfaccia della riga di comando di Azure è l'esperienza di riga di comando multipiattaforma Microsoft per la gestione delle risorse di Azure. Per altre informazioni, vedere Interfaccia Command-Line di Azure.

Passaggi successivi

Se non si ha familiarità con i cluster basati su Linux, vedere gli articoli seguenti: