Introduzione a Spark in HDInsight

Questo articolo fornisce un'introduzione a Spark in HDInsight. Apache Spark è un framework open source di elaborazione parallela che supporta l'elaborazione in memoria per migliorare le prestazioni di applicazioni analitiche di Big Data. Il cluster Spark in HDInsight è compatibile con Archiviazione di Azure (WASB) e con Azure Data Lake Store. È quindi possibile elaborare con facilità tramite un cluster Spark i dati esistenti archiviati in Azure.

Quando si crea un cluster Spark in HDInsight, si creano risorse di calcolo di Azure con Spark installato e configurato. Bastano circa dieci minuti per creare un cluster di Spark in HDInsight. I dati da elaborare vengono archiviati in Archiviazione di Azure o Azure Data Lake Store. Vedere Usare l'Archiviazione di Azure con HDInsight.

Per creare un cluster Spark in HDInsight, vedere Guida introduttiva: Creare un cluster Spark in HDInsight ed eseguire query interattive usando Jupyter.

Informazioni su Apache Spark in Azure HDInsight

I cluster Spark in HDInsight offrono un servizio Spark completamente gestito. I vantaggi della creazione di un cluster Spark in HDInsight sono elencati qui.

Funzionalità Descrizione
Facilità di creazione dei cluster Spark È possibile creare un nuovo cluster Spark in HDInsight in pochi minuti mediante il portale di Azure, Azure PowerShell o HDInsight .NET SDK. Vedere Introduzione ai cluster Spark in HDInsight
Semplicità d'uso Il cluster Spark in HDInsight include notebook di Jupyter e Zeppelin. È possibile usarli per la visualizzazione e l'elaborazione interattiva di dati.
API REST I cluster Spark in HDInsight includono Livy, un server dei processi Spark basato sull'API REST per l'invi e il monitoraggio remoto dei processi.
Supporto per Archivio Azure Data Lake È possibile configurare un cluster Spark in HDInsight per l'uso di Azure Data Lake Store come spazio di archiviazione aggiuntivo o come risorsa di archiviazione primaria (solo con cluster HDInsight 3.5). Per altre informazioni su Archivio Data Lake, vedere Panoramica di Archivio Azure Data Lake.
Integrazione con servizi di Azure Il cluster Spark in HDInsight viene fornito con un connettore per Hub eventi di Azure. Gli utenti possono creare applicazioni di streaming mediante Hub eventi, oltre a Kafkache è già disponibile come parte di Spark.
Supporto per R Server È possibile impostare R Server in un cluster HDInsight Spark per eseguire calcoli R distribuiti con la velocità garantita da un cluster Spark. Per altre informazioni, vedere Introduzione all'uso di R Server in HDInsight.
Integrazione con IDE di terze parti HDInsight fornisce i plug-in per gli IDE, ad esempio IntelliJ IDEA ed Eclipse, che possono essere usati per creare e inviare applicazioni in un cluster Spark in HDInsight. Per altre informazioni, vedere Usare Azure Toolkit per IntelliJ IDEA e Usare Azure Toolkit per Eclipse.
Query simultanee I cluster Spark in HDInsight supportano le query simultanee. In questo modo più query da un utente o più query da vari utenti e applicazioni possono condividere le stesse risorse di cluster.
La memorizzazione nella cache nelle unità SSD È possibile scegliere di memorizzare i dati in memoria o nelle SSD associate ai nodi del cluster. La memorizzazione nella cache in memoria offre le migliori prestazioni di query ma può essere costosa; la memorizzazione nella cache in SSDs fornisce un'ottima opzione per migliorare le prestazioni delle query senza la necessità di creare un cluster di dimensioni necessario ad adattare l'intero set di dati in memoria.
Integrazione con strumenti di Business Intelligence I cluster Spark in HDInsight offrono connettori per strumenti di Business Intelligence, come Power BI e Tableau, per l'analisi dei dati.
Librerie Anaconda precaricate I cluster Spark in HDInsight sono dotati di librerie Anaconda preinstallate Anaconda offre quasi 200 librerie per Machine Learning, l'analisi dei dati, la visualizzazione e così via.
Scalabilità Anche se è possibile specificare il numero di nodi del cluster durante la fase di creazione, in seguito può essere necessario aumentare o ridurre il cluster sulla base del carico di lavoro. Tutti i cluster HDInsight consentono di modificare il numero di nodi del cluster. È anche possibile eliminare i cluster Spark senza alcuna perdita di dati perché tutti i dati sono archiviati in Archiviazione di Azure o Data Lake Store.
Supporto 24/7 I cluster Spark in HDInsight includono il supporto continuo a livello aziendale e un Contratto di servizio che garantisce tempi di attività pari al 99,9%.

Quali sono i casi d'uso per Spark in HDInsight?

I cluster Spark in HDInsight consentono gli scenari principali seguenti.

Analisi dei dati interattivi e Business Intelligence

Esaminare un'esercitazione

Apache Spark in HDInsight archivia i dati nell'Archiviazione di Azure o in Azure Data Lake Store. Gli esperti aziendali e i responsabili decisionali possono analizzare e generare rapporti su dati e usare Microsoft Power BI per creare rapporti dai dati analizzati. Gli analisti possono iniziare a usare dati non strutturati/parzialmente strutturati in una risorsa di archiviazione cluster, definire uno schema per i dati usando notebook e quindi creare modelli di dati usando Microsoft Power BI. I cluster Spark in HDInsight supportano anche alcuni strumenti di BI di terze parti, ad esempio Tableau, e sono quindi una piattaforma ottimale per gli analisti di dati, gli esperti aziendali e i decision maker principali.

Machine Learning in Spark

Esaminare un'esercitazione: stima delle temperature di compilazione mediante i dati HVAC

Esaminare un'esercitazione: stima dei risultati di ispezione del cibo

Apache Spark include MLlib, una libreria di Machine Learning basata su Spark, che è possibile usare da un cluster Spark in HDInsight. Il cluster Spark in HDInsight include inoltre Anaconda, una distribuzione di Python con un'ampia gamma di pacchetti per l'apprendimento automatico. Aggiungendo il supporto incorporato per notebook Jupyter e Zeppelin si otterrà un ambiente di qualità elevata per la creazione di applicazioni di Machine Learning.

Analisi dei dati in tempo reale e streaming in Spark

Esaminare un'esercitazione

I cluster Spark in HDInsight offrono un supporto completo per la creazione di soluzioni di analisi in tempo reale. Mentre Spark ha già connettori per acquisire i dati da molte origini, quali socket Kafka, Flume, Twitter, ZeroMQ o TCP, Spark in HDInsight aggiunge un eccellente supporto per l'inserimento di dati da Hub eventi di Azure. Hub eventi è il servizio di Accodamento messaggi maggiormente usato in Azure. La disponibilità di un supporto per Hub eventi rende i cluster Spark in HDInsight la piattaforma ideale per la compilazione della pipeline di analisi in tempo reale.

Quali componenti sono inclusi come parte di un cluster di Spark?

I cluster Spark in HDInsight includono i componenti seguenti che sono disponibili nei cluster per impostazione predefinita.

I cluster Spark in HDInsight forniscono inoltre un driver ODBC per la connettività ai cluster Spark in HDInsight da strumenti di Business Intelligence, quali Microsoft Power BI e Tableau.

Dove iniziare?

Iniziare con la creazione di un cluster Spark in HDInsight. Vedere Guida introduttiva: creare un cluster di Spark in HDInsight ed eseguire query interattive usando Jupyter.

Passaggi successivi

Scenari

Creare ed eseguire applicazioni

Strumenti ed estensioni

Gestire risorse