Usare il modello di apprendimento approfondito Microsoft Cognitive Toolkit con un cluster Azure HDInsight Spark

In questo articolo viene illustrata la procedura seguente.

  1. Eseguire uno script personalizzato per installare Microsoft Cognitive Toolkit in un cluster Azure HDInsight Spark.

  2. Caricare un notebook di Jupyter nel cluster Spark per vedere come applicare ai file un modello con training di apprendimento approfondito di Microsoft Cognitive Toolkit in un account di archiviazione BLOB di Azure tramite l'API Python Spark (PySpark)

Prerequisiti

Svolgimento della soluzione

Questa soluzione è suddivisa tra questo articolo e un notebook di Jupyter che deve essere caricato come parte di questa esercitazione. In questo articolo verrà completata la procedura seguente:

  • Eseguire un'azione script in un cluster HDInsight Spark per installare i pacchetti Microsoft Cognitive Toolkit e Python.
  • Caricare il notebook di Jupyter che esegue la soluzione nel cluster HDInsight Spark.

I passaggi rimanenti elencati sotto vengono trattati nel notebook di Jupyter.

  • Caricare immagini di esempio in un set di dati resilienti distribuito di Spark o RDD
    • Caricare i moduli e definire i set di impostazioni
    • Scaricare il set di dati in locale nel cluster Spark
    • Convertire il set di dati in RDD
  • Classificare le immagini tramite un modello con training Cognitive Toolkit
    • Scaricare il modello con training Cognitive Toolkit nel cluster Spark
    • Definire le funzioni usate dai nodi del ruolo di lavoro
    • Classificare le immagini nei nodi del ruolo di lavoro
    • Valutare l'accuratezza del modello

Installare Microsoft Cognitive Toolkit

È possibile installare Microsoft Cognitive Toolkit in un cluster Spark tramite l'azione script. L'azione script usa script personalizzati per installare nel cluster i componenti che non sono disponibili per impostazione predefinita. È possibile usare lo script personalizzato dal portale di Azure tramite HDInsight .NET SDK o Azure PowerShell. È possibile usare lo script anche per installare il toolkit sia nell’ambito della creazione del cluster sia quando il cluster è in esecuzione.

In questo articolo il toolkit verrà installato dal portale, dopo la creazione del cluster. Per altri modi di eseguire lo script personalizzato, vedere Personalizzare cluster HDInsight tramite azione script.

Uso del portale di Azure

Per istruzioni su come usare il portale di Azure per eseguire azioni di script, vedere Personalizzare cluster HDInsight tramite azione script. Assicurarsi di specificare i dati seguenti per installare Microsoft Cognitive Toolkit.

  • Specificare un valore per il nome dell'azione script.

  • Per URI script Bash, immettere https://raw.githubusercontent.com/Azure-Samples/hdinsight-pyspark-cntk-integration/master/cntk-install.sh.

  • Assicurarsi di eseguire lo script solo nei nodi head e del ruolo di lavoro e deselezionare tutte le altre caselle di controllo.

  • Fare clic su Crea.

Caricare il notebook di Jupyter nel cluster Azure HDInsight Spark

Per usare Microsoft Cognitive Toolkit con il cluster Azure HDInsight Spark, è necessario caricare il notebook di Jupyter CNTK_model_scoring_on_Spark_walkthrough.ipynb nel cluster Azure HDInsight Spark. Il notebook è disponibile in GitHub all'indirizzo https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration.

  1. Clonare il repository di GitHub all'indirizzo https://github.com/Azure-Samples/hdinsight-pyspark-cntk-integration. Per istruzioni su come eseguire la clonazione, vedere Cloning a repository (Clonazione di un repository).

  2. Dal portale di Azure, aprire il pannello del cluster Spark di cui è già stato eseguito il provisioning, fare clic su Dashboard cluster e quindi su Notebook di Jupyter.

    È anche possibile avviare il notebook di Jupyter accedendo all'URL https://<clustername>.azurehdinsight.net/jupyter/. Sostituire <clustername> con il nome del cluster HDInsight.

  3. Dal notebook di Jupyter, fare clic su Carica nell'angolo in alto a destra e passare al percorso in cui è stato clonato il repository di GitHub.

    Caricare il notebook di Jupyter nel cluster Azure HDInsight Spark

  4. Fare ancora clic su Carica.

  5. Dopo averlo caricato, fare clic sul nome del notebook e seguire le istruzioni nel notebook stesso su come caricare il set di dati ed eseguire l'esercitazione.

Vedere anche

Scenari

Creare ed eseguire applicazioni

Strumenti ed estensioni

Gestire risorse