Trasformare i dati in Azure Data Factory e Azure Synapse Analytics

Articolo
08/10/2023

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi completa per le aziende. Microsoft Fabric copre tutti gli elementi, dallo spostamento dei dati all'analisi scientifica dei dati, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Scopri come avviare gratuitamente una nuova versione di valutazione .

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021, non sarà possibile creare nuove risorse di Machine Learning Studio (versione classica) (area di lavoro e piano di servizio Web). Fino al 31 agosto 2024, è possibile continuare a usare gli esperimenti e i servizi Web esistenti di Machine Learning Studio (versione classica).

Vedere le informazioni sullo spostamento di progetti di apprendimento automatico da ML Studio (versione classica) ad Azure Machine Learning.
Scoprire di più su Azure Machine Learning

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Panoramica

Questo articolo illustra le attività di trasformazione dei dati nelle pipeline di Azure Data Factory e Synapse che è possibile usare per trasformare ed elaborare i dati non elaborati in stime e informazioni dettagliate su larga scala. Un'attività di trasformazione viene eseguita in un ambiente di elaborazione, ad esempio Azure Databricks o Azure HDInsight. Vengono forniti i collegamenti ad articoli con informazioni dettagliate su ciascuna attività di trasformazione.

Il servizio supporta le attività di trasformazione dei dati seguenti che possono essere aggiunte alle pipeline singolarmente o concatenati con un'altra attività.

Trasformare in modo nativo in Azure Data Factory e Azure Synapse Analytics con flussi di dati

Flussi di dati di mapping

I flussi di dati di mapping sono trasformazioni dei dati progettate visivamente in Azure Data Factory e Azure Synapse. I flussi di dati consentono ai data engineer di sviluppare la logica di trasformazione dei dati grafica senza scrivere codice. I flussi di dati risultanti vengono eseguiti come attività all'interno di pipeline che usano cluster Spark con scalabilità orizzontale. Le attività del flusso di dati possono essere operative tramite funzionalità di pianificazione, controllo, flusso e monitoraggio esistenti all'interno del servizio. Per altre informazioni, vedere Mapping dei flussi di dati.

Data wrangling

Power Query in Azure Data Factory consente il wrangling dei dati su scala cloud, che consente di eseguire la preparazione dei dati senza codice a livello di cloud in modo iterativo. Il wrangling dei dati si integra con Power Query Online e rende disponibili le funzioni M di Power Query per i dati su larga scala cloud tramite l'esecuzione di Spark. Per altre informazioni, vedere Data wrangling in Azure Data Factory.

Nota

Power Query è attualmente supportato solo in Azure Data Factory e non in Azure Synapse. Per un elenco di funzionalità specifiche supportate in ogni servizio, vedere Funzionalità disponibili nelle pipeline di Azure Data Factory e Azure Synapse Analytics.

Trasformazioni esterne

Facoltativamente, è possibile trasformare manualmente il codice e gestire manualmente l'ambiente di calcolo esterno.

Attività Hive di HDInsight

L'attività Hive di HDInsight in una pipeline esegue query Hive nel cluster HDInsight personalizzato o su richiesta basato su Windows/Linux. Per i dettagli su questa attività, vedere l'articolo Attività Hive.

Attività Pig di HDInsight

L'attività Pig di HDInsight in una pipeline esegue query Pig nel cluster HDInsight personalizzato o su richiesta basato su Windows/Linux. Per i dettagli su questa attività, vedere l'articolo Attività Pig.

Attività MapReduce di HDInsight

L'attività MapReduce di HDInsight in una pipeline esegue programmi MapReduce in un cluster HDInsight personalizzato o su richiesta basato su Windows/Linux. Per i dettagli su questa attività, vedere l'articolo Attività MapReduce.

Attività di streaming di HDInsight

L'attività HDInsight Streaming in una pipeline esegue programmi Hadoop Streaming in un cluster HDInsight personalizzato o su richiesta basato su Windows/Linux. Vedere l' attività di streaming di HDInsight per i dettagli.

Attività HDInsight Spark

L'attività HDInsight Spark in una pipeline esegue programmi Spark nel proprio cluster HDInsight. Per informazioni dettagliate, vedere Richiamare programmi Spark con Azure Data Factory o Azure Synapse Analytics.

Attività di ML Studio (versione classica)

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

Vedere le informazioni sullo spostamento di progetti di apprendimento automatico da ML Studio (versione classica) ad Azure Machine Learning.
Scoprire di più su Azure Machine Learning

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Il servizio consente di creare facilmente pipeline che usano un servizio Web di ML Studio (versione classica) pubblicato per l'analisi predittiva. Usando l'attività Di esecuzione batch in una pipeline, è possibile richiamare un servizio Web di Studio (versione classica) per eseguire stime sui dati in batch.

Nel corso del tempo, è necessario ripetere il training dei modelli predittivi negli esperimenti di assegnazione dei punteggi di Studio (versione classica) usando nuovi set di dati di input. Al termine della ripetizione del training, si vuole aggiornare il servizio Web di assegnazione dei punteggi con il modello di Machine Learning sottoposto a ripetizione del training. È possibile usare l'attività Aggiorna risorsa per aggiornare il servizio Web con il nuovo modello con training.

Vedere Usare le attività di ML Studio (versione classica) per informazioni dettagliate su queste attività di Studio (versione classica).

Attività stored procedure

È possibile usare l'attività stored procedure di SQL Server in una pipeline di Data Factory per richiamare una stored procedure in uno degli archivi dati seguenti: database SQL di Azure, Azure Synapse Analytics, database DI SQL Server nell'organizzazione o in una macchina virtuale di Azure. Per i dettagli, vedere l'articolo Attività stored procedure.

Attività U-SQL di Data Lake Analytics

L'attività U-SQL di Data Lake Analytics esegue uno script U-SQL in un cluster Azure Data Lake Analytics. Per i dettagli, vedere l'articolo Attività U-SQL di Analisi dei dati.

Attività di Azure Synapse Notebook

L'attività notebook di Azure Synapse in una pipeline synapse esegue un notebook di Synapse nell'area di lavoro di Azure Synapse. Vedere Trasformare i dati eseguendo un notebook di Azure Synapse.

Attività dei notebook di Databricks

L'attività notebook di Azure Databricks in una pipeline esegue un notebook di Databricks nell'area di lavoro di Azure Databricks. Azure Databricks è una piattaforma gestita per l'esecuzione di Apache Spark. Vedere Trasformare i dati eseguendo un notebook di Databricks.

Attività JAR di Databricks

L'attività Jar di Azure Databricks in una pipeline esegue un file Jar Spark nel cluster Azure Databricks. Azure Databricks è una piattaforma gestita per l'esecuzione di Apache Spark. Vedere Trasformare i dati eseguendo un'attività JAR in Azure Databricks.

Attività Python di Databricks

L'attività Python di Azure Databricks in una pipeline esegue un file Python nel cluster Azure Databricks. Azure Databricks è una piattaforma gestita per l'esecuzione di Apache Spark. Vedere Trasformare i dati eseguendo un'attività Python in Azure Databricks.

Impegno personalizzato

Se è necessario trasformare i dati in una modalità non supportata da Data Factory, è possibile creare un'attività personalizzata contenente la logica di elaborazione dei dati richiesta e usarla nella pipeline. È possibile configurare l'attività .NET personalizzata da eseguire usando il servizio Azure Batch o un cluster Azure HDInsight. Vedere l'articolo Usare le attività personalizzate per i dettagli.

È possibile creare un'attività personalizzata per eseguire gli script R nel cluster HDInsight con R installato. Vedere Eseguire script R usando Azure Data Factory e le pipeline di Synapse.

Ambienti di calcolo

Creare un servizio collegato per l'ambiente di calcolo e quindi usare il servizio collegato quando si definisce un'attività di trasformazione. Esistono due tipi supportati di ambienti di calcolo.

Su richiesta: in questo caso, l'ambiente di elaborazione è completamente gestito dal servizio. Viene creato automaticamente dal servizio prima che un processo venga inviato per elaborare i dati e rimosso al termine del processo. È possibile configurare e controllare le impostazioni granulari dell'ambiente di elaborazione su richiesta per l'esecuzione del processo, la gestione del cluster e azioni di avvio automatico.
Bring Your Own: in questo caso, è possibile registrare il proprio ambiente di elaborazione (ad esempio un cluster HDInsight) come servizio collegato. L'ambiente di calcolo viene gestito dall'utente e il servizio lo usa per eseguire le attività.

Per informazioni sui servizi di calcolo supportati, vedere l'articolo Servizi collegati di calcolo.

Per un esempio di uso di un'attività di trasformazione, vedere l'esercitazione seguente: Tutorial: transform data using Spark (Esercitazione: Trasformare dati tramite Spark)