Transformera data i Azure Data Factory och Azure Synapse Analytics

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

Viktigt!

Stödet för Azure Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du övergår till Azure Machine Learning vid det datumet.

Från och med den 1 december 2021 kan du inte skapa nya Machine Learning Studio-resurser (klassiska) (arbetsyta och webbtjänstplan). Till och med den 31 augusti 2024 kan du fortsätta att använda befintliga Machine Learning Studio-experiment (klassiska) och webbtjänster. Mer information finns i:

Dokumentationen för Machine Learning Studio (klassisk) dras tillbaka och kanske inte uppdateras i framtiden.

Översikt

Den här artikeln beskriver datatransformeringsaktiviteter i Azure Data Factory- och Synapse-pipelines som du kan använda för att transformera och bearbeta rådata till förutsägelser och insikter i stor skala. En omvandlingsaktivitet körs i en databehandlingsmiljö som Azure Databricks eller Azure HDInsight. Den innehåller länkar till artiklar med detaljerad information om varje transformeringsaktivitet.

Tjänsten stöder följande datatransformeringsaktiviteter som kan läggas till i pipelines antingen individuellt eller kedjade med en annan aktivitet.

Transformera internt i Azure Data Factory och Azure Synapse Analytics med dataflöden

Mappa dataflöden

Mappning av dataflöden är visuellt utformade datatransformeringar i Azure Data Factory och Azure Synapse. Med dataflöden kan datatekniker utveckla grafisk datatransformeringslogik utan att skriva kod. De resulterande dataflödena körs som aktiviteter i pipelines som använder utskalade Spark-kluster. Dataflödesaktiviteter kan operationaliseras via befintliga funktioner för schemaläggning, kontroll, flöde och övervakning i tjänsten. Mer information finns i mappning av dataflöden.

Dataomvandling

Power Query i Azure Data Factory möjliggör dataomvandling i molnskala, vilket gör att du kan utföra kodfria dataförberedelser i molnskala iterativt. Dataomvandling integreras med Power Query Online och gör Power Query M-funktioner tillgängliga för dataomvandling i molnskala via spark-körning. Mer information finns i dataomvandling i Azure Data Factory.

Kommentar

Power Query stöds för närvarande endast i Azure Data Factory och inte i Azure Synapse. En lista över specifika funktioner som stöds i varje tjänst finns i Tillgängliga funktioner i Azure Data Factory och Azure Synapse Analytics-pipelines.

Externa omvandlingar

Du kan också handkoda transformeringar och hantera den externa beräkningsmiljön själv.

HDInsight Hive-aktivitet

HDInsight Hive-aktiviteten i en pipeline kör Hive-frågor på eget eller på begäran Windows-/Linux-baserat HDInsight-kluster. Mer information om den här aktiviteten finns i Artikeln om Hive-aktivitet .

HDInsight Pig-aktivitet

HDInsight Pig-aktiviteten i en pipeline kör Pig-frågor på ditt eget eller på begäran Windows-/Linux-baserade HDInsight-kluster. Mer information om den här aktiviteten finns i artikeln Grisaktivitet .

HDInsight MapReduce-aktivitet

HDInsight MapReduce-aktiviteten i en pipeline kör MapReduce-program på ditt eget eller på begäran Windows-/Linux-baserade HDInsight-kluster. Mer information om den här aktiviteten finns i artikeln MapReduce-aktivitet .

HDInsight Streaming-aktivitet

HDInsight Streaming-aktiviteten i en pipeline kör Hadoop Streaming-program på ditt eget eller på begäran Windows-/Linux-baserade HDInsight-kluster. Mer information om den här aktiviteten finns i HDInsight Streaming-aktivitet .

HDInsight Spark-aktivitet

HDInsight Spark-aktiviteten i en pipeline kör Spark-program på ditt eget HDInsight-kluster. Mer information finns i Anropa Spark-program med Azure Data Factory eller Azure Synapse Analytics.

ML Studio-aktiviteter (klassiska)

Viktigt!

Stödet för Azure Machine Learning Studio (klassisk) upphör den 31 augusti 2024. Vi rekommenderar att du övergår till Azure Machine Learning vid det datumet.

Från och med den 1 december 2021 kan du inte skapa nya Machine Learning Studio-resurser (klassiska) (arbetsyta och webbtjänstplan). Till och med den 31 augusti 2024 kan du fortsätta att använda befintliga Machine Learning Studio-experiment (klassiska) och webbtjänster. Mer information finns i:

Dokumentationen för Machine Learning Studio (klassisk) dras tillbaka och kanske inte uppdateras i framtiden.

Med tjänsten kan du enkelt skapa pipelines som använder en publicerad ML Studio-webbtjänst (klassisk) för förutsägelseanalys. Med hjälp av batchkörningsaktiviteten i en pipeline kan du anropa en Studio-webbtjänst (klassisk) för att göra förutsägelser om data i batch.

Med tiden måste förutsägelsemodellerna i Studio-bedömningsexperimenten (klassiska) tränas om med hjälp av nya indatauppsättningar. När du är klar med omträningen vill du uppdatera bedömningswebbtjänsten med den omtränad maskininlärningsmodellen. Du kan använda aktiviteten Uppdatera resurs för att uppdatera webbtjänsten med den nyligen tränade modellen.

Mer information om dessa Studio-aktiviteter (klassiska) finns i Använda ML Studio-aktiviteter (klassiska).

Lagrad proceduraktivitet

Du kan använda aktiviteten SQL Server Stored Procedure i en Data Factory-pipeline för att anropa en lagrad procedur i något av följande datalager: Azure SQL Database, Azure Synapse Analytics, SQL Server Database i företaget eller en virtuell Azure-dator. Mer information finns i artikeln Lagrad proceduraktivitet .

Data Lake Analytics U-SQL-aktivitet

Data Lake Analytics U-SQL-aktivitet kör ett U-SQL-skript i ett Azure Data Lake Analytics-kluster. Mer information finns i artikeln om U-SQL-aktivitet i Data Analytics.

Azure Synapse Notebook-aktivitet

Azure Synapse Notebook-aktiviteten i en Synapse-pipeline kör en Synapse-anteckningsbok på din Azure Synapse-arbetsyta. Se Transformera data genom att köra en Azure Synapse-notebook-fil.

Databricks Notebook-aktivitet

Azure Databricks Notebook-aktiviteten i en pipeline kör en Databricks-notebook-fil på din Azure Databricks-arbetsyta. Azure Databricks är en hanterad plattform för att köra Apache Spark. Se Transformera data genom att köra en Databricks-notebook-fil.

Databricks Jar-aktivitet

Azure Databricks Jar-aktiviteten i en pipeline kör en Spark Jar i ditt Azure Databricks-kluster. Azure Databricks är en hanterad plattform för att köra Apache Spark. Se Transformera data genom att köra en Jar-aktivitet i Azure Databricks.

Databricks Python-aktivitet

Azure Databricks Python-aktiviteten i en pipeline kör en Python-fil i ditt Azure Databricks-kluster. Azure Databricks är en hanterad plattform för att köra Apache Spark. Se Transformera data genom att köra en Python-aktivitet i Azure Databricks.

Anpassad aktivitet

Om du behöver transformera data på ett sätt som inte stöds av Data Factory kan du skapa en anpassad aktivitet med din egen databearbetningslogik och använda aktiviteten i pipelinen. Du kan konfigurera den anpassade .NET-aktiviteten så att den körs med antingen en Azure Batch-tjänst eller ett Azure HDInsight-kluster. Mer information finns i artikeln Använd anpassade aktiviteter .

Du kan skapa en anpassad aktivitet som kör R-skript i ditt HDInsight-kluster med R installerat. Se Köra R-skript med Hjälp av Azure Data Factory- och Synapse-pipelines.

Beräkningsmiljöer

Du skapar en länkad tjänst för beräkningsmiljön och använder sedan den länkade tjänsten när du definierar en transformeringsaktivitet. Det finns två typer av beräkningsmiljöer som stöds.

  • På begäran: I det här fallet hanteras databehandlingsmiljön helt av tjänsten. Den skapas automatiskt av tjänsten innan ett jobb skickas för att bearbeta data och tas bort när jobbet har slutförts. Du kan konfigurera och kontrollera detaljerade inställningar för beräkningsmiljön på begäran för jobbkörning, klusterhantering och startåtgärder.
  • Bring Your Own: I det här fallet kan du registrera din egen datormiljö (till exempel HDInsight-kluster) som en länkad tjänst. Databehandlingsmiljön hanteras av dig och tjänsten använder den för att köra aktiviteterna.

Se artikeln Compute Linked Services (Beräkningslänkade tjänster ) om du vill veta mer om beräkningstjänster som stöds.

I följande självstudiekurs finns ett exempel på hur du använder en transformeringsaktivitet: Självstudie: transformera data med Spark