Källtransformering i vid dataflödesmappning

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dataflöden är tillgängliga både i Azure Data Factory och Azure Synapse Pipelines. Den här artikeln gäller mappning av dataflöden. Om du inte har använt transformeringar tidigare läser du den inledande artikeln Transformera data med hjälp av ett mappningsdataflöde.

En källtransformering konfigurerar datakällan för dataflödet. När du utformar dataflöden är ditt första steg alltid att konfigurera en källtransformering. Om du vill lägga till en källa väljer du rutan Lägg till källa i dataflödesarbetsytan.

Varje dataflöde kräver minst en källtransformering, men du kan lägga till så många källor som behövs för att slutföra dina datatransformeringar. Du kan koppla dessa källor tillsammans med en koppling, uppslag eller en uniontransformering.

Varje källtransformering är associerad med exakt en datauppsättning eller länkad tjänst. Datauppsättningen definierar formen och platsen för de data som du vill skriva till eller läsa från. Om du använder en filbaserad datauppsättning kan du använda jokertecken och fillistor i källan för att arbeta med fler än en fil i taget.

Infogade datauppsättningar

Det första beslutet du fattar när du skapar en källtransformering är om källinformationen definieras i ett datauppsättningsobjekt eller inom källtransformeringen. De flesta format är bara tillgängliga i det ena eller det andra. Information om hur du använder en specifik anslutningsapp finns i lämpligt anslutningsdokument.

När ett format stöds för både infogade objekt och i ett datauppsättningsobjekt finns det fördelar med båda. Datauppsättningsobjekt är återanvändbara entiteter som kan användas i andra dataflöden och aktiviteter som Kopiera. Dessa återanvändbara entiteter är särskilt användbara när du använder ett härdat schema. Datauppsättningar är inte baserade i Spark. Ibland kan du behöva åsidosätta vissa inställningar eller schemaprojektion i källomvandlingen.

Infogade datauppsättningar rekommenderas när du använder flexibla scheman, enstaka källinstanser eller parametriserade källor. Om källan är kraftigt parametriserad kan infogade datauppsättningar göra att du inte kan skapa ett "dummy"-objekt. Infogade datauppsättningar baseras i Spark och deras egenskaper är inbyggda i dataflödet.

Om du vill använda en infogad datauppsättning väljer du önskat format i väljaren Källtyp . I stället för att välja en källdatauppsättning väljer du den länkade tjänst som du vill ansluta till.

Screenshot that shows Inline selected.

Arbetsytedatabas (endast Synapse-arbetsytor)

I Azure Synapse arbetsytor finns ytterligare ett alternativ i dataflödeskällans omvandlingar som kallas Workspace DB. På så sätt kan du direkt välja en arbetsytedatabas av valfri tillgänglig typ som källdata utan att behöva ytterligare länkade tjänster eller datauppsättningar.

Screenshot that shows workspacedb selected.

Källtyper som stöds

Mappning av dataflöde följer en ELT-metod (extract, load och transform) och fungerar med mellanlagring av datauppsättningar som alla finns i Azure. För närvarande kan följande datauppsättningar användas i en källtransformering.

Anslutning Format Datauppsättning/infogad
Amazon S3 Avro
Avgränsad text
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Asana (förhandsversion) -/✓
Azure Blob Storage Avro
Avgränsad text
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Cosmos DB (SQL API) ✓/-
Azure Data Lake Storage Gen1 Avro
Avgränsad text
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Data Lake Storage Gen2 Avro
Common Data Service
Avgränsad text
Delta
Excel
JSON
ORC
Parquet
XML
✓/✓
-/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Azure Database for MySQL ✓/✓
Azure Database for PostgreSQL ✓/✓
Azure-datautforskaren ✓/✓
Azure SQL Database ✓/✓
Hanterad Azure SQL-instans ✓/✓
Azure Synapse Analytics ✓/✓
data.world (förhandsversion) -/✓
Dataverse ✓/✓
Dynamics 365 ✓/✓
Dynamics CRM ✓/✓
Hive -/✓
Snabbbas (förhandsversion) -/✓
SFTP Avro
Avgränsad text
Excel
JSON
ORC
Parquet
XML
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
✓/✓
Smartsheet (förhandsversion) -/✓
Snowflake ✓/✓
SQL Server ✓/✓
REST ✓/✓
TeamDesk (förhandsversion) -/✓
Twilio (förhandsversion) -/✓
Zendesk (förhandsversion) -/✓

Inställningar som är specifika för dessa anslutningsappar finns på fliken Källalternativ. Information och exempel på dataflödesskript för de här inställningarna finns i dokumentationen för anslutningsappen.

Azure Data Factory och Synapse-pipelines har åtkomst till fler än 90 interna anslutningsappar. Om du vill inkludera data från de andra källorna i dataflödet använder du kopieringsaktiviteten för att läsa in dessa data i något av de mellanlagringsområden som stöds.

Källinställningar

När du har lagt till en källa konfigurerar du via fliken Källinställningar . Här kan du välja eller skapa datauppsättningen som källpunkterna finns på. Du kan också välja schema- och samplingsalternativ för dina data.

Utvecklingsvärden för datauppsättningsparametrar kan konfigureras i felsökningsinställningar. (Felsökningsläget måste vara aktiverat.)

Screenshot that shows the Source settings tab.

Namn på utdataström: Namnet på källomvandlingen.

Källtyp: Välj om du vill använda en infogad datauppsättning eller ett befintligt datauppsättningsobjekt.

Testanslutning: Testa om dataflödets Spark-tjänst kan ansluta till den länkade tjänst som används i källdatauppsättningen. Felsökningsläget måste vara aktiverat för att den här funktionen ska vara aktiverad.

Schemaavvikelse: Schemaavvikelser är tjänstens förmåga att internt hantera flexibla scheman i dina dataflöden utan att uttryckligen behöva definiera kolumnändringar.

  • Markera kryssrutan Tillåt schemaavvikelse om källkolumnerna ändras ofta. Med den här inställningen kan alla inkommande källfält flöda genom transformeringar till mottagaren.

  • Om du väljer Härledde kolumntyper instrueras tjänsten att identifiera och definiera datatyper för varje ny kolumn som identifieras. När den här funktionen är inaktiverad kommer alla inaktiverade kolumner att vara av typen sträng.

Validera schemat: Om Verifiera schema har valts kan dataflödet inte köras om inkommande källdata inte matchar datauppsättningens definierade schema.

Hoppa över radantal: Fältet Hoppa över antal rader anger hur många rader som ska ignoreras i början av datauppsättningen.

Sampling: Aktivera sampling för att begränsa antalet rader från källan. Använd den här inställningen när du testar eller provar data från källan i felsökningssyfte. Detta är mycket användbart när du kör dataflöden i felsökningsläge från en pipeline.

Om du vill verifiera att källan är korrekt konfigurerad aktiverar du felsökningsläget och hämtar en förhandsgranskning av data. Mer information finns i Felsökningsläge.

Anteckning

När felsökningsläget är aktiverat skriver radgränskonfigurationen i felsökningsinställningarna över samplingsinställningen i källan under dataförhandsgranskningen.

Källalternativ

Fliken Källalternativ innehåller inställningar som är specifika för anslutningsappen och formatet som valts. Mer information och exempel finns i relevant dokumentation om anslutningsappen.

Projektion

Precis som scheman i datauppsättningar definierar projektionen i en källa datakolumnerna, typerna och formaten från källdata. För de flesta datamängdstyper, till exempel SQL och Parquet, är projektionen i en källa fast för att återspegla schemat som definierats i en datauppsättning. När källfilerna inte är starkt skrivna (till exempel flata .csv filer i stället för Parquet-filer) kan du definiera datatyperna för varje fält i källtransformeringen.

Screenshot that shows settings on the Projection tab.

Om textfilen inte har något definierat schema väljer du Identifiera datatyp så att tjänsten kommer att sampla och härleda datatyperna. Välj Definiera standardformat för att identifiera standarddataformat automatiskt.

Återställningsschemat återställer projektionen till det som definieras i den refererade datauppsättningen.

Skriv över schema gör att du kan ändra de beräknade datatyperna här källan och skriva över de schemadefinierade datatyperna. Du kan också ändra kolumndatatyperna i en transformering av nedströms härledd kolumn. Använd en select-transformering för att ändra kolumnnamnen.

Importera schema

Välj knappen Importera schema på fliken Projektion för att använda ett aktivt felsökningskluster för att skapa en schemaprojektion. Den är tillgänglig i alla källtyper. Om du importerar schemat här åsidosätts projektionen som definierats i datauppsättningen. Datamängdsobjektet ändras inte.

Import av schema är användbart i datauppsättningar som Avro och Azure Cosmos DB som stöder komplexa datastrukturer som inte kräver att schemadefinitioner finns i datauppsättningen. För infogade datauppsättningar är import av schema det enda sättet att referera till kolumnmetadata utan schemaavvikelse.

Optimera källomvandlingen

På fliken Optimera kan du redigera partitionsinformation i varje transformeringssteg. I de flesta fall optimerar Använd aktuell partitionering den idealiska partitioneringsstrukturen för en källa.

Om du läser från en Azure SQL Database källa kommer anpassad källpartitionering sannolikt att läsa data snabbast. Tjänsten läser stora frågor genom att göra anslutningar till databasen parallellt. Den här källpartitioneringen kan göras i en kolumn eller med hjälp av en fråga.

Screenshot that shows the Source partition settings.

Mer information om optimering inom dataflödesmappning finns på fliken Optimera.

Nästa steg

Börja skapa ditt dataflöde med en transformering av härledd kolumn och en utvald transformering.