Trasformazione per un flusso di dati di sinkSink transformation for a data flow

Nota

Azure Data Factory di Mapping del flusso di dati è attualmente una funzionalità di anteprima pubblica e non è soggetto alle disposizioni di contratto di servizio clienti di Azure.Azure Data Factory Mapping Data Flow is currently a public preview feature and is not subject to Azure customer SLA provisions. Mapping di flusso dei dati non sono attualmente disponibili in queste aree di Azure: Occidentale Stati Uniti centrali, Brasile meridionale, Francia centrale, Corea centrale.Currently, Mapping Data Flows are not available in these Azure regions: West Central US, Brazil South, France Central, Korea Central.

Dopo aver trasformato il flusso di dati, è possibile includere i dati in un set di dati di destinazione.After you transform your data flow, you can sink the data into a destination dataset. Nella trasformazione sink, scegliere una definizione di set di dati per i dati di output di destinazione.In the sink transformation, choose a dataset definition for the destination output data. Può avere molti sink trasformazioni come flusso di dati richiesto.You can have as many sink transformations as your data flow requires.

All'account per la deviazione schema e le modifiche nei dati in ingresso, elaborare i dati di output in una cartella senza uno schema definito nel set di dati di output.To account for schema drift and changes in incoming data, sink the output data to a folder without a defined schema in the output dataset. È possibile inoltre in considerazione per la modifica delle colonne delle origini selezionando consentire deviazione schema nell'origine.You can also account for column changes in your sources by selecting Allow schema drift in the source. Quindi Esegui mapping automatico di tutti i campi nel sink.Then automap all fields in the sink.

Le opzioni della scheda Sink, tra cui l'opzione Auto MapOptions on the Sink tab, including the Auto Map option

Per elaborare tutti i campi in ingresso, attivare mapping automatico.To sink all incoming fields, turn on Auto Map. Per scegliere i campi al sink nella destinazione o per modificare i nomi dei campi nella destinazione, la disattivazione mapping automatico.To choose the fields to sink to the destination, or to change the names of the fields at the destination, turn off Auto Map. Quindi aprire il Mapping pressione di tab per eseguire il mapping di campi di output.Then open the Mapping tab to map output fields.

Le opzioni nella scheda MappingOptions on the Mapping tab

OutputOutput

Per i tipi di sink di archivio Data Lake o archiviazione Blob di Azure di output i dati trasformati in una cartella.For Azure Blob storage or Data Lake Storage sink types, output the transformed data into a folder. Spark genera file di dati di output partizionato basati sullo schema di partizionamento utilizzato dalla trasformazione sink.Spark generates partitioned output data files based on the partitioning scheme that the sink transformation uses.

È possibile impostare lo schema di partizionamento dal Ottimizza scheda. Se si desidera che Data Factory per unire l'output in un singolo file, selezionare singola partizione.You can set the partitioning scheme from the Optimize tab. If you want Data Factory to merge your output into a single file, select Single partition.

Le opzioni nella scheda OttimizzaOptions on the Optimize tab

Mapping campiField mapping

Nel Mapping scheda della trasformazione del sink, è possibile mappare le colonne in ingresso a sinistra per le destinazioni a destra.On the Mapping tab of your sink transformation, you can map the incoming columns on the left to the destinations on the right. Quando si sink flussi di dati per il file, Data Factory verrà sempre in grado di scrivere i nuovi file in una cartella.When you sink data flows to files, Data Factory will always write new files to a folder. Quando esegue il mapping a un set di dati di database, è possibile generare una nuova tabella che utilizza questo schema impostando Salva criterio al Sovrascrivi.When you map to a database dataset, you can generate a new table that uses this schema by setting Save Policy to Overwrite. O inserire nuove righe in una tabella esistente e quindi eseguire il mapping campi allo schema esistente.Or insert new rows in an existing table and then map the fields to the existing schema.

Scheda MappingThe Mapping tab

Nella tabella di mapping, è possibile selezione multipla per collegare più colonne, vengono scollegate le più colonne o eseguire il mapping di più righe per lo stesso nome di colonna.In the mapping table, you can multiselect to link multiple columns, delink multiple columns, or map multiple rows to the same column name.

Eseguire il mapping sempre il set di campi in ingresso a una destinazione non appena vengono e di accettare completamente le definizioni di schema flessibile, selezionare consentire deviazione schema.To always map the incoming set of fields to a target as they are and to fully accept flexible schema definitions, select Allow schema drift.

Scheda Mapping, che mostra i campi mappati alle colonne nel set di datiThe Mapping tab, showing fields mapped to columns in the dataset

Per reimpostare i mapping delle colonne, selezionare rimappare.To reset your column mappings, select Re-map.

La scheda di SinkThe Sink tab

Selezionare schema di convalida per eseguire il sink se viene modificato lo schema.Select Validate schema to fail the sink if the schema changes.

Selezionare cancellare la cartella per troncare il contenuto della cartella sink prima di scrivere i file di destinazione in tale cartella di destinazione.Select Clear the folder to truncate the contents of the sink folder before writing the destination files in that target folder.

Opzioni di nomi di fileFile name options

Impostare la denominazione dei file:Set up file naming:

  • Predefinita: Consenti Spark per denominare i file basati sulle impostazioni predefinite di parte.Default: Allow Spark to name files based on PART defaults.
  • Modello: Immettere un modello per i file di output.Pattern: Enter a pattern for your output files. Ad esempio, loans [n] creerà loans1.csv loans2.csv e così via.For example, loans[n] will create loans1.csv, loans2.csv, and so on.
  • Per ogni partizione: Immettere un nome di file per ogni partizione.Per partition: Enter one file name per partition.
  • I dati nella colonna: Impostare il file di output per il valore di una colonna.As data in column: Set the output file to the value of a column.
  • L'output in un singolo file: Con questa opzione, Azure Data factory combinerà i file di output partizionato in un unico file denominato.Output to a single file: With this option, ADF will combine the partitioned output files into a single named file. Per usare questa opzione, il set di dati deve risolvere un nome di cartella.To use this option, your dataset should resolve to a folder name. Inoltre, tenere presente che questa operazione di unione può verificarsi un errore in base alla dimensione del nodo.Also, please be aware that this merge operation can possibly fail based upon node size.

Nota

Avvio di operazioni di file solo quando si esegue l'attività di esecuzione del flusso di dati.File operations start only when you're running the Execute Data Flow activity. Non vengano avviati in modalità di flusso di Debug dei dati.They don't start in Data Flow Debug mode.

Opzioni di databaseDatabase options

Scegliere le impostazioni del database:Choose database settings:

  • Aggiornare il metodo: Il valore predefinito è per consentire gli inserimenti.Update method: The default is to allow inserts. Deselezionare Consenti insert se si desidera arrestare l'inserimento di nuove righe provenienti dall'origine.Clear Allow insert if you want to stop inserting new rows from your source. Per aggiornare, upsert, o eliminare le righe, innanzitutto aggiungere una trasformazione Modifica righe alle righe di tag per le azioni.To update, upsert, or delete rows, first add an alter-row transformation to tag rows for those actions.
  • Ricrea tabella: Eliminare o creare la tabella di destinazione prima di completamento del flusso di dati.Recreate table: Drop or create your target table before the data flow finishes.
  • Istruzione TRUNCATE table: Rimuovere tutte le righe dalla tabella di destinazione prima al termine del flusso di dati.Truncate table: Remove all rows from your target table before the data flow finishes.
  • Dimensioni batch: Immettere un numero di scritture di bucket in blocchi.Batch size: Enter a number to bucket writes into chunks. Usare questa opzione per carichi di dati di grandi dimensioni.Use this option for large data loads.
  • Abilitare la gestione temporanea: Usare PolyBase durante il caricamento di Azure Data Warehouse come set di dati sink.Enable staging: Use PolyBase when you load Azure Data Warehouse as your sink dataset.

La scheda Impostazioni, che mostra le opzioni del sink SQLThe Settings tab, showing SQL sink options

Nota

Nel flusso di dati, è possibile indirizzare Data Factory per creare una nuova definizione di tabella nel database di destinazione.In Data Flow, you can direct Data Factory to create a new table definition in your target database. Per creare la definizione della tabella, impostare un set di dati nella trasformazione sink con un nuovo nome di tabella.To create the table definition, set a dataset in the sink transformation that has a new table name. Nel set di dati SQL, sotto il nome della tabella, selezionare modifica e immettere un nuovo nome di tabella.In the SQL dataset, below the table name, select Edit and enter a new table name. Quindi, nella trasformazione sink, attivare consentire deviazione schema.Then, in the sink transformation, turn on Allow schema drift. Impostare Importa schema al None.Set Import schema to None.

Impostazioni di set di dati SQL, che mostra dove modificare il nome della tabellaSQL dataset settings, showing where to edit the table name

Nota

Quando si aggiornano o eliminano righe nel sink di database, è necessario impostare la colonna chiave.When you update or delete rows in your database sink, you must set the key column. Questa impostazione consente la trasformazione Modifica righe determinare la riga univoca nella libreria di spostamento dei dati (DML).This setting allows the alter-row transformation to determine the unique row in the data movement library (DML).

Passaggi successiviNext steps

Ora che è stato creato il flusso di dati, aggiungere un attività di flusso di dati per la pipeline.Now that you've created your data flow, add a Data Flow activity to your pipeline.