Trasformazione di origine per il Mapping del flusso di datiSource transformation for Mapping Data Flow

Nota

Azure Data Factory di Mapping del flusso di dati è attualmente una funzionalità di anteprima pubblica e non è soggetto alle disposizioni di contratto di servizio clienti di Azure.Azure Data Factory Mapping Data Flow is currently a public preview feature and is not subject to Azure customer SLA provisions. Mapping di flusso dei dati non sono attualmente disponibili in queste aree di Azure: Occidentale Stati Uniti centrali, Brasile meridionale, Francia centrale, Corea centrale.Currently, Mapping Data Flows are not available in these Azure regions: West Central US, Brazil South, France Central, Korea Central.

Una trasformazione origine consente di configurare l'origine dati per il flusso di dati.A source transformation configures your data source for the data flow. Un flusso di dati può includere più di una trasformazione di origine.A data flow can include more than one source transformation. Durante la progettazione dei dati viene trasmesso, iniziano sempre con una trasformazione di origine.When designing data flows, always begin with a source transformation.

Ogni flusso di dati richiede la trasformazione di almeno un'origine.Every data flow requires at least one source transformation. Aggiungere origini tante quante sono necessarie per completare le trasformazioni di dati.Add as many sources as necessary to complete your data transformations. È possibile aggiungere tali origini con una trasformazione di join o in una trasformazione unione.You can join those sources together with a join transformation or a union transformation.

Nota

Quando si esegue il debug del flusso di dati, i dati vengono letti dall'origine utilizzando l'impostazione di campionamento o i limiti di origine di debug.When you debug your data flow, data is read from the source by using the sampling setting or the debug source limits. Per scrivere i dati a un sink, è necessario eseguire il flusso di dati da una pipeline di attività del flusso di dati.To write data to a sink, you must run your data flow from a pipeline Data Flow activity.

Opzioni di trasformazione nella scheda Impostazioni di origine di origineSource transformation options on the Source Settings tab

Associare la trasformazione di origine del flusso di dati con un solo set di dati di Data Factory.Associate your Data Flow source transformation with exactly one Data Factory dataset. Il set di dati definisce la forma e la posizione dei dati che si desidera scrivere o leggere dal.The dataset defines the shape and location of the data you want to write to or read from. È possibile usare gli elenchi di file e i caratteri jolly nell'origine per lavorare con più di un file alla volta.You can use wildcards and file lists in your source to work with more than one file at a time.

Aree di gestione temporanea del flusso di datiData Flow staging areas

Flusso di dati funziona con staging i set di dati in Azure.Data Flow works with staging datasets that are all in Azure. Usare questi set di dati per la gestione temporanea quando si eseguono la trasformazione dei dati.Use these datasets for staging when you're transforming your data.

Data Factory può accedere a circa 80 connettori nativi.Data Factory has access to nearly 80 native connectors. Per includere dati da tali altre origini nel flusso di dati, utilizzare lo strumento di attività di copia per inserire temporaneamente i dati in una delle aree di gestione temporanea di set di dati del flusso di dati.To include data from those other sources in your data flow, use the Copy Activity tool to stage that data in one of the Data Flow dataset staging areas.

OpzioniOptions

Scegliere le opzioni dello schema e il campionamento dei dati.Choose schema and sampling options for your data.

Permettere la deviazione schemaAllow schema drift

Selezionare consentire deviazione schema se le colonne di origine verranno modificato spesso.Select Allow schema drift if the source columns will change often. Questa impostazione consente tutti i campi di origine in ingresso a fluire attraverso le trasformazioni al sink.This setting allows all incoming source fields to flow through the transformations to the sink.

Convalida schemaValidate schema

Se la versione dei dati di origine in ingresso non corrisponde allo schema definito, il flusso di dati avrà esito negativo per l'esecuzione.If the incoming version of the source data doesn't match the defined schema, the data flow will fail to run.

Le impostazioni di origine pubblica, che illustra le opzioni per lo schema di convalida, la deviazione schema di Consenti e campionamentoPublic source settings, showing the options for Validate schema, Allow schema drift, and Sampling

I dati di esempioSample the data

Abilitare campionamento per limitare il numero di righe dall'origine.Enable Sampling to limit the number of rows from your source. Usare questa impostazione durante il test o dati di esempio dall'origine a scopo di debug.Use this setting when you test or sample data from your source for debugging purposes.

Definizione di schemaDefine schema

Quando i file di origine non sono fortemente tipizzati (ad esempio, file flat anziché file Parquet), definire i tipi di dati per ogni campo qui nella trasformazione origine.When your source files aren't strongly typed (for example, flat files rather than Parquet files), define the data types for each field here in the source transformation.

Le impostazioni di trasformazione nella scheda definizione dello schema di origineSource transformation settings on the Define schema tab

In un secondo momento, è possibile modificare i nomi delle colonne in una trasformazione Seleziona.You can later change the column names in a select transformation. Utilizzare una trasformazione colonna derivata per modificare i tipi di dati.Use a derived-column transformation to change the data types. Per le origini fortemente tipizzate, è possibile modificare i tipi di dati in una trasformazione seleziona in un secondo momento.For strongly typed sources, you can modify the data types in a later select transformation.

I tipi di dati in una trasformazione selezionaData types in a select transformation

Ottimizzare la trasformazione di origineOptimize the source transformation

Nel Ottimizza scheda per la trasformazione di origine, è possibile visualizzare un origine tipo di partizione.On the Optimize tab for the source transformation, you might see a Source partition type. Questa opzione è disponibile solo quando l'origine è il Database SQL di Azure.This option is available only when your source is Azure SQL Database. Si tratta in quanto il tentativo di stabilire connessioni parallele per eseguire query di grandi dimensioni di origine del Database SQL di Data Factory.This is because Data Factory tries to make connections parallel to run large queries against your SQL Database source.

Le impostazioni della partizione di origineSource partition settings

Non è necessario partizionare i dati nell'origine Database SQL, ma le partizioni sono utili per query di grandi dimensioni.You don't have to partition data on your SQL Database source, but partitions are useful for large queries. È possibile basare la partizione in una colonna o una query.You can base your partition on a column or a query.

Utilizzare una colonna di partizionamento dei datiUse a column to partition data

Dalla tabella di origine, selezionare una colonna di partizione su.From your source table, select a column to partition on. Impostare anche il numero di partizioni.Also set the number of partitions.

Usare una query per partizionare i datiUse a query to partition data

È possibile scegliere di partizionare le connessioni basate su una query.You can choose to partition the connections based on a query. È sufficiente immettere il contenuto di un predicato WHERE.Simply enter the contents of a WHERE predicate. Immettere ad esempio, anno 1980 >.For example, enter year > 1980.

Gestione file di origineSource file management

Scegliere le impostazioni per gestire i file nell'origine.Choose settings to manage files in your source.

Nuove impostazioni di origineNew source settings

  • Percorso con caratteri jolly: La cartella di origine, scegliere una serie di file che corrispondono ai criteri.Wildcard path: From your source folder, choose a series of files that match a pattern. Questa impostazione esegue l'override di qualsiasi file nella definizione del set di dati.This setting overrides any file in your dataset definition.

Esempi di carattere jolly:Wildcard examples:

  • * Rappresenta qualsiasi set di caratteri* Represents any set of characters

  • ** Rappresenta l'annidamento di directory ricorsiva** Represents recursive directory nesting

  • ? Sostituisce un carattere? Replaces one character

  • [] Corrisponde a una delle più caratteri tra parentesi quadre[] Matches one of more characters in the brackets

  • /data/sales/**/*.csv Ottiene tutti i file csv in /data/sales/data/sales/**/*.csv Gets all csv files under /data/sales

  • /data/sales/20??/** Ottiene tutti i file nel ventesimo secolo/data/sales/20??/** Gets all files in the 20th century

  • /data/sales/2004/*/12/[XY]1?.csv Ottiene tutti i file csv nel 2004 nel mese di dicembre iniziano con X o Y preceduto da un numero a 2 cifre/data/sales/2004/*/12/[XY]1?.csv Gets all csv files in 2004 in December starting with X or Y prefixed by a 2-digit number

Contenitore deve essere specificato nel set di dati.Container has to be specified in the dataset. Il percorso con caratteri jolly pertanto necessario includere anche il percorso della cartella nella cartella radice.Your wildcard path must therefore also include your folder path from the root folder.

  • Elenco di file: Si tratta di un set di file.List of files: This is a file set. Creare un file di testo che include un elenco di file di percorso relativo per l'elaborazione.Create a text file that includes a list of relative path files to process. Puntare a questo file di testo.Point to this text file.
  • Colonna per archiviare il nome di file: Store il nome del file di origine in una colonna nei dati.Column to store file name: Store the name of the source file in a column in your data. Immettere un nuovo nome per archiviare la stringa del nome file.Enter a new name here to store the file name string.
  • Dopo il completamento: Scegliere di non eseguire alcuna operazione con il file di origine dopo che i dati di esecuzioni dei flussi, eliminare il file di origine o spostare il file di origine.After completion: Choose to do nothing with the source file after the data flow runs, delete the source file, or move the source file. I percorsi per lo spostamento sono relativi.The paths for the move are relative.

Per spostare i file di origine per la post-elaborazione di un altro percorso, selezionare prima di tutto "Spostare" per l'operazione di file.To move source files to another location post-processing, first select "Move" for file operation. Quindi, impostare la directory "da".Then, set the "from" directory. Se non si usa caratteri jolly per il percorso, "l'impostazione from" sarà la stessa cartella come cartella di origine.If you are not using any wildcards for your path, then the "from" setting will be the same folder as your source folder.

Se si dispone di un percorso di origine con caratteri jolly, ad esempio:If you have a wildcarded source path, ex:

/data/sales/20??/**/*.csv

È possibile specificare "da" comeYou can specify "from" as

/data/sales

E "a" comeAnd "to" as

/backup/priorSales

In questo caso, tutte le sottodirectory /data/sales che sono state originate vengono spostate relativo /backup/priorSales.In this case, all subdirectories under /data/sales which were sourced are moved relative to /backup/priorSales.

Set di dati SQLSQL datasets

Se l'origine è nel Database SQL o SQL Data Warehouse, sono disponibili opzioni aggiuntive per la gestione di file di origine.If your source is in SQL Database or SQL Data Warehouse, you have additional options for source file management.

  • Query: Immettere una query SQL per l'origine.Query: Enter a SQL query for your source. Questa impostazione esegue l'override di qualsiasi tabella che si è scelto nel set di dati.This setting overrides any table that you've chosen in the dataset. Si noti che Order By clausole non sono supportate in questo caso, ma è possibile impostare un'istruzione SELECT FROM completa.Note that Order By clauses aren't supported here, but you can set a full SELECT FROM statement. È anche possibile usare funzioni di tabella definito dall'utente.You can also use user-defined table functions. Selezionare * da udfGetData() è una funzione definita dall'utente in SQL che restituisce una tabella.select * from udfGetData() is a UDF in SQL that returns a table. Questa query produce una tabella di origine che è possibile usare nel flusso di dati.This query will produce a source table that you can use in your data flow.
  • Dimensioni batch: Immettere le dimensioni del batch per suddividere i dati di grandi dimensioni in operazioni di lettura.Batch size: Enter a batch size to chunk large data into reads.
  • Livello di isolamento: Il valore predefinito per le origini SQL in Azure Data factory di Mapping di flusso dei dati è Read Uncommitted.Isolation Level: Default for SQL sources in ADF Mapping Data Flows is Read Uncommitted. È possibile modificare il livello di isolamento qui a uno dei valori seguenti:You can change the isolation level here to one of these values:
  • Read commitRead Committed
  • Read UncommittedRead Uncommitted
  • Repeatable ReadRepeatable Read
  • SerializzabileSerializable
  • None (Ignora a livello di isolamento)None (ignore isolation level)

Livello di isolamentoIsolation Level

Nota

File operazioni vengono eseguite solo quando si avvia il flusso di dati da un'esecuzione (debug di pipeline o esecuzione) della pipeline che usa l'attività di esecuzione del flusso di dati in una pipeline.File operations run only when you start the data flow from a pipeline run (a pipeline debug or execution run) that uses the Execute Data Flow activity in a pipeline. Operazioni sui file non li eseguito in modalità di debug del flusso di dati.File operations do not run in Data Flow debug mode.

ProiezioneProjection

Ad esempio gli schemi nel set di dati, la proiezione in un'origine definisce le colonne di dati, tipi e formati di dati di origine.Like schemas in datasets, the projection in a source defines the data columns, types, and formats from the source data.

Le impostazioni della scheda proiezioneSettings on the Projection tab

Se il file di testo non ha uno schema definito, selezionare rileva tipo di dati in modo che Data Factory verrà di esempio e in grado di dedurre i tipi di dati.If your text file has no defined schema, select Detect data type so that Data Factory will sample and infer the data types. Selezionare formato predefinito Definisci per rileva automaticamente i formati dati predefiniti.Select Define default format to autodetect the default data formats.

È possibile modificare i tipi di dati di colonna in una trasformazione colonna derivata in un secondo momento.You can modify the column data types in a later derived-column transformation. Utilizzare una trasformazione Seleziona per modificare i nomi delle colonne.Use a select transformation to modify the column names.

Le impostazioni per i formati di dati predefinitiSettings for default data formats

Aggiungere contenuto dinamicoAdd dynamic content

Quando si fa clic all'interno di campi nel Pannello di impostazione, verrà visualizzato un collegamento ipertestuale per "Aggiungi contenuto dinamico".When you click inside of fields in the setting panel, you will see a hyperlink for "Add dynamic content". Quando si fa clic di seguito, si avvierà il generatore di espressioni.When you click here, you will launch the Expression Builder. Si tratta in cui è possibile impostare i valori per le impostazioni in modo dinamico utilizzando espressioni, i valori letterali statici o parametri.This is where you can set values for settings dynamically using expressions, static literal values, or parameters.

I parametriParameters

Passaggi successiviNext steps

Iniziare a creare un trasformazione colonna derivata e una trasformazione selezionare.Begin building a derived-column transformation and a select transformation.