Trasformazione origine nel flusso di dati di mappingSource transformation in mapping data flow

Una trasformazione origine configura l'origine dati per il flusso di dati.A source transformation configures your data source for the data flow. Quando si progettano i flussi di dati, il primo passaggio consiste sempre nella configurazione di una trasformazione di origine.When designing data flows, your first step will always be configuring a source transformation. Per aggiungere un'origine, fare clic sulla casella Aggiungi origine nell'area di disegno del flusso di dati.To add a source, click on the Add Source box in the data flow canvas.

Ogni flusso di dati richiede almeno una trasformazione di origine, ma è possibile aggiungere tutte le origini necessarie per completare le trasformazioni dei dati.Every data flow requires at least one source transformation, but you can add as many sources as necessary to complete your data transformations. È possibile unire tali origini insieme a una trasformazione join, Lookup o Union.You can join those sources together with a join, lookup, or a union transformation.

Ogni trasformazione di origine è associata a un solo set di dati Data Factory.Each source transformation is associated with exactly one Data Factory dataset. Il set di dati definisce la forma e il percorso dei dati da cui si desidera eseguire la scrittura o la lettura.The dataset defines the shape and location of the data you want to write to or read from. Se si usa un set di dati basato su file, è possibile usare i caratteri jolly e gli elenchi di file nell'origine per lavorare con più di un file alla volta.If using a file-based dataset, you can use wildcards and file lists in your source to work with more than one file at a time.

Connettori di origine supportati nel flusso di dati di mappingSupported source connectors in mapping data flow

Il flusso di dati di mapping segue un approccio di estrazione, caricamento e trasformazione (ELT) e funziona con i set di dati di staging che sono tutti in Azure.Mapping Data Flow follows an extract, load, transform (ELT) approach and works with staging datasets that are all in Azure. Attualmente i set di dati seguenti possono essere utilizzati in una trasformazione di origine:Currently the following datasets can be used in a source transformation:

Le impostazioni specifiche di questi connettori si trovano nella scheda Opzioni di origine . le informazioni su queste impostazioni sono disponibili nella documentazione del connettore.Settings specific to these connectors are located in the Source options tab. Information on these settings are located in the connector documentation.

Azure Data Factory ha accesso a oltre 90 connettori nativi.Azure Data Factory has access to over 90 native connectors. Per includere dati da tali origini nel flusso di dati, usare l'attività di copia per caricare i dati in una delle aree di gestione temporanea supportate.To include data from those other sources in your data flow, use the Copy Activity to load that data into one of the supported staging areas.

Impostazioni origineSource settings

Dopo aver aggiunto un'origine, configurare tramite la scheda impostazioni di origine . Qui è possibile selezionare o creare il set di dati a cui si riportano i punti di origine.Once you have added a source, configure via the Source Settings tab. Here you can pick or create the dataset your source points at. È anche possibile selezionare le opzioni relative allo schema e al campionamento per i dati.You can also select schema and sampling options for your data.

Scheda Impostazioni di origineSource settings tab

Schema Drift: la deriva dello schema è data factory capacità di gestire in modo nativo schemi flessibili nei flussi di dati senza dover definire in modo esplicito le modifiche apportate alle colonne.Schema drift: Schema Drift is data factory's ability to natively handle flexible schemas in your data flows without needing to explicitly define column changes.

  • Controllare la casella Consenti la deviazione dello schema se le colonne di origine vengono modificate spesso.Check the Allow schema drift box if the source columns will change often. Questa impostazione consente a tutti i campi di origine in ingresso di scorrere le trasformazioni nel sink.This setting allows all incoming source fields to flow through the transformations to the sink.

  • La scelta di dedurre i tipi di colonna derivati indicherà data factory per rilevare e definire i tipi di dati per ogni nuova colonna individuata.Choosing Infer drifted column types will instruct data factory to detect and define data types for each new column discovered. Se questa funzionalità è disattivata, tutte le colonne in sequenza saranno di tipo stringa.With this feature turned off, all drifted columns will be of type string.

Convalida schema: Se Convalida schema è selezionata, il flusso di dati non verrà eseguito se i dati di origine in ingresso non corrispondono allo schema definito del set di dati.Validate schema: If validate schema is selected, the data flow will fail to run if the incoming source data doesn't match the defined schema of the dataset.

Ignora conteggio righe: Il campo Skip line count specifica il numero di righe da ignorare all'inizio del set di dati.Skip line count: The skip line count field specifies how many lines to ignore at the beginning of the dataset.

Campionamento: Abilitare il campionamento per limitare il numero di righe dall'origine.Sampling: Enable sampling to limit the number of rows from your source. Usare questa impostazione quando si testano o si campionano i dati dall'origine a scopo di debug.Use this setting when you test or sample data from your source for debugging purposes.

Righe su più righe: Selezionare righe su più righe se il file di testo di origine contiene valori stringa che si estendono su più righe, ad esempio le nuove righe all'interno di un valore.Multiline rows: Select multiline rows if your source text file contains string values that span multiple rows, i.e. newlines inside a value. Questa impostazione è disponibile solo nei set di impostazioni DelimitedText.This setting is only available in DelimitedText datasets.

Per convalidare che l'origine sia configurata correttamente, attivare la modalità di debug e recuperare un'anteprima dei dati.To validate your source is configured correctly, turn on debug mode and fetch a data preview. Per altre informazioni, vedere modalità di debug.For more information, see Debug mode.

Nota

Quando la modalità di debug è attivata, la configurazione del limite di righe nelle impostazioni di debug sovrascriverà l'impostazione di campionamento nell'origine durante l'anteprima dei dati.When debug mode is turned on, the row limit configuration in debug settings will overwrite the sampling setting in the source during data preview.

ProiezioneProjection

Analogamente agli schemi nei set di dati, la proiezione in un'origine definisce le colonne di dati, i tipi e i formati dei dati di origine.Like schemas in datasets, the projection in a source defines the data columns, types, and formats from the source data. Per la maggior parte dei tipi di set di dati, ad esempio SQL e parquet, la proiezione in un'origine è fissa per riflettere lo schema definito in un set di dati.For most dataset types such as SQL and Parquet, the projection in a source is fixed to reflect the schema defined in a dataset. Quando i file di origine non sono fortemente tipizzati, ad esempio file con estensione CSV flat anziché file parquet, è possibile definire i tipi di dati per ogni campo nella trasformazione di origine.When your source files aren't strongly typed (for example, flat csv files rather than Parquet files), you can define the data types for each field in the source transformation.

Impostazioni nella scheda proiezioneSettings on the Projection tab

Se nel file di testo non è definito alcuno schema, selezionare rileva tipo di dati in modo che data factory campionare e dedurre i tipi di dati.If your text file has no defined schema, select Detect data type so that Data Factory will sample and infer the data types. Selezionare Definisci il formato predefinito per rilevare automaticamente i formati di dati predefiniti.Select Define default format to autodetect the default data formats.

È possibile modificare i tipi di dati delle colonne in una trasformazione di colonna derivata da un flusso inattivo.You can modify the column data types in a down-stream derived-column transformation. Utilizzare una trasformazione seleziona per modificare i nomi delle colonne.Use a select transformation to modify the column names.

Importa schemaImport schema

I set di dati come Avro e CosmosDB che supportano strutture di dati complesse non richiedono la presenza di definizioni dello schema nel DataSet.Datasets like Avro and CosmosDB that support complex data structures do not require schema definitions to exist in the dataset. Sarà quindi possibile fare clic sul pulsante Importa schema nella scheda proiezione per questi tipi di origini.Therefore, you will be able to click the Import Schema button on the Projection tab for these types of sources.

Ottimizzare la trasformazione di origineOptimize the source transformation

Nella scheda ottimizza per la trasformazione origine è possibile che venga visualizzato un tipo di partizione di origine .On the Optimize tab for the source transformation, you might see a Source partition type. Questa opzione è disponibile solo quando l'origine è il database SQL di Azure.This option is available only when your source is Azure SQL Database. Questo perché Data Factory tenta di rendere le connessioni parallele per eseguire query di grandi dimensioni sull'origine del database SQL.This is because Data Factory tries to make connections parallel to run large queries against your SQL Database source.

Impostazioni partizione di origineSource partition settings

Non è necessario partizionare i dati nell'origine del database SQL, ma le partizioni sono utili per le query di grandi dimensioni.You don't have to partition data on your SQL Database source, but partitions are useful for large queries. È possibile basare la partizione su una colonna o su una query.You can base your partition on a column or a query.

Usare una colonna per partizionare i datiUse a column to partition data

Dalla tabella di origine selezionare una colonna in base alla quale eseguire la partizione.From your source table, select a column to partition on. Impostare anche il numero di partizioni.Also set the number of partitions.

Usare una query per partizionare i datiUse a query to partition data

È possibile scegliere di partizionare le connessioni in base a una query.You can choose to partition the connections based on a query. Immettere il contenuto di un predicato WHERE.Enter the contents of a WHERE predicate. Immettere, ad esempio, anno > 1980.For example, enter year > 1980.

Per ulteriori informazioni sull'ottimizzazione all'interno del flusso di dati di mapping, vedere la scheda Optimize.For more information on optimization within mapping data flow, see the Optimize tab.

Passaggi successiviNext steps

Inizia la compilazione di una trasformazione colonna derivata e una trasformazione selezione.Begin building a derived-column transformation and a select transformation.