Eşleme veri akışında kaynak dönüştürmeSource transformation in mapping data flow

Uygulama hedefi: Azure SYNAPSE Analytics 'i Azure Data Factory

Kaynak dönüştürmesi veri akışı için veri kaynağınızı yapılandırır.A source transformation configures your data source for the data flow. Veri akışları tasarladığınızda, ilk adımınız her zaman bir kaynak dönüşümü yapılandırır.When you design data flows, your first step is always configuring a source transformation. Kaynak eklemek için veri akışı tuvalindeki Kaynak Ekle kutusunu seçin.To add a source, select the Add Source box in the data flow canvas.

Her veri akışı için en az bir kaynak dönüştürmesi gerekir, ancak veri dönüştürmelerinizi tamamlayabilmeniz için gereken sayıda kaynak ekleyebilirsiniz.Every data flow requires at least one source transformation, but you can add as many sources as necessary to complete your data transformations. Bu kaynakları bir birleştirme, arama veya birleşim dönüşümle birlikte birleştirebilirsiniz.You can join those sources together with a join, lookup, or a union transformation.

Her kaynak dönüştürmesi, tam olarak bir veri kümesiyle veya bağlı hizmetle ilişkilendirilir.Each source transformation is associated with exactly one dataset or linked service. Veri kümesi, yazmak veya okumak istediğiniz verilerin şeklini ve konumunu tanımlar.The dataset defines the shape and location of the data you want to write to or read from. Dosya tabanlı veri kümesi kullanıyorsanız, aynı anda birden fazla dosyayla çalışmak için kaynağınızdan joker karakterler ve dosya listelerini kullanabilirsiniz.If you use a file-based dataset, you can use wildcards and file lists in your source to work with more than one file at a time.

Satır içi veri kümeleriInline datasets

Kaynak dönüştürmesi oluştururken yaptığınız ilk karar, kaynak bilgilerinizin bir veri kümesi nesnesi içinde veya kaynak dönüşümünde tanımlanıp tanımlanmayacağı.The first decision you make when you create a source transformation is whether your source information is defined inside a dataset object or within the source transformation. Çoğu biçim yalnızca bir veya diğeri içinde kullanılabilir.Most formats are available in only one or the other. Belirli bir bağlayıcıyı nasıl kullanacağınızı öğrenmek için ilgili bağlayıcı belgesine bakın.To learn how to use a specific connector, see the appropriate connector document.

Bir biçim hem satır içi hem de bir veri kümesi nesnesinde destekleniyorsa, her ikisine de faydalanır.When a format is supported for both inline and in a dataset object, there are benefits to both. Veri kümesi nesneleri, diğer veri akışlarında ve kopyalama gibi etkinliklerde kullanılabilen yeniden kullanılabilir varlıklardır.Dataset objects are reusable entities that can be used in other data flows and activities such as Copy. Bu yeniden kullanılabilir varlıklar özellikle sıkı bir şema kullandığınızda kullanışlıdır.These reusable entities are especially useful when you use a hardened schema. Veri kümeleri Spark temelli değildir.Datasets aren't based in Spark. Bazen, kaynak dönüşümünde belirli ayarları veya şema projeksiyonunu geçersiz kılmanız gerekebilir.Occasionally, you might need to override certain settings or schema projection in the source transformation.

Esnek şemalar, tek seferlik kaynak örnekleri veya parametreli kaynaklar kullandığınızda satır içi veri kümeleri önerilir.Inline datasets are recommended when you use flexible schemas, one-off source instances, or parameterized sources. Kaynağınız çok fazla parametreli ise, satır içi veri kümeleri "kukla" bir nesne oluşturmanıza izin verir.If your source is heavily parameterized, inline datasets allow you to not create a "dummy" object. Satır içi veri kümeleri Spark 'a dayalıdır ve özellikleri veri akışına yereldir.Inline datasets are based in Spark, and their properties are native to data flow.

Satır içi veri kümesi kullanmak için kaynak türü seçicisinde istediğiniz biçimi seçin.To use an inline dataset, select the format you want in the Source type selector. Kaynak veri kümesi seçmek yerine, bağlanmak istediğiniz bağlı hizmeti seçersiniz.Instead of selecting a source dataset, you select the linked service you want to connect to.

Satır Içi seçili öğesini gösteren ekran görüntüsü.Screenshot that shows Inline selected.

Desteklenen kaynak türleriSupported source types

Veri akışı eşleme, ayıklama, yükleme ve dönüştürme (ELT) yaklaşımını izler ve Azure 'da tümü olan hazırlama veri kümeleri ile birlikte kullanılır.Mapping data flow follows an extract, load, and transform (ELT) approach and works with staging datasets that are all in Azure. Şu anda, aşağıdaki veri kümeleri bir kaynak dönüşümünde kullanılabilir.Currently, the following datasets can be used in a source transformation.

BağlayıcıConnector BiçimlendirFormat Veri kümesi/satır içiDataset/inline
Azure Blob DepolamaAzure Blob Storage AvroAvro
Sınırlandırılmış metinDelimited text
DeltaDelta
ExcelExcel
JSONJSON
ORCORC
ParquetParquet
XMLXML
✓/✓✓/✓
✓/✓✓/✓
✓/✓✓/✓
✓/✓✓/✓
✓/-✓/-
✓/✓✓/✓
✓/-✓/-
✓/✓✓/✓
Azure Cosmos DB (SQL API)Azure Cosmos DB (SQL API) ✓/-✓/-
Azure Data Lake Storage Gen1Azure Data Lake Storage Gen1 AvroAvro
Sınırlandırılmış metinDelimited text
ExcelExcel
JSONJSON
ORCORC
ParquetParquet
XMLXML
✓/✓✓/✓
✓/✓✓/✓
✓/✓✓/✓
✓/-✓/-
✓/✓✓/✓
✓/-✓/-
✓/✓✓/✓
Azure Data Lake Storage 2. NesilAzure Data Lake Storage Gen2 AvroAvro
Ortak Veri ModeliCommon Data Model
Sınırlandırılmış metinDelimited text
DeltaDelta
ExcelExcel
JSONJSON
ORCORC
ParquetParquet
XMLXML
✓/✓✓/✓
-/✓-/✓
✓/✓✓/✓
✓/✓✓/✓
✓/✓✓/✓
✓/-✓/-
✓/✓✓/✓
✓/-✓/-
✓/✓✓/✓
PostgreSQL için Azure VeritabanıAzure Database for PostgreSQL ✓/✓✓/✓
Azure SQL VeritabanıAzure SQL Database ✓/-✓/-
Azure SQL Yönetilen ÖrnekAzure SQL Managed Instance ✓/-✓/-
Azure Synapse AnalyticsAzure Synapse Analytics ✓/-✓/-
HiveHive -/✓-/✓
SnowflakeSnowflake ✓/✓✓/✓

Bu bağlayıcılara özgü ayarlar, kaynak seçenekleri sekmesinde bulunur. Bu ayarlara ilişkin bilgi ve veri akışı betiği örnekleri bağlayıcı belgelerinde bulunur.Settings specific to these connectors are located on the Source options tab. Information and data flow script examples on these settings are located in the connector documentation.

Azure Data Factory, 90 ' den fazla Yerelbağlayıcıya erişebilir.Azure Data Factory has access to more than 90 native connectors. Veri akışınız içindeki diğer kaynaklardan verileri dahil etmek için kopyalama etkinliğini kullanarak bu verileri desteklenen hazırlama alanlarından birine yükleyin.To include data from those other sources in your data flow, use the Copy Activity to load that data into one of the supported staging areas.

Kaynak ayarlarıSource settings

Kaynak ekledikten sonra, kaynak ayarları sekmesini kullanarak yapılandırın. Burada kaynak noktalarınızın veri kümesini seçebilirsiniz veya oluşturabilirsiniz.After you've added a source, configure via the Source settings tab. Here you can pick or create the dataset your source points at. Verileriniz için şema ve örnekleme seçeneklerini de belirleyebilirsiniz.You can also select schema and sampling options for your data.

Veri kümesi parametrelerinin geliştirme değerleri hata ayıklama ayarlarındayapılandırılabilir.Development values for dataset parameters can be configured in debug settings. (Hata ayıklama modunun açık olması gerekir.)(Debug mode must be turned on.)

Kaynak ayarları sekmesini gösteren ekran görüntüsü.Screenshot that shows the Source settings tab.

Çıkış akışı adı: kaynak dönüşümünün adı.Output stream name: The name of the source transformation.

Kaynak türü: satır içi veri kümesi mi yoksa mevcut bir veri kümesi nesnesi mi kullanacağınızı seçin.Source type: Choose whether you want to use an inline dataset or an existing dataset object.

Test bağlantısı: veri akışının Spark hizmetinin kaynak veri kümenizde kullanılan bağlantılı hizmete başarıyla bağlanıp bağlanamamadığını test edin.Test connection: Test whether or not the data flow's Spark service can successfully connect to the linked service used in your source dataset. Bu özelliğin etkinleştirilmesi için hata ayıklama modunun açık olması gerekir.Debug mode must be on for this feature to be enabled.

Şema kayması: şema DRFT , sütun değişikliklerini açıkça tanımlamaya gerek kalmadan veri akışlarınızda esnek şemaları yerel olarak işleme Data Factory yeteneğidir.Schema drift: Schema drift is the ability of Data Factory to natively handle flexible schemas in your data flows without needing to explicitly define column changes.

  • Kaynak sütunlar sık olarak değişeyorsa şema kurutma Izin ver onay kutusunu seçin.Select the Allow schema drift check box if the source columns will change often. Bu ayar tüm gelen kaynak alanlarının, iç dönüşümlerdeki dönüşümlere akmasını sağlar.This setting allows all incoming source fields to flow through the transformations to the sink.

  • Düzeltebilecekler sütun türlerini çıkar seçeneğinin belirlenmesi, bulunan her yeni sütunun veri türlerini algılamasını ve tanımlamasını Data Factory söyler.Selecting Infer drifted column types instructs Data Factory to detect and define data types for each new column discovered. Bu özellik kapatılmış durumdayken tüm düzeltebilecekler sütunları dize türünde olacaktır.With this feature turned off, all drifted columns will be of type string.

Şemayı doğrula: Şemayı doğrula seçilirse, gelen kaynak verileri veri kümesinin tanımlı şemasıyla eşleşmiyorsa veri akışı çalıştırılamaz.Validate schema: If Validate schema is selected, the data flow will fail to run if the incoming source data doesn't match the defined schema of the dataset.

Satır sayısını atla: satır sayısını atla alanı, veri kümesinin başlangıcında yok sayılacak satır sayısını belirtir.Skip line count: The Skip line count field specifies how many lines to ignore at the beginning of the dataset.

Örnekleme: kaynağınızdan satır sayısını sınırlamak için örneklemesi etkinleştirin.Sampling: Enable Sampling to limit the number of rows from your source. Hata ayıklama amacıyla kaynağınızdan verileri test ettiğinizde veya örnekleyebilirsiniz bu ayarı kullanın.Use this setting when you test or sample data from your source for debugging purposes. Bu, bir işlem hattından hata ayıklama modundaki veri akışlarını yürütürken çok yararlı olur.This is very useful when executing data flows in debug mode from a pipeline.

Kaynağınızın doğru yapılandırıldığını doğrulamak için hata ayıklama modunu açın ve bir veri önizlemesi getirin.To validate your source is configured correctly, turn on debug mode and fetch a data preview. Daha fazla bilgi için bkz. hata ayıklama modu.For more information, see Debug mode.

Not

Hata ayıklama modu açıldığında, hata ayıklama ayarlarındaki satır sınırı yapılandırması, veri önizlemesi sırasında kaynaktaki örnekleme ayarının üzerine yazar.When debug mode is turned on, the row limit configuration in debug settings will overwrite the sampling setting in the source during data preview.

Kaynak seçenekleriSource options

Kaynak seçenekleri sekmesi, seçilen bağlayıcıya ve biçime özgü ayarları içerir.The Source options tab contains settings specific to the connector and format chosen. Daha fazla bilgi ve örnek için ilgili bağlayıcı belgelerinebakın.For more information and examples, see the relevant connector documentation.

ProjeksiyonProjection

Veri kümelerinde bulunan şemalar gibi, bir kaynaktaki projeksiyon, kaynak verilerden veri sütunlarını, türlerini ve biçimlerini tanımlar.Like schemas in datasets, the projection in a source defines the data columns, types, and formats from the source data. SQL ve Parquet gibi çoğu veri kümesi türü için bir kaynaktaki projeksiyon, veri kümesinde tanımlanan şemayı yansıtacak şekilde düzeltilir.For most dataset types, such as SQL and Parquet, the projection in a source is fixed to reflect the schema defined in a dataset. Kaynak dosyalarınız kesin olarak türsüz (örneğin, Parquet dosyaları yerine Flat. csv dosyaları), kaynak dönüşümünde her bir alan için veri türlerini tanımlayabilirsiniz.When your source files aren't strongly typed (for example, flat .csv files rather than Parquet files), you can define the data types for each field in the source transformation.

Projeksiyon sekmesindeki ayarları gösteren ekran görüntüsü.Screenshot that shows settings on the Projection tab.

Metin dosyanızda tanımlı bir şema yoksa, Data Factory veri türlerini ve çıkarması için veri türünü Algıla ' yı seçin.If your text file has no defined schema, select Detect data type so that Data Factory will sample and infer the data types. Varsayılan veri biçimlerini otomatik algıla için varsayılan biçimi tanımla ' yı seçin.Select Define default format to autodetect the default data formats.

Şemayı Sıfırla , yansıtmayı başvurulan veri kümesinde tanımlananla sıfırlar.Reset schema resets the projection to what is defined in the referenced dataset.

Sütun veri türlerini aşağı akış türetilmiş sütun dönüşümünde değiştirebilirsiniz.You can modify the column data types in a downstream derived-column transformation. Sütun adlarını değiştirmek için bir seçme dönüşümü kullanın.Use a select transformation to modify the column names.

Şemayı içeri aktarImport schema

Bir şema projeksiyonu oluşturmak üzere etkin bir hata ayıklama kümesi kullanmak için İzdüşüm sekmesindeki şemayı içeri aktar düğmesini seçin.Select the Import schema button on the Projection tab to use an active debug cluster to create a schema projection. Her kaynak türünde kullanılabilir.It's available in every source type. Şemayı buraya aktarmak, veri kümesinde tanımlanan yansıtmayı geçersiz kılacaktır.Importing the schema here will override the projection defined in the dataset. DataSet nesnesi değiştirilmez.The dataset object won't be changed.

Şemayı içeri aktarma, avro ve Azure Cosmos DB gibi veri kümelerinde yararlıdır ve şema tanımlarının veri kümesinde var olmasını gerektirmeyen karmaşık veri yapılarını destekler.Importing schema is useful in datasets like Avro and Azure Cosmos DB that support complex data structures that don't require schema definitions to exist in the dataset. Satır içi veri kümeleri için şemayı içeri aktarma, şema kayması olmadan sütun meta verilerine başvurmak için tek yoldur.For inline datasets, importing schema is the only way to reference column metadata without schema drift.

Kaynak dönüşümünü iyileştirmeOptimize the source transformation

En iyileştirme sekmesi, her bir dönüştürme adımında bölüm bilgilerinin düzenlenmesine izin verir.The Optimize tab allows for editing of partition information at each transformation step. Çoğu durumda, geçerli bölümleme kullan , bir kaynağın ideal bölümlendirme yapısına yönelik en iyi hale getirir.In most cases, Use current partitioning will optimize for the ideal partitioning structure for a source.

Bir Azure SQL veritabanı kaynağından okuyorsanız, özel kaynak bölümlendirme büyük olasılıkla verileri en hızlı okuyacaktır.If you're reading from an Azure SQL Database source, custom Source partitioning will likely read data the fastest. Data Factory, veritabanınıza paralel olarak bağlantı oluşturarak büyük sorguları okur.Data Factory will read large queries by making connections to your database in parallel. Bu kaynak bölümleme, bir sütunda veya bir sorgu kullanılarak yapılabilir.This source partitioning can be done on a column or by using a query.

Kaynak bölüm ayarlarını gösteren ekran görüntüsü.Screenshot that shows the Source partition settings.

Eşleme veri akışı içinde iyileştirme hakkında daha fazla bilgi için, optimizasyon sekmesinebakın.For more information on optimization within mapping data flow, see the Optimize tab.

Sonraki adımlarNext steps

Türetilmiş sütun dönüşümünde ve seçim dönüşümündeveri akışınızı oluşturmaya başlayın.Begin building your data flow with a derived-column transformation and a select transformation.