Azure Data Factory Flow veri Azure Synapse Analytics
Uygulama hedefi:
Azure SYNAPSE Analytics 'i Azure Data Factory
Eşleme veri akışları Flow verileri dönüştürmek ve taşımak için Data Flow etkinliğini kullanın. Veri akışlarına yeni başladıysanız bkz. Eşleme Verileri Flow genel bakış
Syntax
{
"name": "MyDataFlowActivity",
"type": "ExecuteDataFlow",
"typeProperties": {
"dataflow": {
"referenceName": "MyDataFlow",
"type": "DataFlowReference"
},
"compute": {
"coreCount": 8,
"computeType": "General"
},
"traceLevel": "Fine",
"runConcurrently": true,
"continueOnError": true,
"staging": {
"linkedService": {
"referenceName": "MyStagingLinkedService",
"type": "LinkedServiceReference"
},
"folderPath": "my-container/my-folder"
},
"integrationRuntime": {
"referenceName": "MyDataFlowIntegrationRuntime",
"type": "IntegrationRuntimeReference"
}
}
Tür özellikleri
| Özellik | Açıklama | İzin verilen değerler | Gerekli |
|---|---|---|---|
| Dataflow | Yürütülen Veri Flow başvurusu | DataFlowReference | Yes |
| integrationRuntime | Veri akışının üzerinde çalıştır olduğu işlem ortamı. Belirtilmezse, Azure tümleştirme çalışma zamanı otomatik çözümle kullanılır. | IntegrationRuntimeReference | No |
| compute.coreCount | Spark kümesinde kullanılan çekirdek sayısı. Yalnızca Azure Tümleştirmesi'nin otomatik çözümle çalışma zamanı kullanılıyorsa belirtilebilir | 8, 16, 32, 48, 80, 144, 272 | No |
| compute.computeType | Spark kümesinde kullanılan işlem türü. Yalnızca Azure Tümleştirmesi'nin otomatik çözümle çalışma zamanı kullanılıyorsa belirtilebilir | "Genel", "ComputeOptimized", "MemoryOptimized" | No |
| staging.linkedService | Bir kaynak veya havuz Azure Synapse Analytics PolyBase hazırlama için kullanılan depolama hesabını belirtin. Azure Depolama sanal ağ hizmet uç noktasıyla yapılandırılmışsa, depolama hesabında "güvenilen Microsoft hizmetine izin ver" etkinleştirilmiş yönetilen kimlik doğrulaması kullansanız, bkz. Azure depolama ile Sanal Ağ Hizmet Uç Noktalarını kullanmanın etkisi. Ayrıca sırasıyla Azure Blob ve Azure Data Lake Depolama 2. Nesil için gerekli yapılandırmaları öğrenin. |
LinkedServiceReference | Yalnızca veri akışı bir veri akışında okuma veya yazma Azure Synapse Analytics |
| staging.folderPath | Bir depolama kaynağı veya Azure Synapse Analytics kullanıyorsanız, PolyBase hazırlama için kullanılan blob depolama hesabı klasör yolu | Dize | Yalnızca veri akışı okuma veya yazma Azure Synapse Analytics |
| Tracelevel | Veri akışı etkinliği yürütmenizin günlük düzeyini ayarlama | Fine, Coarse, None | No |
Çalışma zamanında veri akışı işlem boyutunu dinamik olarak oluşturma
Çekirdek Sayısı ve İşlem Türü özellikleri, çalışma zamanında gelen kaynak verilerinizin boyutuna ayarlamak için dinamik olarak ayarlanabilir. Kaynak veri kümesi veri boyutunu bulmak için Arama veya Meta Verileri Al gibi işlem hattı etkinliklerini kullanın. Ardından Veri Kaynağı etkinlik özelliklerinde Dinamik İçerik Flow kullanın.
Not
Veri Akışlarında sürücü ve çalışan Azure Synapse çekirdekleri seçerken, her zaman en az 3 düğüm kullanılır.
Bu tekniği açıklayan kısa bir öğretici videosunu burada bulabilirsiniz
Veri Flow tümleştirme çalışma zamanı
Veri Integration Runtime etkinliği yürütmeniz için hangi Flow seçin. Hizmet varsayılan olarak dört çalışan çekirdeğiyle Azure Tümleştirme çalışma zamanının otomatik çözümle özelliğini kullanır. Bu IR genel amaçlı bir işlem türüne sahip ve hizmet örneğinle aynı bölgede çalışır. İşletimselleştirilmiş işlem hatları için, veri akışı etkinliği yürütmeniz için belirli bölgeleri, işlem türünü, çekirdek sayılarını ve TTL'sini tanımlayan kendi Azure Integration Runtime'larınızı oluşturmanız kesinlikle önerilir.
8+8 (Genel Amaçlı 16 toplam sanal çekirdek) yapılandırması olan ve 10 dakikalık minimum işlem türü (büyük iş yükleri için işlem için iyileştirilmiş önerilmez), çoğu üretim iş yükü için en düşük öneridir. Küçük bir TTL ayarlayan Azure IR, soğuk küme için birkaç dakikalık başlangıç süresine neden olmayan bir sıcak kümeyi koruyabilirsiniz. Veri akışı yapılandırmalarında "Hızlı yeniden kullanma" seçeneğini kullanarak veri akışlarınızı yürütmeyi Azure IR hızlandırabilirsiniz. Daha fazla bilgi için bkz. Azure tümleştirme çalışma zamanı.
Önemli
Veri Integration Runtime etkinliğinde Flow seçimi yalnızca işlem hattınız için tetiklenen yürütmeler için geçerlidir. Veri akışlarıyla işlem hattında hata ayıklama, hata ayıklama oturumunda belirtilen kümede çalışır.
PolyBase
Havuz veya kaynak olarak Azure Synapse Analytics, PolyBase toplu yükünüz için bir hazırlama konumu seçmeniz gerekir. PolyBase, verileri satır satır yükleme yerine toplu olarak yüklemeye olanak sağlar. PolyBase, yük süresini önemli ölçüde azaltarak Azure Synapse Analytics.
Günlük düzeyi
Tüm ayrıntılı telemetri günlüklerini tam olarak günlüğe almak için veri akışı etkinliklerinizin her işlem hattı yürütmesini zorunlu tutmazsanız, günlük düzeyinizi isteğe bağlı olarak "Temel" veya "Hiçbiri" olarak ayarlayın. Veri akışlarınızı "Ayrıntılı" modda (varsayılan) yürütürken, veri dönüştürme sırasında hizmetin her bölüm düzeyinde etkinliği tam olarak günlüğe oluşturması isteğinde bulunuyorsunuz. Bu pahalı bir işlem olabilir, bu nedenle yalnızca sorun giderme sırasında ayrıntılı etkinleştirme işlemi genel veri akışınızı ve işlem hattı performansınızı geliştirebilir. "Temel" modu yalnızca dönüştürme sürelerini günlüğe, "Hiçbiri" ise yalnızca sürelerin özetini sağlar.
Havuz özellikleri
Veri akışlarında gruplama özelliği hem havuzlarınızı yürütme sırası ayarlamanızı hem de aynı grup numarasını kullanarak havuzları gruplamanızı sağlar. Grupları yönetmeye yardımcı olmak için, hizmette aynı gruptaki havuzlar paralel olarak çalıştırabilirsiniz. Havuzlardan biri hatayla karşılaştıklarında bile havuz grubunu devam edecek şekilde de ayarlayın.
Veri akışı havuzlarının varsayılan davranışı, her havuzu sırayla, seri bir şekilde yürütmek ve havuzda bir hatayla karşılaşıldıklarında veri akışının başarısız olmasıdır. Ayrıca, veri akışı özelliklerine gidip havuzlar için farklı öncelikler belirlemedikçe tüm havuzlar varsayılan olarak aynı gruba ayarlanır.
Yalnızca ilk satır
Bu seçenek yalnızca "Çıkış etkinliği" için etkinleştirilmiş önbellek havuzlarına sahip veri akışları için kullanılabilir. Doğrudan işlem hattınıza veri akışından gelen çıkış 2 MB ile sınırlıdır. "Yalnızca ilk satır" ayarını yapmak, veri akışı etkinlik çıktısını doğrudan işlem hattınıza eklemeye devam etmek için veri akışından gelen veri çıkışını sınırlamanıza yardımcı olur.
Veri Akışlarını Parametreleştirme
Parametreli veri kümeleri
Veri akışınız parametreli veri kümeleri kullanıyorsa, parametre değerlerini Ayarlar ayarlayın.
Parametreli veri akışları
Veri akışınız parametreli ise Parametreler sekmesinde veri akışı parametrelerinin dinamik değerlerini ayarlayın. Dinamik veya değişmez parametre değerleri atamak için işlem hattı ifade dilini veya veri akışı ifade dilini kullanabilirsiniz. Daha fazla bilgi için bkz. Veri Flow Parametreleri.
Parametreli işlem özellikleri.
Azure Tümleştirme çalışma zamanının otomatik çözümlemesini kullanıyorsanız ve compute.coreCount ve compute.computeType değerlerini belirtirken çekirdek sayısını veya işlem türünü parametreli hale kullanabilirsiniz.
Data Flow etkinliğinin işlem hattı hata ayıklaması
Data Flow etkinliğiyle bir hata ayıklama işlem hattı çalıştırması yürütmek için üst çubukta Data Flow Hata Ayıklama kaydırıcısı aracılığıyla veri akışı hata ayıklama modunu açmalısınız. Hata ayıklama modu, veri akışını etkin bir Spark kümesinde çalıştırmaya olanak sağlar. Daha fazla bilgi için bkz. Hata Ayıklama Modu.
Hata ayıklama işlem hattı, Data Flow etkinlik ayarlarında belirtilen tümleştirme çalışma zamanı ortamına göre değil etkin hata ayıklama kümesinde çalışır. Hata ayıklama modunu başlatarak hata ayıklama işlem ortamını seçebilirsiniz.
Data Flow etkinliğini izleme
Veri Flow etkinliği bölümleme, aşama süresi ve verisi bilgilerini görüntüyebilirsiniz özel bir izleme deneyimine sahiptir. İzleme bölmesini Eylemler'in altındaki gözlük simgesiyle açın. Daha fazla bilgi için bkz. Veri Akışlarını İzleme.
Sonraki bir Flow veri kaynağı etkinliği sonuçlarını kullanma
Veri akışı etkinliği, her havuza yazılan satır sayısı ve her kaynaktan okunan satır sayısıyla ilgili ölçümler oluşturur. Bu sonuçlar etkinlik output çalıştırması sonucu bölümünde döndürülür. Döndürülen ölçümler aşağıdaki json biçimindedir.
{
"runStatus": {
"metrics": {
"<your sink name1>": {
"rowsWritten": <number of rows written>,
"sinkProcessingTime": <sink processing time in ms>,
"sources": {
"<your source name1>": {
"rowsRead": <number of rows read>
},
"<your source name2>": {
"rowsRead": <number of rows read>
},
...
}
},
"<your sink name2>": {
...
},
...
}
}
}
Örneğin, 'dataflowActivity' adlı bir etkinlikte 'sink1' adlı havuza yazılan satır sayısını almak için @activity('dataflowActivity').output.runStatus.metrics.sink1.rowsWritten kullanın.
Bu havuzda kullanılan 'source1' adlı bir kaynaktan okunan satır sayısını almak için @activity('dataflowActivity').output.runStatus.metrics.sink1.sources.source1.rowsRead kullanın.
Not
Bir havuza sıfır satır yazılmışsa ölçümlerde gösterlanmaz. Varlık, işlevi kullanılarak contains doğrulanabilir. Örneğin, herhangi contains(activity('dataflowActivity').output.runStatus.metrics, 'sink1') bir satırın sink1'e yazılıp yazıl olmadığını kontrol etmek için kullanılır.
Sonraki adımlar
Desteklenen denetim akışı etkinliklerine bakın: