Azure Data Factory Flow veri Azure Synapse Analytics

Uygulama hedefi: Azure SYNAPSE Analytics 'i Azure Data Factory

Eşleme veri akışları Flow verileri dönüştürmek ve taşımak için Data Flow etkinliğini kullanın. Veri akışlarına yeni başladıysanız bkz. Eşleme Verileri Flow genel bakış

Syntax

{
    "name": "MyDataFlowActivity",
    "type": "ExecuteDataFlow",
    "typeProperties": {
      "dataflow": {
         "referenceName": "MyDataFlow",
         "type": "DataFlowReference"
      },
      "compute": {
         "coreCount": 8,
         "computeType": "General"
      },
      "traceLevel": "Fine",
      "runConcurrently": true,
      "continueOnError": true,      
      "staging": {
          "linkedService": {
              "referenceName": "MyStagingLinkedService",
              "type": "LinkedServiceReference"
          },
          "folderPath": "my-container/my-folder"
      },
      "integrationRuntime": {
          "referenceName": "MyDataFlowIntegrationRuntime",
          "type": "IntegrationRuntimeReference"
      }
}

Tür özellikleri

Özellik Açıklama İzin verilen değerler Gerekli
Dataflow Yürütülen Veri Flow başvurusu DataFlowReference Yes
integrationRuntime Veri akışının üzerinde çalıştır olduğu işlem ortamı. Belirtilmezse, Azure tümleştirme çalışma zamanı otomatik çözümle kullanılır. IntegrationRuntimeReference No
compute.coreCount Spark kümesinde kullanılan çekirdek sayısı. Yalnızca Azure Tümleştirmesi'nin otomatik çözümle çalışma zamanı kullanılıyorsa belirtilebilir 8, 16, 32, 48, 80, 144, 272 No
compute.computeType Spark kümesinde kullanılan işlem türü. Yalnızca Azure Tümleştirmesi'nin otomatik çözümle çalışma zamanı kullanılıyorsa belirtilebilir "Genel", "ComputeOptimized", "MemoryOptimized" No
staging.linkedService Bir kaynak veya havuz Azure Synapse Analytics PolyBase hazırlama için kullanılan depolama hesabını belirtin.

Azure Depolama sanal ağ hizmet uç noktasıyla yapılandırılmışsa, depolama hesabında "güvenilen Microsoft hizmetine izin ver" etkinleştirilmiş yönetilen kimlik doğrulaması kullansanız, bkz. Azure depolama ile Sanal Ağ Hizmet Uç Noktalarını kullanmanın etkisi. Ayrıca sırasıyla Azure Blob ve Azure Data Lake Depolama 2. Nesil için gerekli yapılandırmaları öğrenin.
LinkedServiceReference Yalnızca veri akışı bir veri akışında okuma veya yazma Azure Synapse Analytics
staging.folderPath Bir depolama kaynağı veya Azure Synapse Analytics kullanıyorsanız, PolyBase hazırlama için kullanılan blob depolama hesabı klasör yolu Dize Yalnızca veri akışı okuma veya yazma Azure Synapse Analytics
Tracelevel Veri akışı etkinliği yürütmenizin günlük düzeyini ayarlama Fine, Coarse, None No

Veri Yürütme Flow

Çalışma zamanında veri akışı işlem boyutunu dinamik olarak oluşturma

Çekirdek Sayısı ve İşlem Türü özellikleri, çalışma zamanında gelen kaynak verilerinizin boyutuna ayarlamak için dinamik olarak ayarlanabilir. Kaynak veri kümesi veri boyutunu bulmak için Arama veya Meta Verileri Al gibi işlem hattı etkinliklerini kullanın. Ardından Veri Kaynağı etkinlik özelliklerinde Dinamik İçerik Flow kullanın.

Not

Veri Akışlarında sürücü ve çalışan Azure Synapse çekirdekleri seçerken, her zaman en az 3 düğüm kullanılır.

Dinamik Veri Flow

Bu tekniği açıklayan kısa bir öğretici videosunu burada bulabilirsiniz

Veri Flow tümleştirme çalışma zamanı

Veri Integration Runtime etkinliği yürütmeniz için hangi Flow seçin. Hizmet varsayılan olarak dört çalışan çekirdeğiyle Azure Tümleştirme çalışma zamanının otomatik çözümle özelliğini kullanır. Bu IR genel amaçlı bir işlem türüne sahip ve hizmet örneğinle aynı bölgede çalışır. İşletimselleştirilmiş işlem hatları için, veri akışı etkinliği yürütmeniz için belirli bölgeleri, işlem türünü, çekirdek sayılarını ve TTL'sini tanımlayan kendi Azure Integration Runtime'larınızı oluşturmanız kesinlikle önerilir.

8+8 (Genel Amaçlı 16 toplam sanal çekirdek) yapılandırması olan ve 10 dakikalık minimum işlem türü (büyük iş yükleri için işlem için iyileştirilmiş önerilmez), çoğu üretim iş yükü için en düşük öneridir. Küçük bir TTL ayarlayan Azure IR, soğuk küme için birkaç dakikalık başlangıç süresine neden olmayan bir sıcak kümeyi koruyabilirsiniz. Veri akışı yapılandırmalarında "Hızlı yeniden kullanma" seçeneğini kullanarak veri akışlarınızı yürütmeyi Azure IR hızlandırabilirsiniz. Daha fazla bilgi için bkz. Azure tümleştirme çalışma zamanı.

Azure Integration Runtime

Önemli

Veri Integration Runtime etkinliğinde Flow seçimi yalnızca işlem hattınız için tetiklenen yürütmeler için geçerlidir. Veri akışlarıyla işlem hattında hata ayıklama, hata ayıklama oturumunda belirtilen kümede çalışır.

PolyBase

Havuz veya kaynak olarak Azure Synapse Analytics, PolyBase toplu yükünüz için bir hazırlama konumu seçmeniz gerekir. PolyBase, verileri satır satır yükleme yerine toplu olarak yüklemeye olanak sağlar. PolyBase, yük süresini önemli ölçüde azaltarak Azure Synapse Analytics.

Günlük düzeyi

Tüm ayrıntılı telemetri günlüklerini tam olarak günlüğe almak için veri akışı etkinliklerinizin her işlem hattı yürütmesini zorunlu tutmazsanız, günlük düzeyinizi isteğe bağlı olarak "Temel" veya "Hiçbiri" olarak ayarlayın. Veri akışlarınızı "Ayrıntılı" modda (varsayılan) yürütürken, veri dönüştürme sırasında hizmetin her bölüm düzeyinde etkinliği tam olarak günlüğe oluşturması isteğinde bulunuyorsunuz. Bu pahalı bir işlem olabilir, bu nedenle yalnızca sorun giderme sırasında ayrıntılı etkinleştirme işlemi genel veri akışınızı ve işlem hattı performansınızı geliştirebilir. "Temel" modu yalnızca dönüştürme sürelerini günlüğe, "Hiçbiri" ise yalnızca sürelerin özetini sağlar.

Günlük düzeyi

Havuz özellikleri

Veri akışlarında gruplama özelliği hem havuzlarınızı yürütme sırası ayarlamanızı hem de aynı grup numarasını kullanarak havuzları gruplamanızı sağlar. Grupları yönetmeye yardımcı olmak için, hizmette aynı gruptaki havuzlar paralel olarak çalıştırabilirsiniz. Havuzlardan biri hatayla karşılaştıklarında bile havuz grubunu devam edecek şekilde de ayarlayın.

Veri akışı havuzlarının varsayılan davranışı, her havuzu sırayla, seri bir şekilde yürütmek ve havuzda bir hatayla karşılaşıldıklarında veri akışının başarısız olmasıdır. Ayrıca, veri akışı özelliklerine gidip havuzlar için farklı öncelikler belirlemedikçe tüm havuzlar varsayılan olarak aynı gruba ayarlanır.

Havuz özellikleri

Yalnızca ilk satır

Bu seçenek yalnızca "Çıkış etkinliği" için etkinleştirilmiş önbellek havuzlarına sahip veri akışları için kullanılabilir. Doğrudan işlem hattınıza veri akışından gelen çıkış 2 MB ile sınırlıdır. "Yalnızca ilk satır" ayarını yapmak, veri akışı etkinlik çıktısını doğrudan işlem hattınıza eklemeye devam etmek için veri akışından gelen veri çıkışını sınırlamanıza yardımcı olur.

Veri Akışlarını Parametreleştirme

Parametreli veri kümeleri

Veri akışınız parametreli veri kümeleri kullanıyorsa, parametre değerlerini Ayarlar ayarlayın.

Veri Yürütme Flow Parametreleri

Parametreli veri akışları

Veri akışınız parametreli ise Parametreler sekmesinde veri akışı parametrelerinin dinamik değerlerini ayarlayın. Dinamik veya değişmez parametre değerleri atamak için işlem hattı ifade dilini veya veri akışı ifade dilini kullanabilirsiniz. Daha fazla bilgi için bkz. Veri Flow Parametreleri.

Parametreli işlem özellikleri.

Azure Tümleştirme çalışma zamanının otomatik çözümlemesini kullanıyorsanız ve compute.coreCount ve compute.computeType değerlerini belirtirken çekirdek sayısını veya işlem türünü parametreli hale kullanabilirsiniz.

Veri Yürütme Flow Parametresi Örneği

Data Flow etkinliğinin işlem hattı hata ayıklaması

Data Flow etkinliğiyle bir hata ayıklama işlem hattı çalıştırması yürütmek için üst çubukta Data Flow Hata Ayıklama kaydırıcısı aracılığıyla veri akışı hata ayıklama modunu açmalısınız. Hata ayıklama modu, veri akışını etkin bir Spark kümesinde çalıştırmaya olanak sağlar. Daha fazla bilgi için bkz. Hata Ayıklama Modu.

Hata Ayıkla düğmesinin nerede olduğunu gösteren ekran görüntüsü

Hata ayıklama işlem hattı, Data Flow etkinlik ayarlarında belirtilen tümleştirme çalışma zamanı ortamına göre değil etkin hata ayıklama kümesinde çalışır. Hata ayıklama modunu başlatarak hata ayıklama işlem ortamını seçebilirsiniz.

Data Flow etkinliğini izleme

Veri Flow etkinliği bölümleme, aşama süresi ve verisi bilgilerini görüntüyebilirsiniz özel bir izleme deneyimine sahiptir. İzleme bölmesini Eylemler'in altındaki gözlük simgesiyle açın. Daha fazla bilgi için bkz. Veri Akışlarını İzleme.

Sonraki bir Flow veri kaynağı etkinliği sonuçlarını kullanma

Veri akışı etkinliği, her havuza yazılan satır sayısı ve her kaynaktan okunan satır sayısıyla ilgili ölçümler oluşturur. Bu sonuçlar etkinlik output çalıştırması sonucu bölümünde döndürülür. Döndürülen ölçümler aşağıdaki json biçimindedir.

{
    "runStatus": {
        "metrics": {
            "<your sink name1>": {
                "rowsWritten": <number of rows written>,
                "sinkProcessingTime": <sink processing time in ms>,
                "sources": {
                    "<your source name1>": {
                        "rowsRead": <number of rows read>
                    },
                    "<your source name2>": {
                        "rowsRead": <number of rows read>
                    },
                    ...
                }
            },
            "<your sink name2>": {
                ...
            },
            ...
        }
    }
}

Örneğin, 'dataflowActivity' adlı bir etkinlikte 'sink1' adlı havuza yazılan satır sayısını almak için @activity('dataflowActivity').output.runStatus.metrics.sink1.rowsWritten kullanın.

Bu havuzda kullanılan 'source1' adlı bir kaynaktan okunan satır sayısını almak için @activity('dataflowActivity').output.runStatus.metrics.sink1.sources.source1.rowsRead kullanın.

Not

Bir havuza sıfır satır yazılmışsa ölçümlerde gösterlanmaz. Varlık, işlevi kullanılarak contains doğrulanabilir. Örneğin, herhangi contains(activity('dataflowActivity').output.runStatus.metrics, 'sink1') bir satırın sink1'e yazılıp yazıl olmadığını kontrol etmek için kullanılır.

Sonraki adımlar

Desteklenen denetim akışı etkinliklerine bakın: