Kopyalama etkinliği performans ve ölçeklenebilirlik kılavuzu
Uygulama hedefi:
Azure SYNAPSE Analytics 'i Azure Data Factory
Bazen Data Lake veya kurumsal veri ambarından (EDW) Azure 'a büyük ölçekli veri geçişi gerçekleştirmek isteyebilirsiniz. Büyük veri analizi için, farklı kaynaklardan Azure 'a büyük miktarda veri almak istediğiniz diğer saatler. Her durumda, en iyi performans ve ölçeklenebilirlik elde etmek önemlidir.
Azure Data Factory ve Azure SYNAPSE Analytics işlem hatları, aşağıdaki avantajlar sayesinde verileri almak için bir mekanizma sağlar:
- Büyük miktarlarda veriyi işler
- Yüksek performanslı
- Ekonomik
Bu avantajlar, yüksek performans olan ölçeklenebilir veri alma işlem hatları oluşturmak isteyen veri mühendislerine mükemmel bir uyum sağlar.
Bu makaleyi okuduktan sonra aşağıdaki soruları cevaplayabilirsiniz:
- Veri taşıma ve veri alma senaryolarında kopyalama etkinliğini kullanarak ne düzeyde performans ve ölçeklenebilirlik elde edebilirim?
- Kopyalama etkinliğinin performansını ayarlamak için hangi adımları gerçekleştirmeniz gerekir?
- Tek bir kopyalama etkinliği çalıştırması için hangi performans iyileştirmelerini kullanabilirim?
- Kopyalama performansını iyileştirirken dikkate alınması gereken diğer dış faktörler nelerdir?
Not
Kopyalama etkinliğini genel olarak bilmiyorsanız, bu makaleyi kullanmadan önce kopyalama etkinliğine genel bakış bölümüne bakın.
Azure Data Factory ve SYNAPSE işlem hatlarını kullanarak performans ve ölçeklenebilirlik ulaşılabilir kopyalama
Azure Data Factory ve SYNAPSE işlem hatları, farklı düzeylerde paralellik sağlayan sunucusuz bir mimari sağlar.
Bu mimari, ortamınız için veri taşıma aktarım hızını en üst düzeye çıkaran işlem hatları geliştirmenize olanak tanır. Bu işlem hatları aşağıdaki kaynakları tamamen kullanır:
- Kaynak ve hedef veri depoları arasında ağ bant genişliği
- Kaynak veya hedef veri deposu saniye başına giriş/çıkış işlemi (ıOPS) ve bant genişliği
Bu tam kullanım, aşağıdaki kaynaklarla kullanılabilen minimum aktarım hızını ölçerek genel aktarım hızını tahmin edebileceğiniz anlamına gelir:
- Kaynak veri deposu
- Hedef veri deposu
- Kaynak ve hedef veri depoları arasında ağ bant genişliği
Aşağıdaki tabloda, veri taşıma süresinin hesaplanması gösterilmektedir. Her hücredeki süre, belirli bir ağ ve veri deposu bant genişliği ve belirli bir veri yükü boyutu temel alınarak hesaplanır.
Not
Aşağıda belirtilen süre, bir uçtan uca veri Tümleştirme çözümünde bir veya daha fazla eşzamanlı kopyalama etkinliğini bölümlemek ve oluşturma için ForEach kullanma dahil olmak üzere, performansı en iyi duruma getirme özellikleriyletanımlanan bir veya daha fazla performans iyileştirmesi yöntemi kullanılarak ulaşılabilir performansını temsil etmektedir. Belirli veri kümeniz ve sistem yapılandırmanız için kopyalama performansını iyileştirmek üzere performans ayarlama adımlarında oluşan adımları izlemeniz önerilir. Üretim dağıtım planlaması, kapasite planlama ve faturalandırma projeksiyonu için performans ayarlama testlerinizde elde edilen numaraları kullanmanız gerekir.
| Veri boyutu/ bant genişliği |
50 Mb/sn | 100 Mbps | 500 Mbps | 1 Gbps | 5 Gbps | 10 Gbps | 50 Gbps |
|---|---|---|---|---|---|---|---|
| 1 GB | 2,7 dk | 1,4 dk | 0,3 dk | 0,1 dk | 0,03 dk | 0,01 dk | 0,0 dk |
| 10 GB | 27,3 dk | 13,7 dk | 2,7 dk | 1,3 dk | 0,3 dk | 0,1 dk | 0,03 dk |
| 100 GB | 4,6 saat | 2,3 saat | 0,5 saat | 0,2 saat | 0,05 Saat | 0,02 Saat | 0,0 saat |
| 1 TB | 46,6 saat | 23,3 saat | 4,7 saat | 2,3 saat | 0,5 saat | 0,2 saat | 0,05 Saat |
| 10 TB | 19,4 gün | 9,7 gün | 1,9 gün | 0,9 gün | 0,2 gün | 0,1 gün | 0,02 gün |
| 100 TB | 194,2 gün | 97,1 gün | 19,4 gün | 9,7 gün | 1,9 gün | 1 gün | 0,2 gün |
| 1 PB | 64,7 Mo | 32,4 Mo | 6,5 Mo | 3,2 Mo | 0,6 Mo | 0,3 Mo | 0,06 Mo |
| 10 PB | 647,3 mo | 323,6 mo | 64,7 mo | 31,6 mo | 6,5 mo | 3,2 mo | 0,6 mo |
Kopyalama farklı düzeylerde ölçeklenebilir:
Denetim akışı, örneğin For Each döngüsü kullanarak birden çok kopyalama etkinliklerini paralel olarak başlatıyor olabilir.
Tek bir kopyalama etkinliği, ölçeklenebilir işlem kaynaklerinden faydalanmanizi sağlar.
- Azure tümleştirme çalışma zamanı (IR) kullanırken, her kopyalama etkinliği için sunucusuz bir şekilde en fazla 256 veri tümleştirme birimi (DDU) belirtebilirsiniz.
- Kendinden konak IR kullanırken aşağıdaki yaklaşımlardan birini kullanabilirsiniz:
- Makinenin ölçeğini el ile ölçeklendirin.
- Ölçeği birden çok makineye(en fazla 4düğüm) genişletin ve tek bir kopyalama etkinliği dosya kümesini tüm düğümler arasında bölümler.
Tek bir kopyalama etkinliği, birden çok iş parçacığını paralel olarak kullanarak veri deposuna okur ve yazar.
Performans ayarlama adımları
Kopyalama etkinliğiyle hizmetinizin performansını ayarlamak için aşağıdaki adımları uygulayın:
Bir test veri kümesi seçin ve bir temel seçin.
Geliştirme sırasında kopyalama etkinliğini kullanarak işlem hattınızı bir temsili veri örneğine karşı test edersiniz. Seçtiğiniz veri kümesi, aşağıdaki öznitelikler boyunca tipik veri desenlerinizi temsil ediyordur:
- Klasör yapısı
- Dosya deseni
- Veri şeması
Ayrıca veri kümenizin kopyalama performansını değerlendirecek kadar büyük olması gerekir. Kopyalama etkinliğinin tamamlanması en az 10 dakika sürer. Kopyalama etkinliğini izlemenin ardından yürütme ayrıntılarını ve performans özelliklerini toplayın.
Tek kopyalama etkinliğinin performansını en üst düzeye çıkarma:
İlk olarak tek kopyalama etkinliği kullanarak performansı en üst düzeye çıkarmanızı öneririz.
Kopyalama etkinliği bir Azure tümleştirme çalışma zamanında yürütülmektedir:
Veri Tümleştirme Birimleri (DIU) ve paralel kopyalama ayarları için varsayılan değerlerle başlama.
Kopyalama etkinliği, kendinden konak tümleştirme çalışma zamanında yürütülmektedir:
IR barındırmak için ayrılmış bir makine kullanılması önerilir. Makinenin veri depoyu barındıran sunucudan ayrı olması gerekir. Paralel kopyalama ayarı için varsayılan değerlerle başlama ve kendinden konak IR için tek bir düğüm kullanma.
Performans testi çalıştırması yürütme. Elde edilen performansı not alır. DiUs ve paralel kopyalar gibi kullanılan gerçek değerleri dahil eder. Çalıştırma sonuçlarını ve kullanılan performans ayarlarını toplama hakkında bilgi için kopyalama etkinliği izlemesi'ne bakın. Performans sorununu belirlemek ve çözmek için kopyalama etkinliği performansı sorunlarını gidermeyi öğrenin.
Sorun giderme ve ayarlama kılavuzundan sonra ek performans testi çalıştırmaları yapmak için yinele. Tek kopyalama etkinliği çalıştırmaları daha iyi aktarım hızına ulaşamazsa, eşzamanlı olarak birden çok kopya çalıştırarak toplam aktarım hızını en üst düzeye çıkarmayı göz önünde bulundurarak. Bu seçenek bir sonraki numaralı maddede ele alınmıştır.
Birden çok kopyayı eşzamanlı olarak çalıştırarak toplam aktarım hızını en üst düzeye çıkarma:
Artık tek bir kopyalama etkinliğinin performansını en üst düzeye çıkarabilirsiniz. Henüz ortamınız için aktarım hızı üst sınırlarına ulaşamadınız, birden çok kopyalama etkinlikini paralel olarak çalıştırabilirsiniz. Denetim akışı yapılarını kullanarak paralel olarak çalıştır. Bu tür bir yapı, For Each döngüsündedir. Daha fazla bilgi için çözüm şablonları hakkında aşağıdaki makalelere bakın:
Yapılandırmayı veri kümenizin tamamına genişletin.
Yürütme sonuçlarından ve performanstan memnunsanız tanımı ve işlem hattını tüm veri kümenizi kapsayacak şekilde genişletebilirsiniz.
Kopyalama etkinliği performansı sorunlarını giderme
Senaryo için performans testi planlamak ve bunu yapmak üzere Performans ayarlama adımlarını izleyin. Ayrıca kopyalama etkinliği çalıştırması performans sorunlarını giderme konusunu kopyalama etkinliği performansıyla ilgili sorunları giderme konusunu öğrenin.
Kopyalama performansı iyileştirme özellikleri
Hizmet aşağıdaki performans iyileştirme özelliklerini sağlar:
- Veri Tümleştirme Birimleri
- Kendinden konak tümleştirme çalışma zamanı ölçeklenebilirliği
- Paralel kopyalama
- Aşamalı kopyalama
Veri Tümleştirme Birimleri
Veri Tümleştirme Birimi (DIU), veri ve Synapse işlem hatlarında tek bir birimin Azure Data Factory temsil eden bir ölçüdür. Güç, CPU, bellek ve ağ kaynağı ayırmanın bir birleşimidir. DIU yalnızca Azure tümleştirme çalışma zamanı için geçerlidir. DIU, kendinden konak tümleştirme çalışma zamanı için geçerli değildir. Burada daha fazla bilgi edinebilirsiniz.
Kendinden konak tümleştirme çalışma zamanı ölçeklenebilirliği
Artan bir eş zamanlı iş yükü barındırmak istiyor olabilir. Veya mevcut iş yükü düzeyinize göre daha yüksek performans elde etmek de istiyor olabilir. İşleme ölçeğini aşağıdaki yaklaşımlarla geliştirin:
- Bir düğümde çalıştıracak eşzamanlı iş sayısını artırarak, kendinden konak IR'nin ölçeğini artırmış oluruz.
Ölçeğin ölçeği yalnızca düğümün işlemcisi ve belleği tam olarak kullanılandan azsa çalışır. - Daha fazla düğüm (makine) ekleyerek, kendinden konak IR'nin ölçeğini genişletin.
Daha fazla bilgi için bkz.
- Kopyalama etkinliği iyileştirme özellikleri: Kendinden konak tümleştirme çalışma zamanı ölçeklenebilirliği
- Kendinden konak tümleştirme çalışma zamanı oluşturma ve yapılandırma: Ölçeklendirmeyle ilgili dikkat edilmesi gerekenler
Paralel kopyalama
kopyalama parallelCopies etkinliğinin kullanmalarını istediğiniz paralelliği belirtmek için özelliğini ayarlayın. Bu özelliği kopyalama etkinliği içindeki en fazla iş parçacığı sayısı olarak düşün. İş parçacıkları paralel olarak çalışır. İş parçacıkları kaynağınızı okur veya havuz veri depolarına yazar. Daha fazla bilgi edinin.
Aşamalı kopyalama
Veri kopyalama işlemi, verileri doğrudan havuz veri deposuna gönderebilir. Alternatif olarak, Geçici hazırlık deposu olarak Blob depolamayı kullanmayı seçebilirsiniz. Daha fazla bilgi edinin.
Sonraki adımlar
Diğer kopyalama etkinliği makalelerini okuyun: