Share via


Şirket içi Netezza sunucusundan Azure'a veri geçirmek için Azure Data Factory'yi kullanma

UYGULANANLAR: Azure Data Factory Azure Synapse Analytics

Bahşiş

Kuruluşlar için hepsi bir arada analiz çözümü olan Microsoft Fabric'te Data Factory'yi deneyin. Microsoft Fabric , veri taşımadan veri bilimine, gerçek zamanlı analize, iş zekasına ve raporlamaya kadar her şeyi kapsar. Yeni bir deneme sürümünü ücretsiz olarak başlatmayı öğrenin!

Azure Data Factory, verileri büyük ölçekte şirket içi Netezza sunucusundan Azure depolama hesabınıza veya Azure Synapse Analytics veritabanınıza geçirmek için yüksek performanslı, sağlam ve uygun maliyetli bir mekanizma sağlar.

Bu makalede veri mühendisleri ve geliştiriciler için aşağıdaki bilgiler sağlanır:

  • Performans
  • Dayanıklılığı kopyalama
  • Ağ güvenliği
  • Üst düzey çözüm mimarisi
  • Uygulama için en iyi yöntemler

Performans

Azure Data Factory, çeşitli düzeylerde paralellik sağlayan sunucusuz bir mimari sunar. Geliştiriciyseniz bu, ortamınız için veri taşıma aktarım hızını en üst düzeye çıkarmak için hem ağ hem de veritabanı bant genişliğini tam olarak kullanmak üzere işlem hatları oluşturabileceğiniz anlamına gelir.

Performance diagram

Yukarıdaki diyagram aşağıdaki gibi yorumlanabilir:

  • Tek bir kopyalama etkinliği ölçeklenebilir işlem kaynaklarından yararlanabilir. Azure Integration Runtime'ı kullandığınızda, her kopyalama etkinliği için sunucusuz bir şekilde en fazla 256 DIU belirtebilirsiniz. Şirket içinde barındırılan tümleştirme çalışma zamanı (şirket içinde barındırılan IR) ile makinenin ölçeğini el ile artırabilir veya ölçeği birden çok makineye genişletebilirsiniz (en fazla dört düğüm) ve tek bir kopyalama etkinliği, bölümü tüm düğümlere dağıtır.

  • Tek bir kopyalama etkinliği birden çok iş parçacığı kullanarak veri deposundan okur ve veri deposuna yazar.

  • Azure Data Factory denetim akışı birden çok kopyalama etkinliğini paralel olarak başlatabilir. Örneğin, bunları Her İçin döngüsü kullanarak başlatabilir.

Daha fazla bilgi için Kopyalama etkinliği performans ve ölçeklenebilirlik kılavuzuna bakın.

Dayanıklılık

Tek bir kopyalama etkinliği çalıştırması içinde Azure Data Factory'nin yerleşik bir yeniden deneme mekanizması vardır ve bu mekanizma, veri depolarındaki veya temel alınan ağdaki belirli bir geçici hata düzeyini işlemesini sağlar.

Azure Data Factory kopyalama etkinliğiyle, kaynak ve havuz veri depoları arasında veri kopyaladığınızda uyumsuz satırları işlemenin iki yolu vardır. Kopyalama etkinliğini durdurup başarısız olabilir veya uyumsuz veri satırlarını atlayarak verilerin geri kalanını kopyalamaya devam edebilirsiniz. Ayrıca, hatanın nedenini öğrenmek için Azure Blob depolama veya Azure Data Lake Store'da uyumsuz satırları günlüğe kaydedebilir, veri kaynağındaki verileri düzeltebilir ve kopyalama etkinliğini yeniden deneyebilirsiniz.

Ağ güvenliği

Varsayılan olarak Azure Data Factory, Köprü Metni Aktarım Protokolü Güvenli (HTTPS) üzerinden şifrelenmiş bir bağlantı kullanarak şirket içi Netezza sunucusundan azure depolama hesabına veya Azure Synapse Analytics veritabanına veri aktarır. HTTPS aktarım sırasında veri şifrelemesi sağlar ve gizlice dinleme ve ortadaki adam saldırılarını önler.

Alternatif olarak, verilerin genel İnternet üzerinden aktarılmasını istemiyorsanız, Azure Express Route aracılığıyla özel eşleme bağlantısı üzerinden veri aktararak daha yüksek güvenlik elde etmeye yardımcı olabilirsiniz.

Sonraki bölümde daha yüksek güvenlik elde etme konuları ele alınmaktadır.

Çözüm mimarisi

Bu bölümde verilerinizi geçirmenin iki yolu açıklanmıştır.

Verileri genel İnternet üzerinden geçirme

Migrate data over the public internet

Yukarıdaki diyagram aşağıdaki gibi yorumlanabilir:

  • Bu mimaride, genel İnternet üzerinden HTTPS kullanarak verileri güvenli bir şekilde aktarırsınız.

  • Bu mimariyi elde etmek için Azure Data Factory tümleştirme çalışma zamanını (şirket içinde barındırılan) şirket güvenlik duvarının arkasındaki bir Windows makinesine yüklemeniz gerekir. Bu tümleştirme çalışma zamanının Netezza sunucusuna doğrudan erişebildiğinden emin olun. Verileri kopyalamak için ağınızın ve veri depolarınızın bant genişliğini tam olarak kullanmak için makinenizin ölçeğini el ile artırabilir veya ölçeği birden çok makineye genişletebilirsiniz.

  • Bu mimariyi kullanarak hem ilk anlık görüntü verilerini hem de delta verilerini geçirebilirsiniz.

Verileri özel ağ üzerinden geçirme

Migrate data over a private network

Yukarıdaki diyagram aşağıdaki gibi yorumlanabilir:

  • Bu mimaride verileri Azure Express Route aracılığıyla özel eşleme bağlantısı üzerinden geçirirsiniz ve veriler hiçbir zaman genel İnternet üzerinden dolaşmaz.

  • Bu mimariyi elde etmek için Azure Data Factory tümleştirme çalışma zamanını (şirket içinde barındırılan) Azure sanal ağınızdaki bir Windows sanal makinesine (VM) yüklemeniz gerekir. Verileri kopyalamak için ağınızın ve veri depolarınızın bant genişliğini tam olarak kullanmak için VM'nizin ölçeğini el ile artırabilir veya ölçeği birden çok VM'ye genişletebilirsiniz.

  • Bu mimariyi kullanarak hem ilk anlık görüntü verilerini hem de delta verilerini geçirebilirsiniz.

En iyi yöntemleri uygulama

Kimlik doğrulama ve kimlik bilgilerini yönetme

İlk anlık görüntü verilerini geçirme

Küçük tablolar için (yani hacmi 100 GB'ın altında olan veya iki saat içinde Azure'a geçirilebilen tablolar), her kopyalama işinin tablo başına veri yüklemesini sağlayabilirsiniz. Daha yüksek aktarım hızı için, aynı anda ayrı tablolar yüklemek için birden çok Azure Data Factory kopyalama işi çalıştırabilirsiniz.

Her kopyalama işinin içinde, paralel sorgular çalıştırmak ve bölümlere göre verileri kopyalamak için, aşağıdaki veri bölümü seçeneklerinden biriyle özellik ayarını kullanarak parallelCopies da bir paralellik düzeyine ulaşabilirsiniz:

  • Daha fazla verimlilik elde etmek için veri diliminden başlamanızı öneririz. Ayardaki değerin Netezza sunucusundaki parallelCopies tablonuzdaki toplam veri dilimi bölümü sayısından az olduğundan emin olun.

  • Her veri dilimi bölümünün hacmi hala büyükse (örneğin, 10 GB veya üzeri), dinamik aralık bölümüne geçmenizi öneririz. Bu seçenek, bölüm sayısını ve her bölümün hacmini bölüm sütununa, üst sınıra ve alt sınıra göre tanımlamak için daha fazla esneklik sağlar.

Daha büyük tablolar için (yani 100 GB veya daha büyük bir hacime sahip olan veya iki saat içinde Azure'a geçirilmeyecek tablolar) verileri özel sorguyla bölümlemenizi ve sonra her kopyalama işinin birer birer bir bölüm kopyalamasını sağlamanızı öneririz. Daha iyi aktarım hızı için birden çok Azure Data Factory kopyalama işini eşzamanlı olarak çalıştırabilirsiniz. Bir bölümü özel sorguyla yüklemenin her kopyalama işi hedefi için, veri dilimi veya dinamik aralık aracılığıyla paralelliği etkinleştirerek aktarım hızını artırabilirsiniz.

Ağ veya veri deposu geçici bir sorun nedeniyle herhangi bir kopyalama işi başarısız olursa, başarısız kopyalama işini yeniden çalıştırarak ilgili bölümü tablodan yeniden yükleyebilirsiniz. Diğer bölümleri yükleyen diğer kopyalama işleri etkilenmez.

Azure Synapse Analytics veritabanına veri yüklediğinizde, hazırlama olarak Azure Blob depolama ile kopyalama işi içinde PolyBase'i etkinleştirmenizi öneririz.

Delta verilerini geçirme

Tablonuzdaki yeni veya güncelleştirilmiş satırları tanımlamak için şemada bir zaman damgası sütunu veya artımlı anahtar kullanın. Ardından en son değeri bir dış tabloda yüksek filigran olarak depolayabilir ve verileri bir sonraki yükleyişinizde delta verilerini filtrelemek için kullanabilirsiniz.

Her tablo, yeni veya güncelleştirilmiş satırlarını tanımlamak için farklı bir filigran sütunu kullanabilir. Bir dış denetim tablosu oluşturmanızı öneririz. Tabloda, her satır Netezza sunucusunda belirli filigran sütun adı ve yüksek filigran değeri olan bir tabloyu temsil eder.

Şirket içinde barındırılan tümleştirme çalışma zamanını yapılandırma

Netezza sunucusundan Azure'a veri geçiriyorsanız, sunucunun şirket güvenlik duvarınızın arkasında veya sanal ağ ortamında olması fark etmeksizin, verileri taşımak için kullanılan altyapı olan bir Windows makinesine veya VM'ye şirket içinde barındırılan bir IR yüklemeniz gerekir. Şirket içinde barındırılan IR'yi yüklerken aşağıdaki yaklaşımı öneririz:

  • Her Windows makinesi veya VM için 32 vCPU ve 128 GB bellek yapılandırmasıyla başlayın. Veri geçişi sırasında IR makinesinin CPU ve bellek kullanımını izlemeye devam ederek daha iyi performans için makinenin ölçeğini artırmanız mı yoksa maliyetten tasarruf etmek için mi ölçeği azaltmanız gerektiğini görebilirsiniz.

  • Ayrıca, şirket içinde barındırılan tek bir IR ile en fazla dört düğüm ilişkilendirerek ölçeği genişletebilirsiniz. Şirket içinde barındırılan bir IR üzerinde çalışan tek bir kopyalama işi, verileri paralel olarak kopyalamak için tüm VM düğümlerini otomatik olarak uygular. Yüksek kullanılabilirlik için, veri geçişi sırasında tek bir hata noktasını önlemek için dört VM düğümüyle başlayın.

Bölümlerinizi sınırlama

En iyi uygulama olarak, her kopyalama etkinliği için uygun bölüm boyutunu belirleyebilmeniz için temsili bir örnek veri kümesiyle bir kavram kanıtı (POC) gerçekleştirin. Her bölümü iki saat içinde Azure'a yüklemenizi öneririz.

Tabloyu kopyalamak için, tek bir şirket içinde barındırılan IR makinesiyle tek bir kopyalama etkinliğiyle başlayın. Tablonuzdaki parallelCopies veri dilimi bölümlerinin sayısına göre ayarı aşamalı olarak artırın. Kopyalama işinin sonucunda elde edilecek aktarım hızına göre tablonun tamamının iki saat içinde Azure'a yüklenip yüklenemeyeceğini görün.

İki saat içinde Azure'a yüklenemediyse ve şirket içinde barındırılan IR düğümünün ve veri deposunun kapasitesi tam olarak kullanılmıyorsa, ağınızın sınırına veya veri depolarının bant genişliği sınırına ulaşana kadar eşzamanlı kopyalama etkinliklerinin sayısını kademeli olarak artırın.

Şirket içinde barındırılan IR makinesinde CPU ve bellek kullanımını izlemeye devam edin ve CPU ve belleğin tam olarak kullanıldığını gördüğünüzde makinenin ölçeğini artırmaya veya ölçeği birden çok makineye genişletmeye hazır olun.

Azure Data Factory kopyalama etkinliği tarafından bildirilen azaltma hatalarıyla karşılaştığınızda, Azure Data Factory'de eşzamanlılığı veya parallelCopies ayarı azaltın ya da ağ ve veri depolarının bant genişliği veya G/Ç işlemleri (IOPS) sınırlarını artırmayı göz önünde bulundurun.

Fiyatlandırmanızı tahmin edin

Şirket içi Netezza sunucusundan Azure Synapse Analytics veritabanına veri geçirmek için oluşturulan aşağıdaki işlem hattını göz önünde bulundurun:

The pricing pipeline

Aşağıdaki deyimlerin doğru olduğunu varsayalım:

  • Toplam veri hacmi 50 terabayttır (TB).

  • İlk çözüm mimarisini kullanarak verileri geçiriyoruz (Netezza sunucusu şirket içinde, güvenlik duvarının arkasındadır).

  • 50 TB birim 500 bölüme ayrılır ve her kopyalama etkinliği bir bölüm taşır.

  • Her kopyalama etkinliği, dört makinede şirket içinde barındırılan bir IR ile yapılandırılır ve saniyede 20 megabayt (MB/sn) aktarım hızına ulaşır. (Kopyalama etkinliğinde parallelCopies 4 olarak ayarlanır ve tablodan veri yüklenecek her iş parçacığı 5 MB/sn aktarım hızına ulaşır.)

  • ForEach eşzamanlılığı 3 olarak ayarlanır ve toplam aktarım hızı 60 MB/sn'dir.

  • Geçişin tamamlanması toplamda 243 saat sürer.

Yukarıdaki varsayımlara göre tahmini fiyat şu şekildedir:

The pricing table

Dekont

Önceki tabloda gösterilen fiyatlandırma varsayımsaldır. Gerçek fiyatlandırmanız ortamınızdaki gerçek aktarım hızına bağlıdır. Windows makinesinin fiyatı (şirket içinde barındırılan IR yüklü) dahil değildir.

Ek başvurular

Daha fazla bilgi için aşağıdaki makalelere ve kılavuzlara bakın: