Azure Data Factory ile Hibrit ETL

Blob Depolama
Data Factory
Synapse Analytics

SQL Server veritabanlarını buluta geçiren kuruluşlar muazzam maliyet tasarrufu, performans kazancı, daha fazla esneklik ve daha fazla ölçeklenebilirlik elde ediyor olabilir. Ancak, SQL Server Integration Services (SSIS) ile yerleşik mevcut ayıklama, dönüştürme ve yükleme (ETL) işlemlerinin yeniden çalışması bir geçiş engeli olabilir. Diğer durumlarda, veri yükleme işlemi henüz Azure Data Factory v2 tarafından desteklenemeyen karmaşık mantık ve/veya belirli veri aracı bileşenleri gerektirir. Yaygın olarak kullanılan SSIS özellikleri Arasında Belirsiz Arama ve Belirsiz Gruplama dönüşümleri, Değişiklik Veri Yakalama (CDC), Yavaş Değişen Boyutlar (SCD) ve Veri Kalitesi Hizmetleri (DQS) yer alır.

Mevcut bir SQL veritabanının "lift and shift" geçişini kolaylaştırmak için karma ETL yaklaşımı en uygun seçenek olabilir. Karma yaklaşımda birincil Data Factory olarak Data Factory kullanılır, ancak verileri temizlemek ve şirket içi kaynaklarla çalışmak için mevcut SSIS paketlerini kullanmaya devam eder. Bu yaklaşım, mevcut Data Factory SQL Server ve SSIS paketlerini kullanırken mevcut veritabanlarının buluta "lift and shift" geçişini etkinleştirmek için Data Factory SQL Server Tümleşik Çalışma Zamanı (IR) kullanır.

Bu örnek senaryo, veritabanlarını buluta taşımayı ve mevcut SSIS paketlerini yeni bulut veri iş akışına dahil ederken birincil bulut tabanlı ETL altyapısı olarak Data Factory kullanmayı göz önünde bulunduran kuruluşlar için geçerlidir. Birçok kuruluş, belirli veri görevleri için SSIS ETL paketleri geliştirmeye önemli yatırımlar yaptı. Bu paketleri yeniden yazmak göz korkutucu olabilir. Ayrıca, mevcut kod paketlerinin çoğu yerel kaynaklara bağımlıdır ve buluta geçişi engeller.

Data Factory, müşterilerin mevcut ETL paketlerinden yararlanmalarına olanak sağlarken şirket içi ETL geliştirmeye daha fazla yatırım sınırlaması sağlar. Bu örnekte, mevcut SSIS paketlerinde yeni bir bulut verisi iş akışının bir parçası olarak v2'nin kullanımına Azure Data Factory ele alınmektedir.

Olası kullanım örnekleri

SSIS, veri dönüştürme ve yükleme için birçok farklı veri SQL Server için tercih edilir etL aracıdır. Bazen geliştirme çalışmalarını hızlandırmak için belirli SSIS özellikleri veya üçüncü taraf takılı bileşenler kullanılmaktadır. Bu paketlerin değiştirilmesi veya yeniden geliştirmesi, müşterilerin veritabanlarını buluta değiştirmesini engelleyen bir seçenek olabilir. Müşteriler, mevcut veritabanlarını buluta değiştirmek ve mevcut SSIS paketlerinden yararlanmak için düşük etkili yaklaşımlar arıyor.

Olası şirket içi kullanım örnekleri aşağıda listelenmiştir:

  • Analiz için ağ yönlendirici günlüklerini bir veritabanına yükleme.
  • analiz raporlaması için insan kaynaklarının istihdam verilerini hazırlama.
  • Ürün ve satış verilerini satış tahmini için bir veri ambarına yükleme.
  • finans ve muhasebe için işletimsel veri depolarının veya veri ambarlarının yüklenmesini otomatik hale.

Mimari

Azure Data Factory kullanarak karma ETL sürecine mimariye genel Azure Data Factory

  1. Veriler Blob depolamadan depolama alanına Data Factory.
  2. İşlem Data Factory, Tümleşik Çalışma Zamanı aracılığıyla şirket içinde barındırılan bir SSIS işini yürütmek için bir saklı yordam çağırır.
  3. Verileri aşağı akış tüketimine hazırlamak için veri temizleme işleri yürütülür.
  4. Veri temizleme görevi başarıyla tamamlandıktan sonra temiz verileri Azure'a yüklemek için bir kopyalama görevi yürütülür.
  5. Temiz veriler daha sonra tablodaki tablolara Azure Synapse Analytics.

Bileşenler

  • Blob depolama, dosyaları depolamak ve verileri almak için Data Factory olarak kullanılır.
  • SQL Server Integration Services, göreve özgü iş yüklerini yürütmek için kullanılan şirket içi ETL paketlerini içerir.
  • Azure Data Factory, birden çok kaynakta bulunan verileri alan ve verileri bir veri ambarında birleştiren, düzenlemeye ve yüke dönüştüren bulut düzenleme altyapısıdır.
  • Azure Synapse ansi sorgularını kullanarak kolay erişim için buluttaki verileri SQL sağlar.

Alternatifler

Data Factory databricks not defteri, Python betiği veya sanal makinede çalışan SSIS örneği gibi diğer teknolojiler kullanılarak uygulanan veri temizleme yordamlarını çağırabilirsiniz. Azure-SSIS tümleştirme çalışma zamanı için ücretli veya lisanslı özel bileşenlerin yüklemesi, karma yaklaşımın uygulanabilir bir alternatifi olabilir.

Dikkat edilmesi gerekenler

Tümleşik Çalışma Zamanı (IR) iki modeli destekler: kendinden konak IR veya Azure'da barındırılan IR. Öncelikle bu iki seçenek arasında karar verebilirsiniz. Kendi kendine barındırma daha uygun maliyetlidir, ancak bakım ve yönetim için daha fazla ek yüke sahiptir. Daha fazla bilgi için bkz. Kendinden konak IR. Hangi IR'nin kullanılacı olduğunu belirlemek için yardıma ihtiyacınız varsa bkz. Hangi IR'nin kullanılacı olduğunu belirleme.

Azure'da barındırılan yaklaşım için verilerinizi işlemenin ne kadar güç gerektiğine karar verebilirsiniz. Azure'da barındırılan yapılandırma, yapılandırma adımlarının bir parçası olarak VM boyutunu seçmenize olanak sağlar. VM boyutlarını seçme hakkında daha fazla bilgi edinmek için bkz. VM performansıyla ilgili dikkat edilmesi gerekenler.

Veri kaynakları veya Azure'dan erişil olmayan dosyalar gibi şirket içi bağımlılıkları olan mevcut SSIS paketleriniz olduğunda bu karar çok daha kolaydır. Bu senaryoda, tek seçeneğiniz kendinden konak IR'dir. Bu yaklaşım, mevcut paketleri yeniden yazmak zorunda kalmadan, düzenleme altyapısı olarak buluttan en fazla esneklik sağlar.

Sonuçta amaç, daha fazla iyileştirme yapmak veya bulutta depolanan diğer verilerle birleştirerek işlenen verileri buluta taşımaktır. Tasarım sürecinin bir parçası olarak, işlem hatlarında kullanılan etkinliklerin Data Factory takip etmek. Daha fazla bilgi için bkz. Pipelines ve etkinlikler Azure Data Factory.

Fiyatlandırma

Data Factory, bulutta veri taşımayı düzenlemenin uygun maliyetli bir yolu değildir. Maliyet, çeşitli faktörlere bağlıdır.

  • İşlem hattı yürütme sayısı
  • İşlem hattı içinde kullanılan varlık/etkinlik sayısı
  • İzleme işlemlerinin sayısı
  • Tümleştirme Çalıştırmalarının Sayısı (Azure'da barındırılan IR veya kendinden konak IR)

Data Factory tabanlı faturalamayı kullanır. Bu nedenle, maliyet yalnızca işlem hattı yürütmeleri ve izlemesi sırasında tahakkuktır. Temel bir işlem hattının yürütülmesinin maliyeti 50 sent, izlemenin maliyeti ise 25 sent kadardır. Azure maliyet hesaplayıcısı, belirli iş yükünüze göre daha doğru bir tahmin oluşturmak için kullanılabilir.

Hibrit ETL iş yükünü çalıştırarak SSIS paketlerinizi barındırmak için kullanılan sanal makinenin maliyetini de çarpanlara ala çalışmanız gerekir. Bu maliyet, D1v2 (1 çekirdek, 3,5 GB RAM, 50 GB Disk) ile E64V3 (64 çekirdek, 432 GB RAM, 1600 GB disk) arasında değişen VM boyutuna göredir. Uygun VM boyutunu seçme konusunda daha fazla rehbere ihtiyacınız varsa bkz. VM performansıyla ilgili dikkat edilmesi gerekenler.

Sonraki adımlar