Azure Data Factory nedir?
AŞAĞıDAKILER IÇIN GEÇERLIDIR:
Azure Data Factory
Azure Synapse Analytics
Büyük veri dünyasında ham ve düzensiz veriler genellikle ilişkisel, ilişkisel olmayan ve diğer depolama sistemlerinde depolanır. Ancak, ham veriler kendi başlarına analiz uzmanlarına, veri bilimcilerine veya iş karar mekanizmalarına anlamlı bilgiler sağlamak için uygun bağlama veya anlama sahip değildir.
Büyük veri, bu muazzam ham veri depolarını eyleme değiştirilebilir iş içgörülerine dönüştürecek şekilde süreçleri düzenleme ve faaliyete geçirmek için bir hizmet gerektirir. Azure Data Factory, bu karmaşık karma ayıkla-dönüştür-yükle (ETL), ayıkla-yükle-dönüştür (ELT) ve veri tümleştirme projeleri için oluşturulmuş, yönetilen bir bulut hizmetidir.
Örneğin bulutta çalışan oyunların oluşturduğu petabaytlarca oyun günlüğünü toplayan bir oyun şirketini düşünün. Şirket müşteri tercihleri, demografik bilgiler ve kullanıcı davranışları hakkında içgörü elde etme amacıyla bu günlükleri analiz etmek istiyor. Ayrıca yukarı satış ve çapraz satış fırsatlarını belirlemek, yeni cazip özellikler geliştirmek, işleri büyütmek ve müşterilerine daha iyi bir deneyim sunmayı amaçlamaktadır.
Bu günlükleri analiz etmek için, şirketin şirket içi veri deposunda bulunan müşteri bilgileri, oyun bilgileri ve pazarlama kampanyası bilgileri gibi başvuru verilerini kullanması gerekir. Şirket bu verileri şirket içi veri deposundan bir bulut veri deposunda sahip olduğu ek günlük verileriyle bir arada kullanmak istemektedir.
Öngörüleri ayıklamak için bulutta bir Spark kümesi kullanarak (Azure HDInsight) bir araya gelen verileri işlemeyi ve dönüştürülen verileri Azure Synapse Analytics gibi bir bulut veri ambarında yayımlar ve bunun üzerine kolayca bir rapor derlemeyi umabilir. Bu iş akışını otomatikleştirmek ve bunu günlük olarak izleyip yönetmek istiyor. Ayrıca bu iş akışını blob deposu kapsayıcısına dosyalar ulaştığında yürütmek istiyor.
Azure Data Factory, bu tür veri senaryolarını çözen platformdur. Veri taşımayı ve verileri uygun ölçekte dönüştürmeyi düzenlemeye olanak sağlayan, veri odaklı iş akışları oluşturmanıza olanak sağlayan bulut tabanlı ETL ve veri tümleştirme hizmetidir. Azure Data Factory platformunu kullanarak farklı veri depolarından veri alabilen veri odaklı iş akışları (işlem hattı olarak adlandırılır) oluşturabilir ve zamanlayabilirsiniz. Veri akışlarıyla veya Azure HDInsight Hadoop, Azure Databricks ve Azure SQL Veritabanı gibi işlem hizmetlerini kullanarak verileri görsel olarak dönüştüren karmaşık ETL Azure SQL Veritabanı.
Buna ek olarak, iş zekası (BI) uygulamalarının Azure Synapse Analytics için dönüştürülen verilerinizi veri depolarında yayımlayın. Sonuç olarak, Azure Data Factory sayesinde ham veriler daha iyi iş kararları için anlamlı veri depoları ve veri gölleri halinde düzenlenebilir.
Nasıl çalışır?
Data Factory, veri mühendisleri için uçtan uca tam kapsamlı bir platform sunan bağlantılı sistemlerden oluşur.
Bu görsel kılavuzu, aşağıdaki mimariye genel bakış Data Factory sağlar:
Daha fazla ayrıntı görmek için, yakınlaştırmak için önceki görüntüye tıklayın veya yüksek çözünürlüklü görüntüye göz atabilirsiniz.
Bağlanma ve toplama
Kuruluşlar şirket içinde, bulutta bulunan yapılandırılmış, yapılandırılmamış veya yarı yapılandırılmış ve tümü farklı aralık ve hızlarda gelen farklı kaynaklarda bulunan çeşitli veri türlerine sahiptir.
Bilgi üretim sistemi oluşturmanın ilk adımı hizmet olarak yazılım (SaaS) hizmetleri, veritabanları, dosya paylaşımları, FTP, web hizmetleri gibi tüm gerekli veri kaynaklarına ve işleme çalışmalarına bağlanmaktır. Sonraki adım ise takip eden işleme çalışmaları için gerektiğinde verileri merkezi bir konuma taşımaktır.
Data Factory olmadığında, kuruluşların bu veri kaynaklarını ve işleme çalışmalarını tümleştirmek için özel veri taşıma bileşenleri oluşturması veya özel hizmetler yazması gerekir. Bu tür sistemleri tümleştirmenin ve bakımını yapmanın maliyeti yüksektir. Buna ek olarak bu sistemlerde tamamen yönetilebilir bir hizmetin sunduğu kurumsal sınıf izleme, uyarı oluşturma ve denetim özellikleri mevcut değildir.
Bu Data Factory, verileri hem şirket içi hem de bulut kaynağı veri depolarından daha fazla analiz için buluttaki merkezi bir veri deposuna taşımak için veri işlem hattında Kopyalama Etkinliğini kullanabilirsiniz. Örneğin, Azure Data Lake Depolama verileri toplayabilirsiniz ve daha sonra bir Azure Data Lake Analytics hizmeti kullanarak dönüştürebilirsiniz. Verileri Azure Blob depolama alanından toplayıp daha sonra Azure HDInsight Hadoop kümesi kullanarak da dönüştürebilirsiniz.
Dönüştürme ve zenginleştirme
Veriler buluttaki merkezi bir veri deposuna alındıktan sonra, ADF eşleme veri akışlarını kullanarak toplanan verileri işin veya dönüştürebilirsiniz. Veri akışları, veri mühendislerinin Spark kümelerini veya Spark programlamayı anlamak zorunda kalmadan Spark üzerinde yürütülen veri dönüştürme grafları oluşturmalarını ve korumalarını sağlar.
Dönüştürmeleri el ile koda dönüştürmeyi tercih ederseniz, ADF HDInsight Hadoop, Spark, Data Lake Analytics ve Machine Learning gibi işlem hizmetlerinden dönüştürmelerinizi yürütmek için dış etkinlikleri destekler.
CI/CD ve yayımlama
Data Factory, veri işlem hatlarınızı ve veri işlem hatlarınızı kullanarak CI/CD Azure DevOps tam GitHub. Bu sayede, bitmiş ürünü yayımlamadan önce ETL süreçlerinizi artımlı olarak geliştirebilir ve sun sunacağız. Ham veriler iş için kullanılabilir biçime getirildikten sonra, verileri Azure Veri Ambarı, Azure SQL Veritabanı, Azure CosmosDB'ye veya şirket kullanıcılarınızın iş zekası araçlarından işaret edebildiği herhangi bir analiz altyapısına yükleyebilirsiniz.
İzleyici
Veri tümleştirme işlem hattınızı başarıyla oluşturup dağıtarak iyileştirilmiş verilerden iş değeri elde ettikten sonra, başarı ve hata oranları için zamanlanmış etkinlikleri ve işlem hatlarını izleyin. Azure Data Factory Azure İzleyici, API, PowerShell, Azure İzleyici günlükleri ve sistem durumu panelleri aracılığıyla işlem hattı izleme için yerleşik Azure portal.
Üst düzey kavramlar
Azure aboneliğinin bir veya birden çok Azure Data Factory örneği (veya veri fabrikası) olabilir. Azure Data Factory aşağıdaki temel bileşenlerden oluşur.
- Pipelines
- Etkinlikler
- Veri kümeleri
- Bağlı hizmetler
- Veri Akışları
- Tümleştirme Çalışma Zamanları
Bu bileşenler, üzerinde veri taşıma ve dönüştürme adımları ile veri odaklı iş akışları oluşturabileceğiniz platformu sağlamak üzere birlikte çalışır.
İşlem Hattı
Bir veri fabrikasında bir veya daha fazla işlem hattı olabilir. İşlem hattı, bir iş birimini gerçekleştiren etkinliklerden oluşan mantıksal gruptur. İşlem hattındaki etkinlikler birlikte bir görevi gerçekleştirir. Örneğin, bir işlem hattı Azure blobundan verileri alan ve ardından HDInsight kümesinde Hive sorgusu çalıştırarak verileri bölümlere ayıran bir grup etkinlik içerebilir.
İşlem hattının avantajı, etkinliklerin her birini tek tek yönetmek yerine bir küme olarak yönetmenize olanak tanımasıdır. Bir işlem hattındaki etkinlikler, sırayla çalışmak üzere birbirine zincirlenebilir veya paralel olarak birbirinden bağımsız çalışabilir.
Veri akışlarını eşleme
Herhangi bir boyuttaki verileri dönüştürmek için kullanabileceğiniz veri dönüştürme mantığı grafiklerini oluşturun ve yönetin. Veri dönüştürme yordamlarından yeniden kullanılabilir bir kitaplık derlemek ve bu işlemleri ADF işlem hatlarınıza göre ölçeklendirilebilir bir şekilde yürütebilirsiniz. Data Factory bir Spark kümesinde mantığınızı yürütecek ve ihtiyacınız olduğunda yeniden çalıştıracak. Kümeleri yönetmeniz veya bakımını yapmak zorunda olmayacaktır.
Etkinlik
Etkinlikler bir işlem hattındaki işleme adımını temsil eder. Örneğin, bir veri deposundan başka bir veri deposuna veri kopyalamak için kopyalama etkinliğini kullanabilirsiniz. Benzer şekilde, verilerinizi dönüştürmek veya analiz etmek amacıyla Azure HDInsight kümesinde bir Hive sorgusu çalıştıran bir Hive etkinliği kullanabilirsiniz. Data Factory üç tür etkinliği destekler: veri taşıma etkinlikleri, veri dönüştürme etkinlikleri ve denetim etkinlikleri.
Veri kümeleri
Veri kümeleri, veri depoları içinde etkinliklerinizde giriş veya çıkış olarak kullanmak istediğiniz verilere işaret eden veya başvuruda bulunan veri yapılarını temsil eder.
Bağlı hizmetler
Bağlı hizmetler, dış kaynaklara bağlanmak için Data Factory'ye gereken bağlantı bilgilerini tanımlayan bağlantı dizelerine çok benzer. Şöyle düşünün: bağlı bir hizmet, veri kaynağıyla bağlantıyı tanımlar ve veri kümesi verilerin yapısını temsil eder. Örneğin, Azure Depolama bağlı hizmeti Azure Depolama hesabına bağlanacak bağlantı dizesini belirtir. Ayrıca, bir Azure blob veri kümesi blob kapsayıcıyı ve verileri içeren klasörü belirtir.
Bağlı hizmetler Data Factory’de iki amaçla kullanılır:
Tek bir veritabanı, Oracle veritabanı, dosya paylaşımı veya Azure blob SQL Server içeren ancak bunlarla sınırlı olmayan bir veri depolarını temsil etmek için. Desteklenen veri depolarının listesi için kopyalama etkinliği makalesine bakın.
Etkinliğin yürütülmesini barındıran bir işlem kaynağını temsil etmek için. Örneğin, HDInsightHive etkinliği bir HDInsight Hadoop kümesinde yürütülür. Dönüştürme etkinlikleri ve desteklenen işlem ortamlarının listesi için veri dönüştürme makalesine bakın.
Tümleştirme Çalışma Zamanı
Data Factory'de etkinlik, gerçekleştirilecek eylemi tanımlar. Bağlı hizmet, bir hedef veri deposunu veya işlem hizmetini tanımlar. Tümleştirme çalışma zamanı, etkinlik ile bağlı Hizmetler arasında köprü görevi görür. Bağlı hizmet veya etkinlik tarafından başvurur ve etkinliğin üzerinde çalıştırıldıkları veya gönderildikleri işlem ortamını sağlar. Bu şekilde etkinlik hedef veri deposuna veya işlem hizmetine en yakın bölgeden en yüksek performansla gerçekleştirilirken güvenlik ve uyum gereksinimleri korunmuş olur.
Tetikleyiciler
Tetikleyiciler, bir işlem hattı çalıştırmasının başlatılması gereken zamanı belirleyen işlem birimini temsil eder. Farklı etkinlik türleri için farklı tetikleyici türleri vardır.
İşlem hattı çalıştırmaları
İşlem hattı çalıştırması, işlem hattı yürütme örneğidir. İşlem hattı çalıştırmaları örneği genelde bağımsız değişkenlerin işlem hatlarında tanımlanan parametrelere iletilmesiyle oluşturulur. Bağımsız değişkenler el ile veya tetikleyici tanımı içinde geçirilebilir.
Parametreler
Parametreler salt okunur yapılandırmanın anahtar-değer çiftleridir.Parametreler işlem hattında tanımlanır. Tanımlı parametrelerin bağımsız değişkenleri, bir tetikleyici tarafından oluşturulan çalıştırma bağlamı veya el ile yürütülen işlem hattından yürütme sırasında geçirilir. İşlem hattındaki etkinlikler parametre değerlerini kullanır.
Veri kümesi, türü kesin olarak belirtilmiş bir parametre ve yeniden kullanılabilir/başvurulabilir bir varlıktır. Bir etkinlik, veri kümelerine başvurabilir ve veri kümesi tanımında belirtilen özellikleri kullanabilir.
Bağlı hizmet de türü kesin olarak belirtilmiş ve veri deposu ya da işlem ortamı ile bağlantı bilgilerini içeren bir parametredir. Bu da yeniden kullanılabilir/başvurulabilir bir varlıktır.
Denetim akışı
Denetim akışı, işlem hattı düzeyinde ve işlem hattı talep üzerine ya da bir tetikleyiciden çağrılırken geçirilen bağımsız değişkenlerde tanımlanabilen dizi, dallanma ve parametrelerdeki zincirleme etkinliklerini içeren işlem hattı etkinliklerinin düzenlenmesidir. Ayrıca özel durum geçirme ve döngü kapsayıcılarını, diğer bir deyişle For-each yineleyicilerini içerir.
Değişkenler
Değişkenler, geçici değerleri depolamak için işlem hatlarının içinde kullanılabilir ve işlem hatları, veri akışları ve diğer etkinlikler arasında değer geçirmeyi etkinleştirmek için parametrelerle birlikte de kullanılabilir.
Sonraki adımlar
Keşfedecek önemli sonraki adım belgeleri: