Azure Data Factory'ye giriş

Not

Bu makale, Azure Data Factory’nin 1. sürümü için geçerlidir. Data Factory hizmetinin geçerli sürümünü kullanıyorsanız bkz. Data Factory V2’ye giriş.

Azure Data Factory nedir?

Büyük veri dünyasında, işletmede mevcut verilerden nasıl yararlanılır? Şirket içi veri kaynaklarından veya diğer dağınık veri kaynaklarından elde edilen başvuru verilerini kullanarak bulutta oluşturulan verileri zenginleştirmek mümkün mü?

Örneğin, bir oyun şirketi, oyunlar tarafından üretilen günlükleri bulutta toplamaktadır. Şirket, bu günlükleri analiz ederek müşteri tercihleri, demografik verileri, kullanım davranışı vb. hakkında bilgi sahibi olmak istemektedir. Ayrıca yukarı satış ve çapraz satış fırsatlarını belirlemek, işleri büyütmek için yeni cazip özellikler geliştirmek ve müşterilerine daha iyi bir deneyim sunmak istemektedir.

Bu günlükleri analiz etmek için, şirketin şirket içi veri deposunda bulunan müşteri bilgileri, oyun bilgileri ve pazarlama kampanyası bilgileri gibi başvuru verilerini kullanması gerekir. Bu nedenle, şirket bulut veri deposundan günlük verilerini ve şirket içi veri deposundan başvuru verilerini almak istemektedir.

Şirket sonraki adımda verileri bulutta Hadoop (Azure HDInsight) kullanarak işlemek istemektedir. Sonuç verilerini Azure SYNAPSE Analytics gibi bir bulut veri ambarında veya SQL Server gibi bir şirket içi veri deposunda yayımlamak ister. Şirket bu iş akışının haftada bir çalışmasını istemektedir.

Şirketin hem şirket içindeki hem de bulut üzerindeki veri depolarından veri alabilen iş akışları oluşturabileceği bir platforma ihtiyacı vardır. Şirketin aynı zamanda Hadoop gibi var olan işlem hizmetlerini kullanarak verileri dönüştürme veya işlemenin yanı sıra sonuçları BI uygulamalarının kullanması için şirket içindeki veya bulut üzerindeki veri depolarında yayımlamaya ihtiyacı vardır.

Data Factory overview

Azure Data Factory, bu tür senaryolara yönelik platformdur. Bulutta veri hareketi ve veri dönüştürmeyi düzenleyip otomatikleştirmek için veri odaklı iş akışları oluşturmanıza olanak tanıyan, bulut tabanlı bir veri tümleştirme hizmetidir. Azure Data Factory hizmetini kullanarak aşağıdaki görevleri gerçekleştirebilirsiniz:

  • Farklı veri depolarından veri alabilen veri odaklı iş akışları (işlem hattı olarak adlandırılır) oluşturabilir ve zamanlayabilirsiniz.

  • Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics ve Azure Machine Learning gibi işlem hizmetlerini kullanarak verileri işleyebilir veya dönüştürebilirsiniz.

  • İş zekası (BI) uygulamalarının kullanması için Azure SYNAPSE Analytics gibi veri depolarında çıktı verilerini yayımlayın.

Bu, geleneksel bir Ayıklama-Dönüştürme-Yükleme (ETL) platformu yerine daha çok Ayıklama-Dönüştürme (EL) ve sonra Dönüştürme-Yükleme (TL) platformudur. Dönüştürmeler verileri türetilmiş sütun ekleme, satır sayısını belirleme, veri sıralama vb. yerine işlem hizmetlerini kullanarak işler.

Şu anda Azure Data Factory'de iş akışları tarafından kullanılan ve üretilen veriler, zaman dilimli verilerdir (saatlik, günlük, haftalık vb.). Örneğin, bir işlem hattı günde bir kez giriş verilerini okuyabilir, verileri işleyebilir ve çıktı üretebilir. Bir iş akışını yalnızca bir kez de çalıştırabilirsiniz.

Nasıl çalışır?

Azure Data Factory’deki işlem hatları (veri odaklı iş akışları) genellikle aşağıdaki üç adımı gerçekleştirir:

Three stages of Azure Data Factory

Bağlanma ve toplama

Kuruluşların dağınık kaynaklarda yer alan çeşitli türlerde verileri vardır. Bilgi üretim sistemi oluşturmanın ilk adımı, gerekli tüm veri ve işlem kaynaklarını bağlamaktır. Bu kaynaklar SaaS hizmetleri, dosya paylaşımları, FTP ve web hizmetleri olabilir. Ardından takip eden işleme çalışmaları için gerektiğinde verileri merkezi bir konuma taşımanız gerekir.

Data Factory olmadığında, kuruluşların bu veri kaynaklarını ve işleme çalışmalarını tümleştirmek için özel veri taşıma bileşenleri oluşturması veya özel hizmetler yazması gerekir. Bu tür sistemleri tümleştirmenin ve bakımını yapmanın maliyeti yüksektir. Ayrıca bu sistemlerde tamamen yönetilebilir bir hizmetin sunduğu kurumsal sınıf izleme, uyarı oluşturma ve denetim özellikleri mevcut değildir.

Data Factory ile, veri işlem hattında Kopyalama Etkinliği’ni kullanarak hem şirket içinde hem de buluttaki kaynak veri depolarını daha fazla analiz için merkezi bir veri deposuna taşıyabilirsiniz.

Örneğin, Azure Data Lake Store'da veri toplayabilir ve daha sonra Azure Data Lake Analytics işlem hizmetini kullanarak verileri dönüştürebilirsiniz. Verileri Azure blob depolama alanından toplayıp daha sonra Azure HDInsight Hadoop kümesi kullanarak da dönüştürebilirsiniz.

Dönüştürme ve zenginleştirme

Veriler buluttaki merkezi bir veri deposuna sunulduktan sonra HDInsight Hadoop, Spark, Data Lake Analytics veya Machine Learning gibi işlem hizmetlerini kullanarak işleyin veya dönüştürün. Üretim ortamlarının güvenilir verilerle beslenmesi için sürdürülebilir ve denetlenebilir bir zamanlamaya göre dönüştürülmüş verileri güvenilir bir şekilde üretmeniz gerekir.

Yayımlama

Dönüştürülen verileri buluttan SQL Server gibi şirket içi kaynaklara gönderebilirsiniz. Alternatif olarak, bı ve analiz araçları ve diğer uygulamalar tarafından kullanılmak üzere bulut depolama kaynaklarınızda saklayın.

Başlıca bileşenler

Azure aboneliğinin bir veya birden çok Azure Data Factory örneği (veya veri fabrikası) olabilir. Azure Data Factory dört temel bileşenden oluşur. Bu bileşenler, üzerinde veri taşıma ve dönüştürme adımları ile veri odaklı iş akışları oluşturabileceğiniz platformu sağlamak üzere birlikte çalışır.

İşlem Hattı

Bir veri fabrikasında bir veya daha fazla işlem hattı olabilir. İşlem hattı bir grup etkinliktir. İşlem hattındaki etkinlikler birlikte bir görevi gerçekleştirir.

Örneğin, bir işlem hattı Azure blobundan verileri alan ve ardından HDInsight kümesinde Hive sorgusu çalıştırarak verileri bölümlere ayıran bir grup etkinlik içerebilir. İşlem hattının avantajı, etkinliklerin her birini tek tek yönetmek yerine bir küme olarak yönetmenize olanak tanımasıdır. Örneğin, bağımsız etkinlikler zamanlamak yerine işlem hattını dağıtabilir ve zamanlayabilirsiniz.

Etkinlik

İşlem hattında bir veya daha fazla etkinlik olabilir. Etkinlikler, verilerinizde gerçekleştirilecek eylemleri tanımlayın. Örneğin, bir veri deposundan başka bir veri deposuna veri kopyalamak için kopyalama etkinliğini kullanabilirsiniz. Bir Hive etkinliğini de benzer şekilde kullanabilirsiniz. Hive etkinliği, verilerinizi dönüştürmek veya analiz etmek amacıyla Azure HDInsight kümesinde bir Hive sorgusu çalıştırır. Data Factory iki tür etkinliği destekler: veri taşıma etkinlikleri ve veri dönüştürme etkinlikleri.

Veri taşıma etkinlikleri

Data Factory’deki Kopyalama Etkinliği bir kaynak veri deposundan havuz veri deposuna verileri kopyalar. Herhangi bir kaynaktan gelen veriler herhangi bir havuza yazılabilir. Bir depoya veya depodan veri kopyalama hakkında bilgi edinmek için veri deposunu seçin. Data Factory aşağıdaki veri depolarını destekler:

Kategori Veri deposu Kaynak olarak desteklenen Havuz olarak desteklenen
Azure Azure Blob Depolama
  Azure Cosmos DB (SQL API)
  Azure Data Lake Storage Gen1
  Azure SQL Veritabanı
  Azure Synapse Analytics
  Azure Bilişsel Arama dizini
  Azure Tablo Depolama
Veritabanları Amazon Redshift
  DB2
  Mysql
  Oracle
  Postgresql
  SAP Business Warehouse
  SAP HANA
  SQL Server
  Sybase
  Teradata
NoSQL Cassandra
  MongoDB
Dosya Amazon S3
  Dosya Sistemi
  FTP
  HDFS
  SFTP
Diğerleri Genel HTTP
  Genel OData
  Genel ODBC
  Salesforce
  Web Tablosu (HTML tablosu)

Daha fazla bilgi için bkz. Kopyalama Etkinliğiyle veri taşıma.

Veri dönüştürme etkinlikleri

Azure Data Factory, işlem hatlarına tek tek veya başka bir etkinlikle zincirleme halinde eklenebilecek aşağıdaki dönüştürme etkinliklerini destekler.

Veri dönüştürme etkinliği İşlem ortamı
Hive HDInsight [Hadoop]
Domuz HDInsight [Hadoop]
MapReduce HDInsight [Hadoop]
Hadoop Akışı HDInsight [Hadoop]
Spark HDInsight [Hadoop]
ML Studio (klasik) etkinlikleri: Batch Yürütme ve Kaynağı Güncelleştirme Azure VM
Saklı Yordam Azure SQL, Azure Synapse Analytics veya SQL Server
Data Lake Analytics U-SQL Azure Data Lake Analytics
Dotnet HDInsight [Hadoop] veya Azure Batch

Not

MapReduce etkinliğini kullanarak HDInsight Spark kümenizde Spark programları çalıştırabilirsiniz. Ayrıntılar için bkz. Azure Data Factory’den Spark programlarını çağırma. R yüklü HDInsight kümenizde R betiklerini çalıştırmak için özel bir etkinlik oluşturabilirsiniz. Bkz. Azure Data Factory kullanarak R Betiği çalıştırma.

Daha fazla bilgi için bkz. Kopyalama Etkinliğiyle veri taşıma.

Özel .NET etkinlikleri

Kopyalama Etkinliğinin desteklemediği bir veri deposuna/veri deposundan veri taşımanız ya da kendi mantığınızı kullanarak verileri dönüştürmeniz gerekirse özel bir .NET etkinliği oluşturun. Özel bir etkinlik oluşturma ve kullanma hakkında ayrıntılı bilgi için bkz. Azure Data Factory işlem hattında özel etkinlikler kullanma.

Veri kümeleri

Bir etkinlik girdi olarak sıfır veya daha fazla veri kümesi ve çıktı olarak bir ya da daha fazla veri kümesi alır. Veri kümeleri, veri depolarındaki veri yapılarını temsil eder. Bu yapılar, etkinliklerinizde kullanmak istediğiniz verilere (giriş veya çıkış olarak) işaret eder veya başvurur.

Örneğin Azure blob veri kümesi, işlem hattının verileri okuması gereken blob kapsayıcısını ve Azure blob depolama klasörünü belirtir. Veya bir Azure SQL tablosu veri kümesi, çıktı verilerinin etkinlik tarafından yazılacağı tabloyu belirtir.

Bağlı hizmetler

Bağlı hizmetler, dış kaynaklara bağlanmak için Data Factory'ye gereken bağlantı bilgilerini tanımlayan bağlantı dizelerine çok benzer. Şöyle düşünün: bağlı bir hizmet, veri kaynağıyla bağlantıyı tanımlar ve veri kümesi verilerin yapısını temsil eder.

Örneğin, Azure Depolama bağlı hizmeti Azure Depolama hesabına bağlanacak bağlantı dizesini belirtir. Ayrıca, bir Azure blob veri kümesi blob kapsayıcıyı ve verileri içeren klasörü belirtir.

Bağlı hizmetler Data Factory'de iki nedenle kullanılır:

  • Tek bir veritabanı, Oracle veritabanı, dosya paylaşımı veya Azure blob SQL Server içeren ancak bunlarla sınırlı olmayan bir veri depolarını temsil etmek için. Desteklenen veri depolarının bir listesi için Veri taşıma etkinlikleri bölümüne bakın.

  • Etkinliğin yürütülmesini barındıran bir işlem kaynağını temsil etmek için. Örneğin, HDInsightHive etkinliği bir HDInsight Hadoop kümesinde yürütülür. Desteklenen işlem ortamlarının listesi için Veri dönüştürme etkinlikleri bölümüne bakın.

Data Factory varlıkları arasındaki ilişki

Diagram: Data Factory, a cloud data integration service - key concepts

Desteklenen bölgeler

Şu anda Batı ABD, Doğu ABD ve Kuzey Avrupa bölgelerinde veri fabrikaları oluşturabilirsiniz. Ancak, verileri veri depoları arasında taşımak ve işlem hizmetlerini kullanarak verileri işlemek amacıyla veri fabrikası başka Azure bölgelerindeki veri depolarına ve işlem hizmetlerine erişebilir.

Azure Data Factory’nin kendisi verileri depolamaz. Desteklenen veri depoları arasındaki veri taşıma işlemlerini yönetmek için veri odaklı iş akışları oluşturmanızı sağlar. Ayrıca diğer bölgelerdeki veya şirket içi ortamdaki işlem hizmetlerini kullanarak verileri işlemenizi sağlar. Hem programlama, hem de kullanıcı arabirimi mekanizmalarını kullanarak iş akışlarını izlemenizi ve yönetmenizi de sağlar.

Data Factory yalnızca Batı ABD, Doğu ABD ve Kuzey Avrupa bölgelerinde kullanılabilir. Ancak, Data Factory'deki veri taşıma işlemlerini mümkün kılan hizmet birden fazla bölgede genel olarak kullanılabilir. Bir veri deposu bir güvenlik duvarının arkasındaysa, şirket içi ortamınızda yüklü olan bir veri yönetimi ağ geçidi bunun yerine verileri taşıdır.

Örneğin, Azure HDInsight kümesi ve Azure Machine Learning gibi işlem ortamlarınızın Batı Avrupa bölgesinde bulunduğunu varsayalım. Kuzey Avrupa bölgesinde Azure Data Factory örneği oluşturabilir ve kullanabilirsiniz. Ardından bunu kullanarak Batı Avrupa'daki işlem ortamlarınızda iş zamanlayabilirsiniz. Data Factory'nin işlem ortamınızda işi tetiklemesi birkaç milisaniye alsa da, bilgi işlem ortamınızda işin çalıştırılma süresi değişmez.

İşlem hattı oluşturmaya başlama

Azure Data Factory'de veri işlem hatları oluşturmak için bu araç veya API'lerden birini kullanabilirsiniz:

  • Visual Studio
  • PowerShell
  • .NET API’si
  • REST API
  • Azure Resource Manager şablonu

Veri işlem hatları ile veri fabrikaları oluşturmayı öğrenmek için aşağıdaki öğreticilerde yer alan adım adım yönergeleri izleyin:

Öğretici Description
İki bulut veri deposu arasında veri taşıma blob depolamadan SQL Veritabanı veri taşıyan bir işlem hattı ile veri fabrikası oluşturun.
Hadoop kümesi kullanarak veri dönüştürme Bir Azure HDInsight (Hadoop) kümesinde Hive betiği çalıştırarak veri işleyen bir veri işlem hattı ile ilk Azure veri fabrikanızı oluşturun.
Veri Yönetimi Ağ Geçidini kullanarak verileri şirket içi veri deposu ile bulut veri deposu arasında taşıma verileri bir SQL Server veritabanından Azure blobuna taşıyan bir işlem hattı ile veri fabrikası oluşturun. Adım adım kılavuzun bir parçası olarak makinenize Veri Yönetimi Ağ Geçidi yükleyip bunu yapılandıracaksınız.