Ayıklama, dönüştürme ve yükleme (ETL)
Kuruluşların karşılaştığı yaygın bir sorun, birden çok kaynaktan veri toplama işlemi, birden fazla biçimde. Daha sonra, bir veya daha fazla veri deposu için taşımanız gerekir. Hedef, kaynak ile aynı türde veri deposu olmayabilir. Genellikle biçim farklıdır veya son hedefine yüklenmeden önce verilerin şekillendirilmiş veya temizlenmiş olması gerekir.
Bu güçlükleri ele almak için yıllarda çeşitli araçlar, hizmetler ve süreçler geliştirilmiştir. İşlemin ne olduğuna bakılmaksızın, çalışmayı koordine etmeniz ve veri ardışık düzeninde bazı veri dönüştürme düzeylerini uygulamanız yaygın bir işlemdir. Aşağıdaki bölümlerde, bu görevleri gerçekleştirmek için kullanılan ortak Yöntemler vurgulanır.
Ayıklama, dönüştürme ve yükleme (ETL) işlemi
Ayıklama, dönüştürme ve yükleme (ETL), çeşitli kaynaklardan veri toplamak için kullanılan bir veri ardışık düzeni. Daha sonra verileri iş kurallarına göre dönüştürür ve verileri hedef veri deposuna yükler. ETL 'deki dönüştürme çalışması özel bir altyapıda yer alır ve genellikle hazırlama tablolarının, dönüştürülürken verileri geçici olarak tutmak ve sonunda hedefine yüklenmesi gerekir.
Gerçekleştirilen veri dönüştürmesi genellikle filtreleme, sıralama, toplama, verileri birleştirme, verileri temizleme, yinelenenleri kaldırma ve verileri doğrulama gibi çeşitli işlemleri kapsar.

Genellikle, üç ETL aşamaları zaman kazanmak için paralel olarak çalıştırılır. Örneğin, veriler ayıklanırken, bir dönüştürme işlemi zaten alınmış veriler üzerinde çalışabilir ve yüklemeye hazırlar ve yükleme işlemi tüm ayıklama işleminin tamamlanmasını beklemek yerine hazırlanan veriler üzerinde çalışmaya başlayabilir.
İlgili Azure hizmeti:
Diğer araçlar:
Ayıkla, yükle ve dönüştür (ELT)
Ayıklama, yükleme ve dönüştürme (ELT) ETL 'den yalnızca dönüştürmenin nerede gerçekleşdiğine göre farklılık gösterir. ELT ardışık düzeninde, dönüştürme hedef veri deposunda oluşur. Ayrı bir dönüştürme altyapısı kullanmak yerine, hedef veri deposunun işleme özellikleri verileri dönüştürmek için kullanılır. Bu, dönüştürme altyapısını ardışık düzen öğesinden kaldırarak mimariyi basitleştirir. Bu yaklaşıma yönelik başka bir avantaj de hedef veri deposunun ölçeklendirilmesi, ELT ardışık düzen performansını de ölçeklendirir. Ancak, ELT yalnızca hedef sistem verileri verimli bir şekilde dönüştürmek için yeterince güçlü olduğunda iyi bir şekilde çalışacaktır.

Büyük veri bölgesi içindeki ELT için tipik kullanım örnekleri. Örneğin, bir Hadoop Dağıtılmış dosya sistemi, Azure Blob Mağazası veya Azure Data Lake Gen 2 (ya da bir bileşim) gibi ölçeklenebilir depolamada tüm kaynak verileri düz dosyalara ayıklayarak başlayabilirsiniz. Spark, Hive veya PolyBase gibi teknolojiler, daha sonra kaynak verileri sorgulamak için kullanılabilir. ELT ile anahtar noktası, dönüştürmeyi gerçekleştirmek için kullanılan veri deposunun, verilerin son kullanıldığı veri depolama alanı olmasını sağlar. Bu veri deposu, verileri kendi özel depolamasına yüklemek yerine doğrudan ölçeklenebilir depolamadan okur. Bu yaklaşım, ETL 'de bulunan veri kopyalama adımını atlar, bu da genellikle büyük veri kümeleri için zaman alan bir işlem olabilir.
uygulamada, hedef veri deposu, Azure Synapse Analytics üzerinde bir Hadoop kümesi (Hive veya Spark kullanarak) veya SQL adanmış havuzlar kullanan bir veri ambarıdır . Genel olarak, şema sorgu zamanında düz dosya verilerinde yer alır ve tablo olarak depolanır ve verilerin veri deposundaki diğer tablolar gibi sorgulanmasını sağlar. Bunlar, veri deposunun kendisi tarafından yönetilen depolamada bulunmadığından, ancak Azure Data Lake Store veya Azure Blob depolama gibi bazı dış ölçeklenebilir depolarda olmadığından, bunlar dış tablo olarak adlandırılır.
Veri deposu yalnızca verilerin şemasını yönetir ve şemayı okuma üzerine uygular. Örneğin, Hive kullanan bir Hadoop kümesi, veri kaynağının IBir dosya kümesinin bir yolu olan bir yığın tablosu olduğunu anlatmaktadır. Azure SYNAPSE 'de, PolyBase aynı sonuca ulaşarak veritabanına dışarıdan depolanmış verilere yönelik bir tablo oluşturabilir. Kaynak veriler yüklendikten sonra, dış tablolarda bulunan veriler veri deposunun özellikleri kullanılarak işlenebilir. Büyük veri senaryolarında bu, veri deposunun yüksek düzeyde paralel işleme (MPP) özelliğine sahip olması gerektiği anlamına gelir. Bu, verileri daha küçük parçalara ayırır ve öbeklerin birden çok düğümde paralel olarak işlenmesini dağıtır.
ELT işlem hattının son aşaması genellikle kaynak verileri, desteklenmesinin gerektiği sorgu türleri için daha verimli olan son bir biçime dönüştürmelidir. Örneğin, veriler bölümlenmiş olabilir. Ayrıca, ELT, satır odaklı verileri sütunlu biçimde depolayan ve iyileştirilmiş dizin oluşturma sağlayan Parquet gibi iyileştirilmiş depolama biçimleri kullanabilir.
İlgili Azure hizmeti:
- Azure Synapse Analytics 'te adanmış havuzlar SQL
- Azure Synapse Analytics 'te sunucusuz havuzlar SQL
- Hive ile HDInsight
- Azure Data Factory
Diğer araçlar:
Veri akışı ve denetim akışı
Veri işlem hatları bağlamında denetim akışı, bir görev kümesinin sıralı işlemesini sağlar. Bu görevlerin doğru işlem sırasını zorlamak için öncelik kısıtlamaları kullanılır. Aşağıdaki görüntüde gösterildiği gibi, bu kısıtlamaları bir iş akışı diyagramında bağlayıcılar olarak düşünebilirsiniz. Her görevin başarı, başarısızlık veya tamamlama gibi bir sonucu vardır. Sonraki tüm görevler, öncülü bu sonuçlardan biriyle tamamlanana kadar işlemeyi başlatmaz.
Denetim akışları, veri akışlarını görev olarak yürütür. Veri akışı görevinde, veriler bir kaynaktan ayıklanır, dönüştürülür veya bir veri deposuna yüklenir. Bir veri akışı görevinin çıktısı bir sonraki veri akışı görevinin girişi olabilir ve veri akışları paralel olarak çalıştırılabilir. Denetim akışlarının aksine, bir veri akışındaki görevler arasında kısıtlama ekleyemezsiniz. Bununla birlikte, verileri her bir görev tarafından işlendiği gibi gözlemlemek için bir veri Görüntüleyicisi ekleyebilirsiniz.

Yukarıdaki diyagramda, tek bir veri akışı görevi olan Denetim akışında birkaç görev vardır. Görevlerden biri bir kapsayıcı içinde iç içe geçmiş. Kapsayıcılar görevlere yapı sağlamak için kullanılabilir ve bir iş birimi sağlar. Bu tür bir örnek, bir koleksiyon içindeki öğeler (örneğin, bir klasör veya veritabanı İfadelerdeki dosyalar) için.
İlgili Azure hizmeti:
Diğer araçlar:
Teknoloji seçimleri
- Çevrimiçi Işlem Işleme (OLTP) veri depoları
- Çevrimiçi analitik Işleme (OLAP) veri depoları
- Veri ambarları
- Ardışık düzen ayarlama
Sonraki adımlar
Aşağıdaki başvuru mimarileri, Azure 'da uçtan uca ELT işlem hatlarını gösterir: