Veri tümleştirme desenlerini açıklama

Tamamlandı

Microsoft Azure, farklı analiz türleri gerçekleştirmenizi sağlayan çeşitli veri platformu hizmetleri sunar. HdInsight, Azure Databricks veya Machine Learning Services içindeki tahmine dayalı analiz aracılığıyla veri ambarında açıklayıcı bir analiz çözümü olup olmadığı. Bir hizmetin veri tümleştirmesinin önemli yönleriyle ilgilenmesi gerekir.

Veri tümleştirmesi öncelikle bir veya daha fazla kaynaktan veri toplamayı içerir. İsteğe bağlı olarak, genellikle verilerin temizlenip dönüştürülebileceği veya ek verilerle genişletilip hazırlanabileceği bir süreç içerir. Son olarak, birleştirilmiş veriler, gerçekleştirmek istediğiniz analiz türünü işleyen bir veri platformu hizmetinde depolanır. Bu işlem Azure Data Factory tarafından Ayıkla, Dönüştür ve Yükle (ETL) olarak bilinen bir düzende otomatikleştirilebilir.

Ayıkla

Ayıklama işlemi sırasında veri mühendisleri verileri ve kaynağını tanımlar:

  • Veri kaynağını tanımlama: Kaynak grubu, abonelik gibi kaynak ayrıntılarını ve anahtar veya gizli dizi gibi kimlik bilgilerini tanımlayın.

  • Verileri tanımlama: Ayıklanacak verileri tanımlayın. Veritabanı sorgusu, bir dizi dosya veya blob depolama alanı için bir Azure Blob deposu adı kullanarak verileri tanımlayın.

Dönüşüm

  • Veri dönüştürmeyi tanımlama: Veri dönüştürme işlemleri sütunları bölme, birleştirme, türetme, ekleme, kaldırma veya özetleme işlemlerini içerebilir. Veri kaynağı ile veri hedefi arasında alanları eşleyin. Verileri toplamanız veya birleştirmeniz de gerekebilir.

Yükleme

  • Hedefi tanımlama: Yükleme sırasında birçok Azure hedefi JavaScript Nesne Gösterimi (JSON), dosya veya blob olarak biçimlendirilmiş verileri kabul edebilir. Uygulama API'leriyle etkileşim kurmak için kod yazmanız da gerekebilir.

    Azure Data Factory, Azure İşlevleri için yerleşik destek sunar. Node.js, .NET, Python ve Java gibi birçok programlama dili için de destek bulabilirsiniz. Geçmişte yaygın olarak Genişletilebilir Biçimlendirme Dili (XML) kullanılıyordu ama sistemlerin çoğu yarı yapılandırılmış bir veri türü olarak esneklik sağladığından JSON'a geçti.

  • İşi başlatma: ETL işini geliştirme veya test ortamında test edin. Ardından, üretim sistemini yüklemek için işi üretim ortamına geçirin.

  • İşi izleme: ETL işlemleri birçok karmaşık işlem içerebilir. İşler iyi gitmediğinde bilgi sağlayabilmesi için proaktif ve tepkisel bir izleme sistemi ayarlayın. Günlük kaydını, onu kullanacak teknolojiye göre ayarlayın.

ETL araçları

Veri mühendisi olarak ETL için çeşitli araçlar mevcuttur. Azure Data Factory, hem kod içermeyen hem de kod tabanlı kullanıcıların veri taşıma ve dönüştürme gereksinimlerini karşılaması için yaklaşık 100 kurumsal bağlayıcı ve sağlam kaynak sağlar.

ETL'nin geçirdiği evrim

Azure, yapılandırılmamış verileri sınırsız bir ölçekte işleyebilecek teknolojilerin yolunu açmıştır. Bu değişiklik, verileri yükleme ve dönüştürme paradigmasını ETL’den ayıklama, yükleme ve dönüştürmeye (ELT) değiştirmiştir.

ELT’nin avantajı JSON, XML, PDF veya görüntü olması fark etmeksizin verileri özgün biçimlerinde depolamanızı sağlamasıdır. ELT’de veri yapısını dönüştürme aşamasında tanımladığınız için kaynak veriyi birden çok aşağı akış sisteminde kullanabilirsiniz.

ELT işlemi sırasında veriler ayıklanır ve yerel biçiminde yüklenir. Bu değişiklik verileri hedef sisteme yüklemek için gereken süreyi kısaltır. Değişiklik, veri kaynaklarındaki kaynak çakışmasını da sınırlandırır.

ELT işleminin adımları ETL işlemiyle aynıdır. Yalnızca farklı sırada gerçekleştirilir.

ELT gibi bir diğer işlem de ayıklama, yükleme, dönüştürme ve yükleme (ELTL) olarak adlandırılır. ELTL’nin farkı hedef sisteme son bir yükleme işlemi yapılmasıdır.

Azure Data Factory tarafından desteklenen iki yaygın veri tümleştirme deseni türü vardır.

Modern Veri Ambarı iş yükleri:

Modern Veri Ambarı, yapılandırılmış, yapılandırılmamış veya akışlı veri kaynaklarını kullanarak tüm kuruluş genelinde açıklayıcı analiz ve karar destek hizmetleri sağlayan merkezi bir veri deposudur. Veriler birden çok işlem sisteminden, ilişkisel veritabanından ve diğer veri kaynaklarından düzenli olarak ambara akar. Depolanan veriler geçmiş ve eğilim analizi raporlaması için kullanılır. Veri ambarı birçok alanda merkezi bir depo görevi görür ve "tek gerçeklik kaynağını" içerir.

Azure Data factory genellikle yapılandırılmış ve yapılandırılmamış veri kaynaklarına karşı toplu işlem aracılığıyla verileri ayıklama, dönüştürme ve yükleme işlemini otomatikleştirmek için kullanılır.

Gelişmiş Analiz İş Yükleri

Bir dizi Azure veri platformu hizmetini kullanarak tahmine dayalı veya önleyici analiz biçiminde gelişmiş analiz gerçekleştirebilirsiniz. Azure Data Factory, kaynak sistemlerden Data Lake deposuna tümleştirme sağlar ve gelişmiş analiz çalışmalarını gerçekleştirmek için verileri kullanmak üzere Azure Databricks veya HDInsight gibi işlem kaynaklarını başlatabilir