Toplu işlem

Ortak bir büyük veri senaryosu, bekleyen verileri toplu olarak işletir. Bu senaryoda kaynak veriler, kaynak uygulamanın kendisi ya da bir Orchestration iş akışı tarafından veri depolama alanına yüklenir. Daha sonra veriler, düzenleme iş akışı tarafından da başlatılabilen paralelleştirilmiş bir iş tarafından yerinde işlenir. İşleme, dönüştürülmüş sonuçlar analiz ve raporlama bileşenleriyle sorgulanabilen bir analitik veri deposuna yüklenmeden önce birden çok yinelemeli adım içerebilir.

Örneğin, bir Web sunucusundan alınan Günlükler bir klasöre kopyalanabilir ve sonra günlük Web etkinliği raporları oluşturmak için fazla gece işlenir.

Toplu işlem işlem hattının diyagramı

Bu çözüm ne zaman kullanılır?

Toplu işlem, basit veri dönüşümlerinden daha tam ETL (Ayıkla-Dönüştür-Load) ardışık düzenine kadar çeşitli senaryolarda kullanılır. Büyük bir veri bağlamında toplu işlem, hesaplamanın önemli bir zaman aldığı çok büyük veri kümeleri üzerinde çalışabilir. (Örneğin, bkz. lambda mimarisi.) Toplu işleme tipik olarak daha fazla etkileşimli araştırmaya neden olur, makine öğrenimine yönelik modellemeye uygun verileri sağlar veya verileri analiz ve görselleştirme için iyileştirilmiş bir veri deposuna yazar.

Toplu işleme örnek olarak, büyük bir düz, yarı yapılandırılmış CSV veya JSON dosyalarını, daha fazla sorgulama için uygun olan bir şemaya dayalı ve yapılandırılmış bir biçime dönüştürmektedir. Genellikle veriler, verileri sütunlu biçimde depoladıklarından ve genellikle veriler hakkında dizin ve satır içi istatistikler sağladığından, alma işlemi için kullanılan ham biçimlerden (CSV gibi), sorgu için kullanılan ikili biçimlere dönüştürülür.

Zorluklar

  • Veri biçimi ve kodlama. Dosyalar beklenmeyen bir biçim veya kodlama kullanırken hata ayıklamanın en zor sorunlarından bazıları meydana gelir. Örneğin, kaynak dosyalar UTF-16 ve UTF-8 kodlamasının bir karışımını kullanabilir veya beklenmedik sınırlayıcılar (boşluk veya sekme) içerebilir veya beklenmedik karakterler içeremez. Diğer bir yaygın örnek, sınırlayıcı olarak yorumlanan sekme, boşluk veya virgül içeren metin alanlarıdır. Veri yükleme ve ayrıştırma mantığı, bu sorunları tespit etmek ve işlemek için yeterince esnek olmalıdır.

  • Zaman dilimlerinidüzenleme. Genellikle kaynak veriler, Windows 'un işlenmesini yansıtan, Year, month, Day, Hour vb. şeklinde düzenlenmiş bir klasör hiyerarşisine yerleştirilir. Bazı durumlarda veriler geç gelebilir. Örneğin, bir Web sunucusunun başarısız olduğunu ve 7 Mart 'ta günlüklerin, 9 Mart 'a kadar işlenmek üzere klasörde bitmediği varsayın. Bunlar çok geç olduklarından yalnızca yoksayıldı mı? Aşağı akış işleme mantığı sıra dışı kayıtları işleyebilir mi?

Mimari

Bir toplu işlem mimarisi, Yukarıdaki diyagramda gösterilen aşağıdaki mantıksal bileşenleri içerir.

  • Veri depolama. Genellikle çeşitli biçimlerdeki büyük boyutlu dosyalar için depo olarak kullanılabilecek dağıtılmış bir dosya deposu. Genel olarak, bu tür bir mağazaya genellikle veri Gölü adı verilir.

  • Toplu işleme. Büyük verilerin yüksek hacimli doğası genellikle çözümlerin, verileri analiz etmek, toplamak ve başka bir şekilde çözümlemek için uzun süre çalışan toplu işler kullanarak veri dosyalarını işlemesi gerektiği anlamına gelir. Bu işler, çoğu zaman kaynak dosyaların okunması, işlenmesi ve çıktının yeni dosyalara yazılmasını içerir.

  • Analitik veri deposu. Birçok büyük veri çözümü, verileri Analize hazırlamak ve sonra işlenen verileri analitik araçlar kullanılarak sorgulanabilen yapılandırılmış bir biçimde sunacak şekilde tasarlanmıştır.

  • Analiz ve raporlama. Büyük veri çözümlerinin çoğunun amacı analiz ve raporlama aracılığıyla veriler hakkında öngörüler sağlamaktır.

  • Düzenleme. Toplu işleme ile verileri veri depolama, toplu işleme, analitik veri depolama ve raporlama katmanlarına geçirmek veya kopyalamak için genellikle bazı düzenleme işlemleri gereklidir.

Teknoloji seçimleri

Aşağıdaki teknolojiler, Azure 'da toplu işleme çözümleri için önerilen seçimlerdir.

Veri depolama

  • kapsayıcılar Azure Depolama Blobu. Birçok mevcut Azure iş işlemi zaten Azure Blob Storage kullanıyor ve bu da büyük bir veri deposu için iyi bir seçim yapıyor.
  • Azure Data Lake Store. Azure Data Lake Store herhangi bir dosya boyutu için neredeyse sınırsız depolama sağlar ve kapsamlı güvenlik seçenekleri sayesinde, heterojen biçimlerdeki veriler için merkezi bir depo gerektiren çok büyük ölçekli büyük veri çözümleri için iyi bir seçim yapar.

Daha fazla bilgi için bkz. veri depolama.

Toplu işlem

  • U-SQL. U-SQL, Azure Data Lake Analytics tarafından kullanılan sorgu işleme dilidir. C# ' nin yordamsal genişletilebilirliği ile SQL bildirime dayalı yapısını birleştirir ve verilerin büyük ölçekte verimli bir şekilde işlenmesini sağlamak için paralellik avantajlarından yararlanır.
  • Hive. Hive, hdınsight da dahil olmak üzere çoğu Hadoop dağıtımlarında desteklenen SQL benzeri bir dildir. Azure Blob depolama ve Azure Data Lake Store dahil olmak üzere, herhangi bir başka bir depolama alanından veri işlemek için kullanılabilir.
  • Pig. Pig, HDInsight da dahil olmak üzere birçok Hadoop dağıtımı için kullanılan bildirime dayalı büyük veri işleme dilidir. Yapılandırılmamış veya yarı yapılandırılmış verileri işlemek için özellikle kullanışlıdır.
  • Spark. Spark Engine, Java, Scala ve Python dahil olmak üzere bir dizi dilde yazılmış toplu işleme programlarını destekler. Spark, verileri birden çok çalışan düğümü arasında paralel olarak işlemek için dağıtılmış bir mimari kullanır.

Daha fazla bilgi için bkz. Batch işleme.

Analitik veri deposu

  • Azure SYNAPSE Analytics. Azure Synapse, SQL Server veritabanı teknolojilerini temel alan ve büyük ölçekli veri ambarı iş yüklerini destekleyecek şekilde iyileştirilmiş yönetilen bir hizmettir.
  • Spark SQL. spark SQL, SQL söz dizimi kullanılarak sorgulanabilen veri çerçevelerinin ve tabloların oluşturulmasını destekleyen spark üzerinde oluşturulmuş bir apı 'dir.
  • HBase. HBase, yapılandırılmış ve yarı yapılandırılmış verileri sorgulamak için yüksek performanslı ve esnek bir seçenek sunan düşük gecikmeli bir NoSQL deposudur.
  • Hive. Hive, toplu işleme için yararlı olmanın yanı sıra, tipik bir ilişkisel veritabanı yönetim sisteminin kavramsal olarak benzer bir veritabanı mimarisi sunar. Tez altyapısı ve Stger girişimi gibi yenilikler aracılığıyla Hive sorgu performansındaki geliştirmeler, Hive tablolarının bazı senaryolarda analitik sorgular için kaynaklar olarak etkili şekilde kullanılabileceği anlamına gelir.

Daha fazla bilgi için bkz. analitik veri depoları.

Analiz ve raporlama

  • Azure Analysis Services. Birçok büyük veri çözümü, raporları, panoları ve etkileşimli "dilim ve zar" analizinin temel alabileceği merkezi bir çevrimiçi analitik işlem (OLAP) veri modelini (genellikle küp olarak adlandırılır) ekleyerek geleneksel kurumsal iş zekası mimarilerine benzetir. Azure Analysis Services, bu gereksinimi karşılamak için tablolu modellerin oluşturulmasını destekler.
  • Power BI. Power BI, veri analistlerinin bir OLAP modelindeki veri modellerini temel alarak etkileşimli veri görselleştirmeleri oluşturmalarına veya doğrudan analitik bir veri deposundan oluşturmasına olanak sağlar.
  • Microsoft Excel. Microsoft Excel dünyanın en yaygın olarak kullanılan yazılım uygulamalarından biridir ve çok sayıda veri analizi ve görselleştirme özelliği sunar. veri analistleri, analitik veri depolarından belge veri modelleri oluşturmak veya OLAP veri modellerinden verileri etkileşimli pivottable 'lara ve grafiklere almak için Excel kullanabilir.

Daha fazla bilgi için bkz. analiz ve raporlama.

Düzenleme

  • Azure Data Factory. Azure Data Factory işlem hatları, yinelenen zamana bağlı pencereler için zamanlanan bir dizi etkinliği tanımlamak için kullanılabilir. bu etkinlikler, isteğe bağlı hdınsight kümelerinde Hive, Pig, MapReduce veya Spark işlerinin yanı sıra veri kopyalama işlemlerini de başlatabilir. azure Date Lake Analytics 'teki U-SQL işleri ve azure Synapse veya Azure SQL Veritabanı saklı yordamları.
  • Oozie ve Sqoop. oozie, Apache Hadoop ekosistemi için bir iş otomasyonu altyapısıdır ve veri kopyalama işlemlerini ve verileri işlemek için Hive, Pig ve MapReduce işlerinin yanı sıra, 1. ve SQL veritabanları arasında veri kopyalamak için de kullanılabilir.

Daha fazla bilgi için bkz. işlem hattı düzenleme