Büyük veri gereksinimleri için Azure Data Lake Storage 2. kullanma

Büyük veri işlemede dört ana aşama vardır:

  • Büyük miktarlarda veriyi bir veri deposuna gerçek zamanlı veya toplu iş halinde geri ödeme
  • Verileri işleme
  • Veriler indiriliyor
  • Verileri görselleştirme

Bu makalede, her bir işleme aşamasına yönelik seçenekler ve araçlar vurgulanmaktadır.

Azure Data Lake Storage 2. ile kullanabileceğiniz Azure hizmetlerinin kapsamlı bir listesi için bkz. Azure hizmetleriyle Azure Data Lake Storage tümleştirme

Verileri Data Lake Storage 2. içine alma

Bu bölümde, farklı veri kaynakları ve verilerin Data Lake Storage 2. hesaba alınmasının farklı yolları vurgulanmaktadır.

Data Lake Storage 2. verileri alma

Geçici veri

Bu, büyük bir veri uygulamasını prototip yazmak için kullanılan daha küçük veri kümelerini temsil eder. Veri kaynağına bağlı olarak, geçici verileri almanın farklı yolları vardır.

İşte, geçici verileri almak için kullanabileceğiniz araçların listesi.

Veri Kaynağı Şunu kullanarak Al
Yerel bilgisayar Azure PowerShell

Azure CLI

Depolama Gezgini

AzCopy aracı
Azure Depolama Blobu Azure Data Factory

AzCopy aracı

HDInsight kümesinde çalışan DistCp

Akışlı veriler

Bu, uygulamalar, cihazlar, algılayıcılar vb. gibi çeşitli kaynaklarla oluşturulabilecek verileri temsil eder. Bu veriler çeşitli araçlarla Data Lake Storage 2. alınabilir. Bu araçlar genellikle verileri bir olay temelinde gerçek zamanlı olarak yakalayıp işleyerek, daha sonra işlenebilmeleri için olayları toplu işlemlere Data Lake Storage 2. olarak yazar.

İşte, akış verilerini almak için kullanabileceğiniz araçların listesi.

Araç Rehber
Azure Stream Analytics Hızlı başlangıç: Azure portalını kullanarak Stream Analytics işi oluşturma
Azure Data Lake Gen2 çıkış
Azure HDInsight fırtınası HDInsight 'ta Apache Storm Apache Hadoop rsunucudan yaz

İlişkisel veriler

İlişkisel veritabanlarındaki verileri de kaynak olarak kullanabilirsiniz. İlişkisel veritabanları, bir süre boyunca büyük miktarlarda veri toplar ve bu da büyük bir veri işlem hattı üzerinden işlenirse önemli öngörülere sahip olabilir. Bu tür verileri Data Lake Storage 2. taşımak için aşağıdaki araçları kullanabilirsiniz.

İlişkisel verileri almak için kullanabileceğiniz araçların listesi aşağıda verilmiştir.

Araç Rehber
Azure Data Factory Azure Data Factory’de Kopyalama Etkinliği

Web sunucusu günlük verileri (özel uygulamalar kullanarak karşıya yükle)

Web sunucusu günlük verilerinin çözümlenmesi büyük veri uygulamaları için ortak bir kullanım durumu olduğundan ve Data Lake Storage 2. ' ye karşıya yüklenecek büyük hacimde günlük dosyaları gerektirdiğinden bu veri kümesi türü özellikle çağrılır. Bu tür verileri karşıya yüklemek üzere kendi betiklerinizi veya uygulamalarınızı yazmak için aşağıdaki araçlardan herhangi birini kullanabilirsiniz.

Aşağıda, Web sunucusu günlük verilerini almak için kullanabileceğiniz araçların bir listesi verilmiştir.

Araç Rehber
Azure Data Factory Azure Data Factory’de Kopyalama Etkinliği
Azure CLI’si Azure CLI
Azure PowerShell Azure PowerShell

Web sunucusu günlük verilerini karşıya yüklemek ve aynı zamanda diğer veri türlerini (örn. sosyal yaklaşım verileri) karşıya yüklemek için, kendi özel betiklerinizi/uygulamalarınızı yazmak iyi bir yaklaşımdır. bu sayede, verileri karşıya yükleme bileşeninizin büyük veri uygulamanızın bir parçası olarak yüklenmesine yönelik esneklik sağlanır. Bazı durumlarda bu kod bir komut dosyası veya basit komut satırı yardımcı programı biçiminde olabilir. Diğer durumlarda kod, büyük veri işlemeyi bir iş uygulaması veya çözümüyle bütünleştirmek için kullanılabilir.

Azure HDInsight kümeleri ile ilişkili veriler

Çoğu HDInsight küme türleri (Hadoop, HBase, fırtınası) veri depolama deposu olarak Data Lake Storage 2. destekler. HDInsight kümeleri, Azure depolama Bloblarından (ıLB) verilere erişir. Daha iyi performans için, bulunan verileri, kümeyle ilişkili bir Data Lake Storage 2. hesabına kopyalayabilirsiniz. Verileri kopyalamak için aşağıdaki araçları kullanabilirsiniz.

HDInsight kümeleriyle ilişkili verileri almak için kullanabileceğiniz araçların listesi aşağıda verilmiştir.

Araç Rehber
Apache DistCp Azure depolama Blobları ve Azure Data Lake Storage 2. arasında veri kopyalamak için DistCp kullanma
AzCopy aracı AzCopy ile veri aktarma
Azure Data Factory Azure Data Factory kullanarak Azure Data Lake Storage 2. veri kopyalama

Şirket içinde veya IaaS Hadoop kümelerinde depolanan veriler

Büyük miktarlarda veri, var olan Hadoop kümelerinde yerel olarak,,, işlem kullanan makinelerde depolanabilir. Hadoop kümeleri şirket içi bir dağıtımda olabilir veya Azure 'da bir IaaS kümesi içinde olabilir. Bu tür verileri tek kapalı bir yaklaşım veya yinelenen bir biçimde kopyalamak için Azure Data Lake Storage 2. gereksinimler olabilir. Bunu başarmak için kullanabileceğiniz çeşitli seçenekler vardır. Aşağıda, alternatifleri ve ilişkili ticaretin bir listesi verilmiştir.

Yaklaşım Ayrıntılar Avantajlar Dikkat edilmesi gerekenler
Verileri doğrudan Hadoop kümelerinden Azure Data Lake Storage 2. kopyalamak için Azure Data Factory (ADF) kullanın ADF, bir veri kaynağı olarak mı 'yi destekler ADF, ve ilk sınıf uçtan uca yönetim ve izleme için kullanıma hazır destek sağlar Şirket içinde veya IaaS kümesinde dağıtılması için Veri Yönetimi ağ geçidi gerekir
Hadoop 'tan Azure depolama 'ya veri kopyalamak için Distcp 'yi kullanın. Ardından uygun mekanizmayı kullanarak Azure depolama alanından Data Lake Storage 2. verileri kopyalayın. Azure depolama 'dan Data Lake Storage 2. kullanarak veri kopyalayabilirsiniz: Açık kaynak araçları 'nı kullanabilirsiniz. Birden çok teknolojiyi kapsayan çok adımlı işlem

Gerçekten büyük veri kümeleri

Birden çok terabayt içinde yer alan veri kümelerini yüklemek için yukarıda açıklanan yöntemleri kullanmak bazen yavaş ve maliyetli olabilir. Bu gibi durumlarda Azure ExpressRoute ' u kullanabilirsiniz.

Azure ExpressRoute, Azure veri merkezleri ve şirket içi altyapı arasında özel bağlantılar oluşturmanızı sağlar. Bu, büyük miktarlarda veri aktarmaya yönelik güvenilir bir seçenek sağlar. Daha fazla bilgi için bkz. Azure ExpressRoute belgeleri.

Verileri işleme

Data Lake Storage 2. veriler kullanılabildiğinde, desteklenen büyük veri uygulamalarını kullanarak bu verilerde analiz gerçekleştirebilirsiniz.

Data Lake Storage 2. verileri analiz etme

Data Lake Storage 2. depolanan veriler üzerinde veri analizi işlerini çalıştırmak için kullanabileceğiniz araçların listesi aşağıda verilmiştir.

Araç Rehber
Azure HDInsight Azure HDInsight kümeleriyle Azure Data Lake Storage 2. Nesil hizmetini kullanma
Azure Databricks Azure Data Lake Storage 2. Nesil

Hızlı başlangıç: Azure Databricks kullanarak Azure Data Lake Storage 2. verileri çözümleme

Öğretici: Azure Databricks kullanarak verileri ayıklama, dönüştürme ve yükleme

Verileri görselleştirme

Data Lake Storage 2. depolanan verilerin görsel sunumlarını oluşturmak için Power BI bağlayıcısını kullanın. Bkz. Power BI kullanarak Azure Data Lake Storage 2. verileri çözümleme.

Verileri indirme

Ayrıca, gibi senaryolar için Azure Data Lake Storage 2. verileri indirmek veya taşımak isteyebilirsiniz:

  • Mevcut veri işleme işlem hatlarınız ile, verileri diğer depolara, arayüze taşıyın. Örneğin, Data Lake Storage 2. verileri Azure SQL veritabanı 'na veya bir SQL Server örneğine taşımak isteyebilirsiniz.

  • Uygulama prototipleri oluştururken IDE ortamlarında işlenmek üzere verileri yerel bilgisayarınıza indirin.

Data Lake Storage 2. çıkış verileri

Data Lake Storage 2. verileri indirmek için kullanabileceğiniz araçların listesi aşağıda verilmiştir.

Araç Rehber
Azure Data Factory Azure Data Factory’de Kopyalama Etkinliği
Apache DistCp Azure depolama Blobları ve Azure Data Lake Storage 2. arasında veri kopyalamak için DistCp kullanma
Azure Depolama Gezgini Azure Data Lake Storage 2. Nesil’de dizinleri, dosyaları ve ACL’leri yönetmek için Azure Depolama Gezgini’ni kullanma
AzCopy aracı AzCopy ve BLOB Storage ile veri aktarma