Büyük veri gereksinimleri için Azure Data Lake Storage 1. Nesil'i kullanma

Not

Azure Data Lake Storage 1. Nesil artık kullanımdan kaldırıldı. Kullanımdan kaldırma duyurusunu buradan görebilirsiniz. Data Lake Storage 1. Nesil kaynaklara artık erişilemez. Özel yardıma ihtiyacınız varsa lütfen bizimle iletişime geçin.

Büyük veri işlemenin dört temel aşaması vardır:

  • Büyük miktarda veriyi gerçek zamanlı olarak veya toplu olarak bir veri deposuna alma
  • Verileri işleme
  • Verileri indirme
  • Verileri görselleştirme

Bu makalede, büyük veri gereksinimlerinizi karşılamak için kullanılabilecek seçenekleri ve araçları anlamak için bu aşamaları Azure Data Lake Storage 1. Nesil'e göre inceleyeceğiz.

Verileri Data Lake Storage 1. Nesil alma

Bu bölümde farklı veri kaynakları ve bu verilerin bir Data Lake Storage 1. Nesil hesabına alınabilmesinin farklı yolları vurgulanır.

Verileri Data Lake Storage 1. Nesil

Geçici veriler

Bu, büyük bir veri uygulamasının prototiplerini oluşturmak için kullanılan daha küçük veri kümelerini temsil eder. Verilerin kaynağına bağlı olarak geçici verileri almanın farklı yolları vardır.

Veri Kaynağı Kullanarak alma
Yerel bilgisayar
Azure Depolama Blobu

Akış verileri

Bu, uygulamalar, cihazlar, algılayıcılar vb. çeşitli kaynaklar tarafından oluşturulabilen verileri temsil eder. Bu veriler çeşitli araçlar tarafından Data Lake Storage 1. Nesil alınabiliyor. Bu araçlar genellikle verileri gerçek zamanlı olarak olay temelinde yakalayıp işler ve daha sonra daha fazla işlenebilmeleri için olayları toplu olarak Data Lake Storage 1. Nesil olarak yazar.

Kullanabileceğiniz araçlar şunlardır:

İlişkisel veriler

İlişkisel veritabanlarından da veri kaynağı oluşturabilirsiniz. İlişkisel veritabanları, belirli bir süre boyunca büyük bir veri işlem hattı üzerinden işlenirse önemli içgörüler sağlayabilecek çok miktarda veri toplar. Bu tür verileri Data Lake Storage 1. Nesil taşımak için aşağıdaki araçları kullanabilirsiniz.

Web sunucusu günlük verileri (özel uygulamalar kullanarak karşıya yükleme)

Web sunucusu günlük verilerinin analizi büyük veri uygulamaları için yaygın bir kullanım örneği olduğundan ve Data Lake Storage 1. Nesil'a büyük hacimli günlük dosyalarının yüklenmesi gerektiğinden bu veri kümesi türü özellikle vurgulanır. Bu tür verileri karşıya yüklemek üzere kendi betiklerinizi veya uygulamalarınızı yazmak için aşağıdaki araçlardan herhangi birini kullanabilirsiniz.

Web sunucusu günlük verilerini karşıya yüklemek ve diğer veri türlerini (örneğin sosyal yaklaşım verileri) karşıya yüklemek için, büyük büyük veri uygulamanızın bir parçası olarak veri yükleme bileşeninizi dahil etme esnekliği sağladığından, kendi özel betiklerinizi/uygulamalarınızı yazmak iyi bir yaklaşımdır. Bazı durumlarda bu kod bir betik veya basit komut satırı yardımcı programı biçiminde olabilir. Diğer durumlarda kod, büyük veri işlemeyi bir iş uygulaması veya çözümüyle tümleştirmek için kullanılabilir.

Azure HDInsight kümeleriyle ilişkili veriler

Çoğu HDInsight küme türü (Hadoop, HBase, Storm) veri depolama deposu olarak Data Lake Storage 1. Nesil destekler. HDInsight kümeleri Azure Depolama Bloblarından (WASB) verilere erişmektedir. Daha iyi performans için WASB'den verileri kümeyle ilişkili bir Data Lake Storage 1. Nesil hesabına kopyalayabilirsiniz. Verileri kopyalamak için aşağıdaki araçları kullanabilirsiniz.

Şirket içi veya IaaS Hadoop kümelerinde depolanan veriler

Büyük miktarda veri, HDFS kullanan makinelerde yerel olarak mevcut Hadoop kümelerinde depolanabilir. Hadoop kümeleri şirket içi dağıtımda veya Azure'daki bir IaaS kümesinde olabilir. Tek seferlik bir yaklaşım veya yinelenen bir yaklaşım için bu tür verileri Azure Data Lake Storage 1. Nesil'e kopyalama gereksinimleri olabilir. Bunu başarmak için kullanabileceğiniz çeşitli seçenekler vardır. Aşağıda alternatiflerin ve ilgili dengelerin listesi yer almaktadır.

Yaklaşım Ayrıntılar Avantajlar Dikkat edilmesi gerekenler
Verileri doğrudan Hadoop kümelerinden Azure Data Lake Storage 1. Nesil'e kopyalamak için Azure Data Factory (ADF) kullanın ADF, veri kaynağı olarak HDFS'yi destekler ADF, HDFS ve birinci sınıf uçtan uca yönetim ve izleme için kullanıma hazır destek sağlar Veri Yönetimi Ağ Geçidinin şirket içinde veya IaaS kümesinde dağıtılması gerekir
Hadoop'tan verileri dosya olarak dışarı aktarın. Ardından uygun mekanizmayı kullanarak dosyaları Azure Data Lake Storage 1. Nesil'e kopyalayın. Aşağıdakileri kullanarak dosyaları Azure Data Lake Storage 1. Nesil'e kopyalayabilirsiniz: Başlamak için hızlı. Özelleştirilmiş karşıya yüklemeler yapabilir Birden çok teknoloji içeren çok adımlı işlem. Yönetim ve izleme, araçların özelleştirilmiş yapısı göz önüne alındığında zaman içinde bir zorluk haline gelecek
Hadoop'tan Azure Depolama'ya veri kopyalamak için Distcp kullanın. Ardından uygun mekanizmayı kullanarak Verileri Azure Depolama'dan Data Lake Storage 1. Nesil kopyalayın. Aşağıdakileri kullanarak Azure Depolama'dan Data Lake Storage 1. Nesil'a veri kopyalayabilirsiniz: Açık kaynak araçlarını kullanabilirsiniz. Birden çok teknoloji içeren çok adımlı işlem

Gerçekten büyük veri kümeleri

Birkaç terabaytlık veri kümelerini karşıya yüklemek için, yukarıda açıklanan yöntemlerin kullanılması bazen yavaş ve maliyetli olabilir. Böyle durumlarda aşağıdaki seçenekleri kullanabilirsiniz.

  • Azure ExpressRoute'u kullanma. Azure ExpressRoute, Azure veri merkezleriyle şirket içi altyapı arasında özel bağlantılar oluşturmanıza olanak tanır. Bu, büyük miktarlarda veri aktarmak için güvenilir bir seçenek sağlar. Daha fazla bilgi için bkz. Azure ExpressRoute belgeleri.

  • Verilerin "çevrimdışı" karşıya yüklenmesi. Azure ExpressRoute kullanmak herhangi bir nedenle mümkün değilse, verilerinizle sabit disk sürücülerini bir Azure veri merkezine göndermek için Azure İçeri/Dışarı Aktarma hizmetini kullanabilirsiniz. Verileriniz ilk olarak Azure Depolama Bloblarına yüklenir. Daha sonra azure depolama bloblarından Data Lake Storage 1. Nesil veri kopyalamak için Azure Data Factory veya AdlCopy aracını kullanabilirsiniz.

    Not

    İçeri/Dışarı Aktarma hizmetini kullanırken, Azure veri merkezine sevk ettiğiniz disklerdeki dosya boyutları 195 GB'tan büyük olmamalıdır.

Data Lake Storage 1. Nesil depolanan verileri işleme

veriler Data Lake Storage 1. Nesil'de kullanılabilir duruma ulaştığında, desteklenen büyük veri uygulamalarını kullanarak bu veriler üzerinde analiz çalıştırabilirsiniz. Şu anda Azure HDInsight ve Azure Data Lake Analytics kullanarak Data Lake Storage 1. Nesil depolanan veriler üzerinde veri çözümleme işleri çalıştırabilirsiniz.

Data Lake Storage 1. Nesil'de verileri çözümleme etme

Aşağıdaki örneklere bakabilirsiniz.

Data Lake Storage 1. Nesil'dan veri indirme

Aşağıdakiler gibi senaryolar için Azure Data Lake Storage 1. Nesil'den de veri indirmek veya taşımak isteyebilirsiniz:

  • Mevcut veri işleme işlem hatlarınızla arabirim oluşturma amacıyla verileri diğer depolara taşıyın. Örneğin, verileri Data Lake Storage 1. Nesil Azure SQL Veritabanına veya SQL Server taşımak isteyebilirsiniz.
  • Uygulama prototipleri oluştururken IDE ortamlarında işlenmek üzere yerel bilgisayarınıza veri indirin.

Data Lake Storage 1. Nesil Data Lake Storage 1. Nesil

Böyle durumlarda, aşağıdaki seçeneklerden herhangi birini kullanabilirsiniz:

Ayrıca, Data Lake Storage 1. Nesil'dan veri indirmek üzere kendi betiğinizi/uygulamanızı yazmak için aşağıdaki yöntemleri de kullanabilirsiniz.

Data Lake Storage 1. Nesil'de verileri görselleştirme

Data Lake Storage 1. Nesil depolanan verilerin görsel temsillerini oluşturmak için hizmetlerin bir karışımını kullanabilirsiniz.

Data Lake Storage 1. Nesil'de verileri