Büyük veri gereksinimleri için Azure Data Lake Storage 1. Nesil'i kullanma
Not
Azure Data Lake Storage 1. Nesil artık kullanımdan kaldırıldı. Kullanımdan kaldırma duyurusunu buradan görebilirsiniz. Data Lake Storage 1. Nesil kaynaklara artık erişilemez. Özel yardıma ihtiyacınız varsa lütfen bizimle iletişime geçin.
Büyük veri işlemenin dört temel aşaması vardır:
- Büyük miktarda veriyi gerçek zamanlı olarak veya toplu olarak bir veri deposuna alma
- Verileri işleme
- Verileri indirme
- Verileri görselleştirme
Bu makalede, büyük veri gereksinimlerinizi karşılamak için kullanılabilecek seçenekleri ve araçları anlamak için bu aşamaları Azure Data Lake Storage 1. Nesil'e göre inceleyeceğiz.
Verileri Data Lake Storage 1. Nesil alma
Bu bölümde farklı veri kaynakları ve bu verilerin bir Data Lake Storage 1. Nesil hesabına alınabilmesinin farklı yolları vurgulanır.
Geçici veriler
Bu, büyük bir veri uygulamasının prototiplerini oluşturmak için kullanılan daha küçük veri kümelerini temsil eder. Verilerin kaynağına bağlı olarak geçici verileri almanın farklı yolları vardır.
Veri Kaynağı | Kullanarak alma |
---|---|
Yerel bilgisayar | |
Azure Depolama Blobu |
Akış verileri
Bu, uygulamalar, cihazlar, algılayıcılar vb. çeşitli kaynaklar tarafından oluşturulabilen verileri temsil eder. Bu veriler çeşitli araçlar tarafından Data Lake Storage 1. Nesil alınabiliyor. Bu araçlar genellikle verileri gerçek zamanlı olarak olay temelinde yakalayıp işler ve daha sonra daha fazla işlenebilmeleri için olayları toplu olarak Data Lake Storage 1. Nesil olarak yazar.
Kullanabileceğiniz araçlar şunlardır:
- Azure Stream Analytics - Event Hubs'a alınan olaylar Azure Data Lake Storage 1. Nesil çıkışı kullanılarak Azure Data Lake Storage 1. Nesil'e yazılabilir.
- EventProcessorHost : Olayları Event Hubs'dan alabilir ve Data Lake Storage 1. Nesil .NET SDK'sını kullanarak Data Lake Storage 1. Nesil yazabilirsiniz.
İlişkisel veriler
İlişkisel veritabanlarından da veri kaynağı oluşturabilirsiniz. İlişkisel veritabanları, belirli bir süre boyunca büyük bir veri işlem hattı üzerinden işlenirse önemli içgörüler sağlayabilecek çok miktarda veri toplar. Bu tür verileri Data Lake Storage 1. Nesil taşımak için aşağıdaki araçları kullanabilirsiniz.
Web sunucusu günlük verileri (özel uygulamalar kullanarak karşıya yükleme)
Web sunucusu günlük verilerinin analizi büyük veri uygulamaları için yaygın bir kullanım örneği olduğundan ve Data Lake Storage 1. Nesil'a büyük hacimli günlük dosyalarının yüklenmesi gerektiğinden bu veri kümesi türü özellikle vurgulanır. Bu tür verileri karşıya yüklemek üzere kendi betiklerinizi veya uygulamalarınızı yazmak için aşağıdaki araçlardan herhangi birini kullanabilirsiniz.
Web sunucusu günlük verilerini karşıya yüklemek ve diğer veri türlerini (örneğin sosyal yaklaşım verileri) karşıya yüklemek için, büyük büyük veri uygulamanızın bir parçası olarak veri yükleme bileşeninizi dahil etme esnekliği sağladığından, kendi özel betiklerinizi/uygulamalarınızı yazmak iyi bir yaklaşımdır. Bazı durumlarda bu kod bir betik veya basit komut satırı yardımcı programı biçiminde olabilir. Diğer durumlarda kod, büyük veri işlemeyi bir iş uygulaması veya çözümüyle tümleştirmek için kullanılabilir.
Azure HDInsight kümeleriyle ilişkili veriler
Çoğu HDInsight küme türü (Hadoop, HBase, Storm) veri depolama deposu olarak Data Lake Storage 1. Nesil destekler. HDInsight kümeleri Azure Depolama Bloblarından (WASB) verilere erişmektedir. Daha iyi performans için WASB'den verileri kümeyle ilişkili bir Data Lake Storage 1. Nesil hesabına kopyalayabilirsiniz. Verileri kopyalamak için aşağıdaki araçları kullanabilirsiniz.
Şirket içi veya IaaS Hadoop kümelerinde depolanan veriler
Büyük miktarda veri, HDFS kullanan makinelerde yerel olarak mevcut Hadoop kümelerinde depolanabilir. Hadoop kümeleri şirket içi dağıtımda veya Azure'daki bir IaaS kümesinde olabilir. Tek seferlik bir yaklaşım veya yinelenen bir yaklaşım için bu tür verileri Azure Data Lake Storage 1. Nesil'e kopyalama gereksinimleri olabilir. Bunu başarmak için kullanabileceğiniz çeşitli seçenekler vardır. Aşağıda alternatiflerin ve ilgili dengelerin listesi yer almaktadır.
Yaklaşım | Ayrıntılar | Avantajlar | Dikkat edilmesi gerekenler |
---|---|---|---|
Verileri doğrudan Hadoop kümelerinden Azure Data Lake Storage 1. Nesil'e kopyalamak için Azure Data Factory (ADF) kullanın | ADF, veri kaynağı olarak HDFS'yi destekler | ADF, HDFS ve birinci sınıf uçtan uca yönetim ve izleme için kullanıma hazır destek sağlar | Veri Yönetimi Ağ Geçidinin şirket içinde veya IaaS kümesinde dağıtılması gerekir |
Hadoop'tan verileri dosya olarak dışarı aktarın. Ardından uygun mekanizmayı kullanarak dosyaları Azure Data Lake Storage 1. Nesil'e kopyalayın. | Aşağıdakileri kullanarak dosyaları Azure Data Lake Storage 1. Nesil'e kopyalayabilirsiniz:
|
Başlamak için hızlı. Özelleştirilmiş karşıya yüklemeler yapabilir | Birden çok teknoloji içeren çok adımlı işlem. Yönetim ve izleme, araçların özelleştirilmiş yapısı göz önüne alındığında zaman içinde bir zorluk haline gelecek |
Hadoop'tan Azure Depolama'ya veri kopyalamak için Distcp kullanın. Ardından uygun mekanizmayı kullanarak Verileri Azure Depolama'dan Data Lake Storage 1. Nesil kopyalayın. | Aşağıdakileri kullanarak Azure Depolama'dan Data Lake Storage 1. Nesil'a veri kopyalayabilirsiniz: | Açık kaynak araçlarını kullanabilirsiniz. | Birden çok teknoloji içeren çok adımlı işlem |
Gerçekten büyük veri kümeleri
Birkaç terabaytlık veri kümelerini karşıya yüklemek için, yukarıda açıklanan yöntemlerin kullanılması bazen yavaş ve maliyetli olabilir. Böyle durumlarda aşağıdaki seçenekleri kullanabilirsiniz.
Azure ExpressRoute'u kullanma. Azure ExpressRoute, Azure veri merkezleriyle şirket içi altyapı arasında özel bağlantılar oluşturmanıza olanak tanır. Bu, büyük miktarlarda veri aktarmak için güvenilir bir seçenek sağlar. Daha fazla bilgi için bkz. Azure ExpressRoute belgeleri.
Verilerin "çevrimdışı" karşıya yüklenmesi. Azure ExpressRoute kullanmak herhangi bir nedenle mümkün değilse, verilerinizle sabit disk sürücülerini bir Azure veri merkezine göndermek için Azure İçeri/Dışarı Aktarma hizmetini kullanabilirsiniz. Verileriniz ilk olarak Azure Depolama Bloblarına yüklenir. Daha sonra azure depolama bloblarından Data Lake Storage 1. Nesil veri kopyalamak için Azure Data Factory veya AdlCopy aracını kullanabilirsiniz.
Not
İçeri/Dışarı Aktarma hizmetini kullanırken, Azure veri merkezine sevk ettiğiniz disklerdeki dosya boyutları 195 GB'tan büyük olmamalıdır.
Data Lake Storage 1. Nesil depolanan verileri işleme
veriler Data Lake Storage 1. Nesil'de kullanılabilir duruma ulaştığında, desteklenen büyük veri uygulamalarını kullanarak bu veriler üzerinde analiz çalıştırabilirsiniz. Şu anda Azure HDInsight ve Azure Data Lake Analytics kullanarak Data Lake Storage 1. Nesil depolanan veriler üzerinde veri çözümleme işleri çalıştırabilirsiniz.
etme
Aşağıdaki örneklere bakabilirsiniz.
- Depolama olarak Data Lake Storage 1. Nesil ile HDInsight kümesi oluşturma
- Azure Data Lake Analytics'i Data Lake Storage 1. Nesil ile kullanma
Data Lake Storage 1. Nesil'dan veri indirme
Aşağıdakiler gibi senaryolar için Azure Data Lake Storage 1. Nesil'den de veri indirmek veya taşımak isteyebilirsiniz:
- Mevcut veri işleme işlem hatlarınızla arabirim oluşturma amacıyla verileri diğer depolara taşıyın. Örneğin, verileri Data Lake Storage 1. Nesil Azure SQL Veritabanına veya SQL Server taşımak isteyebilirsiniz.
- Uygulama prototipleri oluştururken IDE ortamlarında işlenmek üzere yerel bilgisayarınıza veri indirin.
Böyle durumlarda, aşağıdaki seçeneklerden herhangi birini kullanabilirsiniz:
Ayrıca, Data Lake Storage 1. Nesil'dan veri indirmek üzere kendi betiğinizi/uygulamanızı yazmak için aşağıdaki yöntemleri de kullanabilirsiniz.
Data Lake Storage 1. Nesil'de verileri görselleştirme
Data Lake Storage 1. Nesil depolanan verilerin görsel temsillerini oluşturmak için hizmetlerin bir karışımını kullanabilirsiniz.
- verileri Data Lake Storage 1. Nesil Azure Synapse Analytics'e taşımak için Azure Data Factory kullanarak başlayabilirsiniz
- Bundan sonra, verilerin görsel gösterimini oluşturmak için Power BI'ı Azure Synapse Analytics ile tümleştirebilirsiniz.