Azure Data Lake Storage 2. girişIntroduction to Azure Data Lake Storage Gen2

Azure Data Lake Storage 2., Azure Blob depolamaüzerinde oluşturulmuş, büyük veri analizi için adanmış bir yetenekler kümesidir.‎Azure Data Lake Storage Gen2 is a set of capabilities dedicated to big data analytics, built on Azure Blob storage. Data Lake Storage 2., mevcut iki depolama hizmeti, Azure Blob depolama ve Azure Data Lake Storage 1. yeteneklerini yakınsama sonucudur.Data Lake Storage Gen2 is the result of converging the capabilities of our two existing storage services, Azure Blob storage and Azure Data Lake Storage Gen1. Dosya sistemi semantiği, dizin ve dosya düzeyi güvenliği ve ölçeği gibi Azure Data Lake Storage 1.özellikler, Azure Blob depolama'dan düşük maliyetli, katmanlı depolama, yüksek kullanılabilirlik/olağanüstü durum kurtarma özellikleriyle birleştirilir.Features from Azure Data Lake Storage Gen1, such as file system semantics, directory, and file level security and scale are combined with low-cost, tiered storage, high availability/disaster recovery capabilities from Azure Blob storage.

Kurumsal büyük veri analizi için tasarlandıDesigned for enterprise big data analytics

Data Lake Storage 2. Azure Storage 'ı Azure 'da kurumsal veri oluşturma için temel oluşturur.Data Lake Storage Gen2 makes Azure Storage the foundation for building enterprise data lakes on Azure. Başlangıçtan itibaren yüzlerce Gigabit işleme petabaytlarca, çok büyük miktarlarda veriyi kolay bir şekilde yönetmenize olanak tanılarken, Data Lake Storage 2. birden fazla bilgi için başlangıç sürümünden tasarlanan.Designed from the start to service multiple petabytes of information while sustaining hundreds of gigabits of throughput, Data Lake Storage Gen2 allows you to easily manage massive amounts of data.

Data Lake Storage 2. temel bir parçası, blob depolamaya hiyerarşik bir ad alanının eklenmesinin bir parçasıdır.A fundamental part of Data Lake Storage Gen2 is the addition of a hierarchical namespace to Blob storage. Hiyerarşik ad alanı, etkili veri erişimi için nesneleri/dosyaları bir dizin hiyerarşisi halinde düzenler.The hierarchical namespace organizes objects/files into a hierarchy of directories for efficient data access. Ortak bir nesne deposu adlandırma kuralı, hiyerarşik bir dizin yapısını taklit etmek için adında eğik çizgiler kullanır.A common object store naming convention uses slashes in the name to mimic a hierarchical directory structure. Bu yapı Data Lake Storage 2. ile gerçek hale gelir.This structure becomes real with Data Lake Storage Gen2. Dizini yeniden adlandırma veya silme gibi işlemler, dizinin ad önekini paylaşan tüm nesneleri listelemek ve işlemek yerine dizinde tek Atomik meta veri işlemleri haline gelir.Operations such as renaming or deleting a directory become single atomic metadata operations on the directory rather than enumerating and processing all objects that share the name prefix of the directory.

Geçmişte, bulut tabanlı analizler performans, yönetim ve güvenlik alanlarında tehlikeye atabilir.In the past, cloud-based analytics had to compromise in areas of performance, management, and security. Data Lake Storage 2. aşağıdaki yollarla bu yönlerinin her birini ele alınmaktadır:Data Lake Storage Gen2 addresses each of these aspects in the following ways:

  • Verileri Analize bir önkoşul olarak kopyalamanız veya dönüştürmeniz gerekmiyorsa performans iyileştirilir.Performance is optimized because you do not need to copy or transform data as a prerequisite for analysis. Hiyerarşik ad alanı, genel iş performansını artıran dizin yönetimi işlemlerinin performansını önemli ölçüde artırır.The hierarchical namespace greatly improves the performance of directory management operations, which improves overall job performance.

  • Dosyaları dizinler ve alt dizinler aracılığıyla düzenleyebileceğiniz ve işleyebileceğiniz için Yönetim daha kolay hale getirir.Management is easier because you can organize and manipulate files through directories and subdirectories.

  • Dizinler veya tek dosyalarda POSIX izinleri tanımlayabilmeniz için güvenlik güvenliği uygulanabilir.Security is enforceable because you can define POSIX permissions on directories or individual files.

  • Data Lake Storage 2. düşük maliyetli Azure Blob depolama alanıüzerinde oluşturulduğu için maliyet verimliliği mümkündür.Cost effectiveness is made possible as Data Lake Storage Gen2 is built on top of the low-cost Azure Blob storage. Ek özellikler, Azure 'da büyük veri analizlerini çalıştırmaya yönelik toplam sahip olma maliyetini daha düşüktür.The additional features further lower the total cost of ownership for running big data analytics on Azure.

Data Lake Storage 2. temel özellikleriKey features of Data Lake Storage Gen2

  • Hadoop uyumlu erişim: Data Lake Storage 2., verileri Hadoop Dağıtılmış dosya sistemi (bir)ile yaptığınız gibi yönetmenizi ve erişmenize olanak tanır.Hadoop compatible access: Data Lake Storage Gen2 allows you to manage and access data just as you would with a Hadoop Distributed File System (HDFS). Yeni ABFS sürücüsü , Data Lake Storage 2. depolanan verilere erişmek için Azure HDInsight , Azure Databricksve SQL veri ambarı dahil olmak üzere tüm Apache Hadoop ortamlarında kullanılabilir.The new ABFS driver is available within all Apache Hadoop environments, including Azure HDInsight, Azure Databricks, and SQL Data Warehouse to access data stored in Data Lake Storage Gen2.

  • POSIX Izinlerinin bir üst kümesi: Data Lake Gen2 için güvenlik modeli, Data Lake Storage 2. özgü bazı ayrıntı düzeyi Ile birlikte ACL 'LERI ve POSIX izinlerini destekler.A superset of POSIX permissions: The security model for Data Lake Gen2 supports ACL and POSIX permissions along with some extra granularity specific to Data Lake Storage Gen2. Ayarlar, Depolama Gezgini veya Hive ve Spark gibi çerçeveler aracılığıyla yapılandırılabilir.Settings may be configured through Storage Explorer or through frameworks like Hive and Spark.

  • Uygun maliyetli: Data Lake Storage 2. düşük maliyetli depolama kapasitesi ve işlemler sunar.Cost effective: Data Lake Storage Gen2 offers low-cost storage capacity and transactions. Tam yaşam döngüsü boyunca veri geçişleri olarak faturalandırma ücretleri, Azure Blob depolama yaşam döngüsügibi yerleşik özellikler aracılığıyla maliyetleri en düşük düzeyde tutmaya göre değişir.As data transitions through its complete lifecycle, billing rates change keeping costs to a minimum via built-in features such as Azure Blob storage lifecycle.

  • İyileştirilmiş sürücü: ABFS sürücüsü özellikle büyük veri analizi için iyileştirilmiştir .Optimized driver: The ABFS driver is optimized specifically for big data analytics. Karşılık gelen REST API 'Leri dfs.core.windows.net bitiş noktası aracılığıyla ilerlededir.The corresponding REST APIs are surfaced through the endpoint dfs.core.windows.net.

ÖlçeklenebilirlikScalability

Azure depolama, Data Lake Storage 2. veya blob depolama arabirimlerine erişip erişemeyeceğini tasarlayarak ölçeklenebilir.Azure Storage is scalable by design whether you access via Data Lake Storage Gen2 or Blob storage interfaces. Birçok eksabaytlarca veridepolayıp sunabilir.It is able to store and serve many exabytes of data. Bu depolama alanı miktarı, saniye başına giriş/çıkış işlemi (ıOPS) düzeyinde Gigabit/saniye (Gbps) cinsinden ölçülen aktarım hızı ile kullanılabilir.This amount of storage is available with throughput measured in gigabits per second (Gbps) at high levels of input/output operations per second (IOPS). Yalnızca kalıcılığın ötesinde, işleme hizmet, hesap ve dosya düzeylerinde ölçülen istek başına gecikme süreleriyle yürütülür.Beyond just persistence, processing is executed at near-constant per-request latencies that are measured at the service, account, and file levels.

Maliyet verimliliğiCost effectiveness

Azure Blob depolama alanının en üstünde Data Lake Storage 2. oluşturmanın avantajlarından biri, depolama kapasitesi ve işlemlerinin düşük maliyetlidir.One of the many benefits of building Data Lake Storage Gen2 on top of Azure Blob storage is the low cost of storage capacity and transactions. Diğer bulut depolama hizmetlerinden farklı olarak, Data Lake Storage 2. ' de depolanan verilerin analiz gerçekleştirilmeden önce taşınması veya dönüştürülmesi gerekmez.Unlike other cloud storage services, data stored in Data Lake Storage Gen2 is not required to be moved or transformed prior to performing analysis. Fiyatlandırma hakkında daha fazla bilgi için bkz. Azure Depolama fiyatlandırması.For more information about pricing, see Azure Storage pricing.

Ayrıca, hiyerarşik ad alanı gibi özellikler birçok analiz işinin genel performansını önemli ölçüde artırır.Additionally, features such as the hierarchical namespace significantly improve the overall performance of many analytics jobs. Bu performans artışı, aynı miktarda veriyi işlemek için daha az işlem gücü yapmanız gerektiği anlamına gelir ve bu, uçtan uca analiz işi için daha düşük toplam sahip olma maliyeti (TCO) ile sonuçlanır.This improvement in performance means that you require less compute power to process the same amount of data, resulting in a lower total cost of ownership (TCO) for the end-to-end analytics job.

Tek hizmet, birden çok kavramOne service, multiple concepts

Data Lake Storage 2., Azure Blob depolama alanı üzerinde oluşturulmuş, büyük veri analizi için ek bir özelliktir.Data Lake Storage Gen2 is an additional capability for big data analytics, built on top of Azure Blob storage. Analiz için veri Lakes oluşturmak ve çalıştırmak üzere Blobların mevcut platform bileşenlerinin avantajlarından yararlanan birçok avantaj olsa da, bu, aynı paylaşılan şeyleri açıklayan birden çok kavram oluşmasına neden olur.While there are many benefits in leveraging existing platform components of Blobs to create and operate data lakes for analytics, it does lead to multiple concepts describing the same, shared things.

Aşağıdakiler, farklı kavramlarla açıklandığı gibi eşdeğer varlıklardır.The following are the equivalent entities, as described by different concepts. Aksi belirtilmedikçe, bu varlıklar doğrudan eş anlamlı değildir:Unless specified otherwise these entities are directly synonymous:

KavramConcept Üst düzey kuruluşTop Level Organization Alt düzey kuruluşLower Level Organization Veri kapsayıcısıData Container
Blob 'lar – genel amaçlı nesne depolamasıBlobs – General purpose object storage KapsayıcıContainer Sanal dizin (yalnızca SDK – atomik düzenleme sağlamaz)Virtual directory (SDK only – does not provide atomic manipulation) BlobBlob
Azure Data Lake Storage 2. – analiz depolamasıAzure Data Lake Storage Gen2 – Analytics Storage KapsayıcıContainer DizinDirectory DosyaFile

Desteklenen açık kaynaklı platformlarSupported open source platforms

Birçok açık kaynak platformu Data Lake Storage 2. destekler.Several open source platforms support Data Lake Storage Gen2. Bu platformlar aşağıdaki tabloda görüntülenir.Those platforms appear in the following table.

Not

Yalnızca bu tabloda görünen sürümler desteklenir.Only the versions that appear in this table are supported.

PlatformPlatform Desteklenen sürüm (ler)Supported Version(s) Daha Fazla BilgiMore Information
'TanHDInsight 3.6 +3.6+ HDInsight ile kullanılabilen Apache Hadoop bileşenleri ve sürümleri nelerdir?What are the Apache Hadoop components and versions available with HDInsight?
HadoopHadoop 3.2 +3.2+ Apache Hadoop yayınları ArşiviApache Hadoop releases archive
ClouderaCloudera 6.1 +6.1+ Cloudera Enterprise 6. x sürüm notlarıCloudera Enterprise 6.x release notes
Azure DatabricksAzure Databricks 5.1 +5.1+ Databricks Runtime sürümleriDatabricks Runtime versions
HortonworksHortonworks 3.1. x + +3.1.x++ Bulut veri erişimini yapılandırmaConfiguring cloud data access

Desteklenen Azure hizmetleriSupported Azure services

Data Lake Storage Gen2, verileri almak, analiz yapmak ve görsel gösterimler oluşturmak için kullanabileceğiniz çeşitli Azure hizmetlerini destekler.Data Lake Storage gen2 supports several Azure services that you can use to ingest data, perform analytics, and create visual representations. Desteklenen Azure hizmetlerinin bir listesi için bkz. Azure hizmetleriyle Azure Data Lake Storage tümleştirme.For a list of supported Azure services, see Integrate Azure Data Lake Storage with Azure services.

Sonraki adımlarNext steps

Aşağıdaki makalelerde Data Lake Storage 2. ana kavramlarından bazıları açıklanır ve verilerinizden bilgi alma, erişme, yönetme ve bu bilgilerden bilgi elde etme hakkında bilgi edinin:The following articles describe some of the main concepts of Data Lake Storage Gen2 and detail how to store, access, manage, and gain insights from your data: