Azure Data Lake Storage Gen2 の概要Introduction to Azure Data Lake Storage Gen2

‎Azure Data Lake Storage Gen2 は、ビッグ データ分析専用の機能セットであり、Azure Blob Storage に基づいて構築されています。‎Azure Data Lake Storage Gen2 is a set of capabilities dedicated to big data analytics, built on Azure Blob storage. Data Lake Storage Gen2 は、Azure Blob ストレージと Azure Data Lake Storage Gen1 という、既存の 2 つのストレージ サービスの機能を集約したものです。Data Lake Storage Gen2 is the result of converging the capabilities of our two existing storage services, Azure Blob storage and Azure Data Lake Storage Gen1. ファイル システム セマンティクス、ディレクトリ、ファイル レベルのセキュリティおよびスケーリングなど、Azure Data Lake Storage Gen1 に由来する機能が、Azure Blob ストレージの低コストの階層型記憶域、高可用性/ディザスター リカバリー機能と組み合わされています。Features from Azure Data Lake Storage Gen1, such as file system semantics, directory, and file level security and scale are combined with low-cost, tiered storage, high availability/disaster recovery capabilities from Azure Blob storage.

エンタープライズ ビッグ データ分析用に設計されているDesigned for enterprise big data analytics

Data Lake Storage Gen2 によって、Azure Storage は、Azure 上にエンタープライズ データ レイクを構築するための基盤となります。Data Lake Storage Gen2 makes Azure Storage the foundation for building enterprise data lakes on Azure. Data Lake Storage Gen2 は、当初から、何百ものギガビット単位のスループットを維持しつつ、複数のペタバイト単位の情報を利用可能にする目的で設計されているため、大量のデータを簡単に管理することができます。Designed from the start to service multiple petabytes of information while sustaining hundreds of gigabits of throughput, Data Lake Storage Gen2 allows you to easily manage massive amounts of data.

Data Lake Storage Gen2 の基礎部分は、BLOB ストレージに階層型名前空間を追加したものです。A fundamental part of Data Lake Storage Gen2 is the addition of a hierarchical namespace to Blob storage. 階層型名前空間には、効率的なデータ アクセスのためにオブジェクトやファイルがディレクトリ階層に編成されています。The hierarchical namespace organizes objects/files into a hierarchy of directories for efficient data access. 共通のオブジェクト ストアの名前規則では、名前にスラッシュを使用して階層型ディレクトリ構造を模倣しています。A common object store naming convention uses slashes in the name to mimic a hierarchical directory structure. この構造は、Data Lake Storage Gen2 を使って、実際のものになります。This structure becomes real with Data Lake Storage Gen2. ディレクトリの名前変更や削除などの操作は、ディレクトリ名のプレフィックスを共有するすべてのオブジェクトを列挙して処理するのではなく、ディレクトリ上の単一のアトミック メタデータの操作になります。Operations such as renaming or deleting a directory become single atomic metadata operations on the directory rather than enumerating and processing all objects that share the name prefix of the directory.

以前は、パフォーマンス、管理、およびセキュリティの領域では、クラウドベース分析は妥協する必要がありました。In the past, cloud-based analytics had to compromise in areas of performance, management, and security. Data Lake Storage Gen2 では、次の方法で各側面に対応しています。Data Lake Storage Gen2 addresses each of these aspects in the following ways:

  • パフォーマンス。分析の前提条件としてデータをコピーまたは変換する必要がないため、最適化されます。Performance is optimized because you do not need to copy or transform data as a prerequisite for analysis. 階層型名前空間によってディレクトリ管理操作のパフォーマンスは大幅に向上し、その結果、全体的なジョブ パフォーマンスも向上します。The hierarchical namespace greatly improves the performance of directory management operations, which improves overall job performance.

  • 管理。ディレクトリおよびサブディレクトリを利用してファイルを編成および操作できるため、簡単になりました。Management is easier because you can organize and manipulate files through directories and subdirectories.

  • セキュリティ。ディレクトリや個別のファイルに対して POSIX アクセス許可を定義できるので、セキュリティを確保できます。Security is enforceable because you can define POSIX permissions on directories or individual files.

  • コスト効率。Data Lake Storage Gen2 が低コストの Azure Blob ストレージの上位にビルドされていることで、実現されました。Cost effectiveness is made possible as Data Lake Storage Gen2 is built on top of the low-cost Azure Blob storage. さらに、追加の機能により、Azure 上でビッグ データ分析を実行するための総保有コストが低下しました。The additional features further lower the total cost of ownership for running big data analytics on Azure.

Data Lake Storage Gen2 の主な機能Key features of Data Lake Storage Gen2

  • Hadoop と互換性のあるアクセス:Data Lake Storage Gen2 を使用すると、Hadoop 分散ファイル システム (HDFS) の場合と同様にデータの管理およびアクセスを行うことができます。Hadoop compatible access: Data Lake Storage Gen2 allows you to manage and access data just as you would with a Hadoop Distributed File System (HDFS). 新しい ABFS ドライバーは、Azure HDInsight Azure DatabricksSQL Data Warehouse など、すべての Apache Hadoop 環境内で、Data Lake Storage Gen2 に格納されているデータにアクセスするために使用できます。The new ABFS driver is available within all Apache Hadoop environments, including Azure HDInsight, Azure Databricks, and SQL Data Warehouse to access data stored in Data Lake Storage Gen2.

  • POSIX アクセス許可のスーパーセット:Data Lake Gen2 のセキュリティ モデルは、ACL および POSIX のアクセス許可に加え、Data Lake Storage Gen2 固有の追加設定をサポートしています。A superset of POSIX permissions: The security model for Data Lake Gen2 supports ACL and POSIX permissions along with some extra granularity specific to Data Lake Storage Gen2. 設定は、ストレージ エクスプローラーだけでなく、Hive や Spark などのフレームワークを使用して構成できます。Settings may be configured through Storage Explorer or through frameworks like Hive and Spark.

  • コスト効率:Data Lake Storage Gen2 は、低コストのストレージ容量とトランザクションを備えています。Cost effective: Data Lake Storage Gen2 offers low-cost storage capacity and transactions. ライフサイクル全体を通したデータ遷移として、課金レートは、Azure Blob ストレージ ライフサイクルなどの組み込みの機能を介して、最小限になるまで継続コストを変更します。As data transitions through its complete lifecycle, billing rates change keeping costs to a minimum via built-in features such as Azure Blob storage lifecycle.

  • 最適化されたドライバー:ABFS ドライバーは、ビッグ データ分析のために特別に最適化されています。Optimized driver: The ABFS driver is optimized specifically for big data analytics. 該当する REST API は、dfs.core.windows.net エンドポイントを介して表示されます。The corresponding REST APIs are surfaced through the endpoint dfs.core.windows.net.

スケーラビリティScalability

Azure Storage では、Data Lake Storage Gen2 または Blob ストレージ インターフェイスのどちらを経由してアクセスするか、設計ごとにスケーラブルになっています。Azure Storage is scalable by design whether you access via Data Lake Storage Gen2 or Blob storage interfaces. また、多数のエクサバイト データを格納および提供できます。It is able to store and serve many exabytes of data. このストレージ容量は、秒単位での高レベルの入出力処理 (IOPS).で、ギガビット/秒 (Gbps) で計測されるスループットによって利用可能になります。This amount of storage is available with throughput measured in gigabits per second (Gbps) at high levels of input/output operations per second (IOPS). 単なる永続性ではなく、サービス、アカウント、およびファイル レベルで計測される定数に近いリクエストごとの待機時間で、処理が実行されます。Beyond just persistence, processing is executed at near-constant per-request latencies that are measured at the service, account, and file levels.

コスト効率Cost effectiveness

Azure Blob ストレージの上位に Data Lake Storage Gen2 をビルドする多くのメリットの 1 つが、低コストのストレージ容量とトランザクションです。One of the many benefits of building Data Lake Storage Gen2 on top of Azure Blob storage is the low cost of storage capacity and transactions. 他のクラウド ストレージ サービスとは違って、Data Lake Storage Gen2 に格納されているデータは、分析を実行する前に移行または変換を行う必要がありません。Unlike other cloud storage services, data stored in Data Lake Storage Gen2 is not required to be moved or transformed prior to performing analysis. 価格の詳細については、Azure Storage の価格に関するページを参照してください。For more information about pricing, see Azure Storage pricing.

さらに、階層構造の名前空間などの機能は、多数の分析ジョブのパフォーマンス全体を大幅に向上させます。Additionally, features such as the hierarchical namespace significantly improve the overall performance of many analytics jobs. このパフォーマンスの向上は、同じデータ量を処理するうえで必要とするコンピューティング能力をより低減できることを意味し、結果として、エンド ツー エンドの分析ジョブの総保有コスト (TCO) を削減できます。This improvement in performance means that you require less compute power to process the same amount of data, resulting in a lower total cost of ownership (TCO) for the end-to-end analytics job.

1 つのサービス、複数の概念One service, multiple concepts

Data Lake Storage Gen2 は、Azure Blob ストレージに基づいて構築された、ビッグ データ分析用の追加機能です。Data Lake Storage Gen2 is an additional capability for big data analytics, built on top of Azure Blob storage. BLOB の既存のプラットフォーム コンポーネントを利用して分析用の Data Lake を作成および操作する場合に多くの利点がありますが、同じ共通することを説明する概念が複数生まれることになります。While there are many benefits in leveraging existing platform components of Blobs to create and operate data lakes for analytics, it does lead to multiple concepts describing the same, shared things.

複数の概念で説明される同等のエンティティを次に示します。The following are the equivalent entities, as described by different concepts. 特記がない限り、これらのエンティティはそのままの同義語です。Unless specified otherwise these entities are directly synonymous:

概念Concept 最上位レベルの組織Top Level Organization 下位レベルの組織Lower Level Organization データ コンテナーData Container
BLOB - 汎用オブジェクト ストレージBlobs – General purpose object storage コンテナーContainer 仮想ディレクトリ (SDK のみ - アトミック操作を提供しない)Virtual directory (SDK only – does not provide atomic manipulation) BlobBlob
ADLS Gen2 - Analytics ストレージADLS Gen2 – Analytics Storage ファイル システムFile system DirectoryDirectory ファイルFile

サポートされるオープン ソース プラットフォームSupported open source platforms

一部のオープン ソース プラットフォームは Data Lake Storage Gen2 をサポートしています。Several open source platforms support Data Lake Storage Gen2. これらのプラットフォームを次の表に示します。Those platforms appear in the following table.

注意

この表に記載されているバージョンのみがサポートされています。Only the versions that appear in this table are supported.

プラットフォームPlatform サポートされるバージョンSupported Version(s) 詳細情報More Information
HDInsightHDInsight 3.6 以降3.6+ HDInsight で使用できる Apache Hadoop コンポーネントおよびバージョンとはWhat are the Apache Hadoop components and versions available with HDInsight?
HadoopHadoop 3.2 以降3.2+ Apache Hadoop リリース アーカイブApache Hadoop releases archive
ClouderaCloudera 6.1 以降6.1+ Cloudera Enterprise 6.x のリリース ノートCloudera Enterprise 6.x release notes
Azure DatabricksAzure Databricks 5.1 以降5.1+ Databricks Runtime のバージョンDatabricks Runtime versions
HortonworksHortonworks 3.1.x++3.1.x++ クラウド データ アクセスの構成Configuring cloud data access

次の手順Next steps

以下の記事では、Data Lake Storage Gen2 の主要な概念の一部と、データの分析情報を保管、アクセス、管理、および取得する方法の詳細を示しています。The following articles describe some of the main concepts of Data Lake Storage Gen2 and detail how to store, access, manage, and gain insights from your data: