Azure Data Lake Storage Gen2 の概要Introduction to Azure Data Lake Storage Gen2

‎Azure Data Lake Storage Gen2 は、ビッグ データ分析専用の機能セットであり、Azure Blob Storage に基づいて構築されています。‎Azure Data Lake Storage Gen2 is a set of capabilities dedicated to big data analytics, built on Azure Blob storage.

Data Lake Storage Gen2 は、Azure Blob Storage と Azure Data Lake Storage Gen1 の機能を集約したものです。Data Lake Storage Gen2 converges the capabilities of Azure Data Lake Storage Gen1 with Azure Blob storage. たとえば、Data Lake Storage Gen2 では、ファイル システム セマンティクス、ファイルレベルのセキュリティ、スケーリングが提供されます。For example, Data Lake Storage Gen2 provides file system semantics, file-level security, and scale. これらの機能は Blob Storage に基づいて構築されているため、高可用性およびディザスター リカバリー機能を備えた低コストの階層型ストレージも利用できます。Because these capabilities are built on Blob storage, you'll also get low-cost, tiered storage, with high availability/disaster recovery capabilities.

エンタープライズ ビッグ データ分析用に設計されているDesigned for enterprise big data analytics

Data Lake Storage Gen2 によって、Azure Storage は、Azure 上にエンタープライズ データ レイクを構築するための基盤となります。Data Lake Storage Gen2 makes Azure Storage the foundation for building enterprise data lakes on Azure. Data Lake Storage Gen2 は、当初から、何百ものギガビット単位のスループットを維持しつつ、複数のペタバイト単位の情報を利用可能にする目的で設計されているため、大量のデータを簡単に管理することができます。Designed from the start to service multiple petabytes of information while sustaining hundreds of gigabits of throughput, Data Lake Storage Gen2 allows you to easily manage massive amounts of data.

Data Lake Storage Gen2 の基礎部分は、BLOB ストレージに階層型名前空間を追加したものです。A fundamental part of Data Lake Storage Gen2 is the addition of a hierarchical namespace to Blob storage. 階層型名前空間には、効率的なデータ アクセスのためにオブジェクトやファイルがディレクトリ階層に編成されています。The hierarchical namespace organizes objects/files into a hierarchy of directories for efficient data access. 共通のオブジェクト ストアの名前規則では、名前にスラッシュを使用して階層型ディレクトリ構造を模倣しています。A common object store naming convention uses slashes in the name to mimic a hierarchical directory structure. この構造は、Data Lake Storage Gen2 を使って、実際のものになります。This structure becomes real with Data Lake Storage Gen2. ディレクトリの名前変更や削除などの操作は、そのディレクトリに対する単一のアトミック メタデータ操作になります。Operations such as renaming or deleting a directory, become single atomic metadata operations on the directory. ディレクトリ名のプレフィックスを共有するすべてのオブジェクトを列挙して処理する必要はありません。There's no need to enumerate and process all objects that share the name prefix of the directory.

Data Lake Storage Gen2 は Blob Storage をベースに構築され、パフォーマンス、管理、セキュリティが次のように強化されています。Data Lake Storage Gen2 builds on Blob storage and enhances performance, management, and security in the following ways:

  • パフォーマンス。分析の前提条件としてデータをコピーまたは変換する必要がないため、最適化されます。Performance is optimized because you do not need to copy or transform data as a prerequisite for analysis. Blob Storage のフラット型名前空間と比べ、階層型名前空間ではディレクトリ管理操作のパフォーマンスが大幅に向上し、その結果、全体的なジョブ パフォーマンスも向上します。Compared to the flat namespace on Blob storage, the hierarchical namespace greatly improves the performance of directory management operations, which improves overall job performance.

  • 管理。ディレクトリおよびサブディレクトリを利用してファイルを編成および操作できるため、簡単になりました。Management is easier because you can organize and manipulate files through directories and subdirectories.

  • セキュリティ。ディレクトリや個別のファイルに対して POSIX アクセス許可を定義できるので、セキュリティを確保できます。Security is enforceable because you can define POSIX permissions on directories or individual files.

Data Lake Storage Gen2 は、低コストの Azure Blob Storage をベースに構築されているため、きわめて高いコスト効果が得られます。Also, Data Lake Storage Gen2 is very cost effective because it is built on top of the low-cost Azure Blob storage. さらに、追加の機能により、Azure 上でビッグ データ分析を実行するための総保有コストが低下しました。The additional features further lower the total cost of ownership for running big data analytics on Azure.

Data Lake Storage Gen2 の主な機能Key features of Data Lake Storage Gen2

  • Hadoop と互換性のあるアクセス:Data Lake Storage Gen2 を使用すると、Hadoop 分散ファイル システム (HDFS) の場合と同様にデータの管理およびアクセスを行うことができます。Hadoop compatible access: Data Lake Storage Gen2 allows you to manage and access data just as you would with a Hadoop Distributed File System (HDFS). 新しい ABFS ドライバー (データへのアクセスに使用) は、すべての Apache Hadoop 環境内で使用できます。The new ABFS driver (used to access data) is available within all Apache Hadoop environments. これらの環境には、Azure HDInsight Azure DatabricksAzure Synapse Analytics が含まれます。These environments include Azure HDInsight, Azure Databricks, and Azure Synapse Analytics.

  • POSIX アクセス許可のスーパーセット:Data Lake Gen2 のセキュリティ モデルは、ACL および POSIX のアクセス許可に加え、Data Lake Storage Gen2 固有の追加設定をサポートしています。A superset of POSIX permissions: The security model for Data Lake Gen2 supports ACL and POSIX permissions along with some extra granularity specific to Data Lake Storage Gen2. 設定は、Storage Explorer だけでなく、Hive や Spark などのフレームワークを使用して構成できます。Settings may be configured through Storage Explorer or through frameworks like Hive and Spark.

  • コスト効率:Data Lake Storage Gen2 は、低コストのストレージ容量とトランザクションを備えています。Cost effective: Data Lake Storage Gen2 offers low-cost storage capacity and transactions. Azure Blob Storage ライフサイクルなどの機能により、データがライフサイクルを通じて移行する際にコストが最適化されます。Features such as Azure Blob storage lifecycle optimize costs as data transitions through its lifecycle.

  • 最適化されたドライバー:ABFS ドライバーは、ビッグ データ分析のために 特別に最適化されています。Optimized driver: The ABFS driver is optimized specifically for big data analytics. 該当する REST API は、dfs.core.windows.net エンドポイントを介して表示されます。The corresponding REST APIs are surfaced through the endpoint dfs.core.windows.net.

スケーラビリティScalability

Azure Storage では、Data Lake Storage Gen2 または Blob ストレージ インターフェイスのどちらを経由してアクセスするか、設計ごとにスケーラブルになっています。Azure Storage is scalable by design whether you access via Data Lake Storage Gen2 or Blob storage interfaces. また、多数のエクサバイト データ を格納および提供できます。It is able to store and serve many exabytes of data. このストレージ容量は、秒単位での高レベルの入出力処理 (IOPS).で、ギガビット/秒 (Gbps) で計測されるスループットによって利用可能になります。This amount of storage is available with throughput measured in gigabits per second (Gbps) at high levels of input/output operations per second (IOPS). サービス、アカウント、ファイルの各レベルで測定されるほぼ一定の要求ごとの待機時間で処理が実行されます。Processing is executed at near-constant per-request latencies that are measured at the service, account, and file levels.

コスト効率Cost effectiveness

Data Lake Storage Gen2 は Azure Blob Storage の上に構築されているため、ストレージ容量とトランザクション コストが抑えられます。Because Data Lake Storage Gen2 is built on top of Azure Blob storage, storage capacity and transaction costs are lower. 他のクラウド ストレージ サービスとは異なり、分析を実行する前にデータを移動または変換しておく必要はありません。Unlike other cloud storage services, you don't have to move or transform your data before you can analyze it. 価格の詳細については、Azure Storage の価格に関するページを参照してください。For more information about pricing, see Azure Storage pricing.

さらに、階層構造の名前空間などの機能は、多数の分析ジョブのパフォーマンス全体を大幅に向上させます。Additionally, features such as the hierarchical namespace significantly improve the overall performance of many analytics jobs. このパフォーマンスの向上は、同じデータ量を処理するうえで必要とするコンピューティング能力をより低減できることを意味し、結果として、エンド ツー エンドの分析ジョブの総保有コスト (TCO) を削減できます。This improvement in performance means that you require less compute power to process the same amount of data, resulting in a lower total cost of ownership (TCO) for the end-to-end analytics job.

1 つのサービス、複数の概念One service, multiple concepts

Data Lake Storage Gen2 は Azure Blob Storage の上に構築されているため、同じ共通事項を複数の概念で説明できます。Because Data Lake Storage Gen2 is built on top of Azure Blob storage, multiple concepts can describe the same, shared things.

複数の概念で説明される同等のエンティティを次に示します。The following are the equivalent entities, as described by different concepts. 特記がない限り、これらのエンティティはそのままの同義語です。Unless specified otherwise these entities are directly synonymous:

概念Concept 最上位レベルの組織Top Level Organization 下位レベルの組織Lower Level Organization データ コンテナーData Container
BLOB - 汎用オブジェクト ストレージBlobs – General purpose object storage コンテナーContainer 仮想ディレクトリ (SDK のみ - アトミック操作を提供しない)Virtual directory (SDK only – does not provide atomic manipulation) BLOBBlob
Azure Data Lake Storage Gen2 - Analytics StorageAzure Data Lake Storage Gen2 – Analytics Storage コンテナーContainer ディレクトリDirectory ファイルFile

Blob Storage のサポートされている機能Supported Blob storage features

診断ログアクセス層Blob Storage ライフサイクル管理ポリシーなどの Blob Storage の機能をご利用のアカウントで使用できます。Blob storage features such as diagnostic logging, access tiers, and Blob Storage lifecycle management policies are available to your account.

サポートされる Blob Storage 機能の一覧については、「Azure Data Lake Storage Gen2 で使用できる Blob Storage 機能」を参照してください。For a list of supported Blob storage features, see Blob Storage features available in Azure Data Lake Storage Gen2.

サポートされる Azure サービスの統合Supported Azure service integrations

Data Lake Storage Gen2 では、いくつかの Azure サービスがサポートされています。Data Lake Storage gen2 supports several Azure services. これらを使用して、データを取り込み、分析を実行し、視覚的な表現を作成できます。You can use them to ingest data, perform analytics, and create visual representations. サポートされる Azure サービスの一覧については、「Azure Data Lake Storage Gen2 をサポートする Azure サービス」を参照してください。For a list of supported Azure services, see Azure services that support Azure Data Lake Storage Gen2.

サポートされるオープン ソース プラットフォームSupported open source platforms

一部のオープン ソース プラットフォームは Data Lake Storage Gen2 をサポートしています。Several open source platforms support Data Lake Storage Gen2. 完全な一覧については、「Data Lake Storage Gen2 がサポートされているオープン ソース プラットフォーム」を参照してください。For a complete list, see Open source platforms that support Azure Data Lake Storage Gen2.

関連項目See also