Azure Data Lake Storage Gen1 の概要Overview of Azure Data Lake Storage Gen1

注意

Azure Data Lake Storage Gen2 の一般提供が開始されました。Azure Data Lake Storage Gen2 is now generally available. 今すぐ使用を開始することをお勧めします。We recommend that you start using it today. 詳細については、製品に関するページを参照してください。For more information, see the product page.

Azure Data Lake Storage Gen1 は、ビッグ データの分析ワークロードに対応するエンタープライズ レベルのハイパースケール リポジトリです。Azure Data Lake Storage Gen1 is an enterprise-wide hyper-scale repository for big data analytic workloads. Azure Data Lake を使用すると、運用分析や調査分析を目的として任意のサイズ、種類、および取り込み速度のデータを 1 か所でキャプチャすることができます。Azure Data Lake enables you to capture data of any size, type, and ingestion speed in one single place for operational and exploratory analytics.

ヒント

Data Lake Storage Gen1 サービスの調査を開始するには、Data Lake Storage Gen1 ラーニング パスを使用します。Use the Data Lake Storage Gen1 learning path to start exploring the Data Lake Storage Gen1 service.

Data Lake Storage Gen1 には、Hadoop (HDInsight クラスターで使用可能) から、WebHDFS と互換性のある REST API を使用してアクセスできます。Data Lake Storage Gen1 can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs. Azure Data Lake Store は、格納されたデータを分析できるように特別に設計されており、データ分析シナリオに合わせてパフォーマンスの調整が行われます。It is specifically designed to enable analytics on the stored data and is tuned for performance for data analytics scenarios. これには、企業における実際のユース ケースで不可欠なエンタープライズ レベルのすべての機能 (セキュリティ、管理の容易性、スケーラビリティ、信頼性、および可用性) が既定で組み込まれています。Out of the box, it includes all the enterprise-grade capabilities—security, manageability, scalability, reliability, and availability—essential for real-world enterprise use cases.

Azure Data Lake

Data Lake Storage Gen1 の主要な機能のいくつかを以下に示します。Some of the key capabilities of Data Lake Storage Gen1 include the following.

Hadoop 用に構築Built for Hadoop

Data Lake Storage Gen1 は、Hadoop 分散ファイル システム (HDFS) と互換性のある Apache Hadoop ファイル システムであり、Hadoop エコシステムと連動します。Data Lake Storage Gen1 is an Apache Hadoop file system compatible with Hadoop Distributed File System (HDFS) and works with the Hadoop ecosystem. WebHDFS API を使用する既存の HDInsight アプリケーションまたはサービスは、Data Lake Storage Gen1 と簡単に統合することができます。Your existing HDInsight applications or services that use the WebHDFS API can easily integrate with Data Lake Storage Gen1. Data Lake Storage Gen1 では、アプリケーション向けの WebHDFS と互換性のある REST インターフェイスも公開されています。Data Lake Storage Gen1 also exposes a WebHDFS-compatible REST interface for applications

Data Lake Storage Gen1 に格納されたデータは、MapReduce または Hive などの Hadoop 分析フレームワークを使用して簡単に分析することができます。Data stored in Data Lake Storage Gen1 can be easily analyzed using Hadoop analytic frameworks such as MapReduce or Hive. Data Lake Storage Gen1 に格納されたデータに直接アクセスするように Microsoft Azure HDInsight クラスターをプロビジョニングおよび構成することができます。Microsoft Azure HDInsight clusters can be provisioned and configured to directly access data stored in Data Lake Storage Gen1.

無制限のストレージ、ペタバイト ファイルUnlimited storage, petabyte files

Data Lake Storage Gen1 では無制限のストレージが提供されます。そのため、分析を目的としてさまざまなデータを格納するのに適しています。Data Lake Storage Gen1 provides unlimited storage and is suitable for storing a variety of data for analytics. Data Lake に格納できるアカウント サイズ、ファイル サイズ、またはデータ量に関する制限は設定されていません。It does not impose any limits on account sizes, file sizes, or the amount of data that can be stored in a data lake. 対応可能な個々のファイルのサイズはキロバイトからペタバイトの範囲にわたり、任意の種類のデータを自由に格納することができます。Individual files can range from kilobyte to petabytes in size making it a great choice to store any type of data. データは複数のコピーを作成して格納されるため障害が発生しても保護されます。Data Lake でのデータの格納期間に制限はありません。Data is stored durably by making multiple copies and there is no limit on the duration of time for which the data can be stored in the data lake.

ビッグ データを分析するためのパフォーマンス チューニングPerformance-tuned for big data analytics

Data Lake Storage Gen1 は、大量のデータのクエリと分析のために非常に高いスループットを必要とする、大規模な分析システムを実行するために構築されています。Data Lake Storage Gen1 is built for running large scale analytic systems that require massive throughput to query and analyze large amounts of data. Data Lake では、ファイル内のデータを複数の異なる記憶域サーバーに分散します。The data lake spreads parts of a file over a number of individual storage servers. これにより、ファイルを並列に読み取ってデータ分析を実行する場合の読み取りスループットが向上します。This improves the read throughput when reading the file in parallel for performing data analytics.

エンタープライズ対応: 高可用性およびセキュリティEnterprise-ready: Highly-available and secure

Data Lake Storage Gen1 では、業界標準の可用性と信頼性が提供されます。Data Lake Storage Gen1 provides industry-standard availability and reliability. データ資産は、冗長なコピーを作成して格納されるので、予期せぬ障害が発生しても保護されます。Your data assets are stored durably by making redundant copies to guard against any unexpected failures. 企業では、実際のソリューションで既存のデータ プラットフォームの重要な部分として Data Lake Storage Gen1 を使用できます。Enterprises can use Data Lake Storage Gen1 in their solutions as an important part of their existing data platform.

Data Lake Storage Gen1 では、格納されたデータに対してエンタープライズ レベルのセキュリティも提供されます。Data Lake Storage Gen1 also provides enterprise-grade security for the stored data. 詳細については、Azure Data Lake Storage Gen1 内のデータのセキュリティ保護に関するページを参照してください。For more information, see Securing data in Azure Data Lake Storage Gen1.

すべてのデータAll Data

Azure Data Lake Storage Gen1 では、任意のデータをネイティブ形式でそのまま格納することができ、事前の変換は必要ありません。Data Lake Storage Gen1 can store any data in their native format, as is, without requiring any prior transformations. Azure Data Lake Storage Gen1 では、データが読み込まれる前にスキーマを定義する必要はなく、分析時にデータを解釈してスキーマを定義するかどうかは個々の分析フレームワークに任されます。Data Lake Storage Gen1 does not require a schema to be defined before the data is loaded, leaving it up to the individual analytic framework to interpret the data and define a schema at the time of the analysis. 任意のサイズおよび形式のファイルを格納できるようにすると、Data Lake Storage Gen1 で構造化データ、半構造化データ、および非構造化データを処理できるようになります。Being able to store files of arbitrary sizes and formats makes it possible for Data Lake Storage Gen1 to handle structured, semi-structured, and unstructured data.

Data Lake Storage Gen1 のデータ コンテナーは、本質的にはフォルダーとファイルです。Data Lake Storage Gen1 containers for data are essentially folders and files. 格納されたデータを、SDK、Azure Portal、Azure Powershell を使用して操作します。You operate on the stored data using SDKs, Azure Portal, and Azure Powershell. これらのインターフェイスと適切なコンテナーを使用してストアにデータを配置する限り、あらゆる種類のデータを格納できます。As long as you put your data into the store using these interfaces and using the appropriate containers, you can store any type of data. Data Lake Storage Gen1 では、格納されているデータの種類に基づくデータの特別な処理は行われません。Data Lake Storage Gen1 does not perform any special handling of data based on the type of data it stores.

Data Lake Storage Gen1 でのデータのセキュリティ保護Securing data in Data Lake Storage Gen1

Data Lake Storage Gen1 では、Azure Active Directory を使用し、認証およびアクセス制御リスト (ACL) によってデータへのアクセスを管理します。Data Lake Storage Gen1 uses Azure Active Directory for authentication and access control lists (ACLs) to manage access to your data.

機能Feature 説明Description
AuthenticationAuthentication Data Lake Storage Gen1 では、Azure Active Directory (AAD) と統合することで、Data Lake Storage Gen1 に格納されたすべてのデータの ID およびアクセスの管理を行います。Data Lake Storage Gen1 integrates with Azure Active Directory (AAD) for identity and access management for all the data stored in Data Lake Storage Gen1. この統合により、Data Lake Storage Gen1 では、AAD のすべての機能 (多要素認証、条件付きアクセス、ロール ベースのアクセス制御、アプリケーション使用状況の監視、セキュリティの監視とアラート通知など) の利点が得られます。Data Lake Storage Gen1 では、REST インターフェイスでの認証に対応する OAuth 2.0 プロトコルがサポートされます。As a result of the integration, Data Lake Storage Gen1 benefits from all AAD features including multi-factor authentication, conditional access, role-based access control, application usage monitoring, security monitoring and alerting, etc. Data Lake Storage Gen1 supports the OAuth 2.0 protocol for authentication with in the REST interface. Data Lake Storage Gen1 の認証に関するページを参照してください。See Data Lake Storage Gen1 authentication
アクセス制御Access control Data Lake Storage Gen1 では、WebHDFS プロトコルで公開された POSIX 形式のアクセス許可をサポートすることにより、アクセス制御が提供されます。Data Lake Storage Gen1 provides access control by supporting POSIX-style permissions exposed by the WebHDFS protocol. ルート フォルダー、サブフォルダー、個々のファイルで ACL を有効にすることができます。ACLs can be enabled on the root folder, on subfolders, and on individual files. Data Lake Storage Gen1 のコンテキストにおける ACL のしくみの詳細については、Data Lake Storage Gen1 でのアクセス制御に関するページを参照してください。For more information on how ACLs work in context of Data Lake Storage Gen1, see Access control in Data Lake Storage Gen1.
暗号化Encryption Data Lake Storage Gen1 では、アカウントに格納されているデータを暗号化することもできます。Data Lake Storage Gen1 also provides encryption for data that is stored in the account. 暗号化設定は、Data Lake Storage Gen1 アカウントの作成時に指定します。You specify the encryption settings while creating a Data Lake Storage Gen1 account. データを暗号化するかどうかを選択できます。You can chose to have your data encrypted or opt for no encryption. 詳細については、Data Lake Storage Gen1 での暗号化に関するページを参照してください。For more information, see Encryption in Data Lake Storage Gen1. 暗号化関連の構成を提供する手順については、「Get started with Azure Data Lake Storage Gen1 using the Azure Portal」 (Azure Portal で Azure Data Lake Storage Gen1 の使用を開始する) を参照してください。For instructions on how to provide encryption-related configuration, see Get started with Azure Data Lake Storage Gen1 using the Azure Portal.

Data Lake Storage Gen1 に格納されているデータのセキュリティ保護について詳しくお知りになりたいですか? Want to learn more about securing data in Data Lake Storage Gen1? 以下のページを参照してください。Follow the links below.

Data Lake Storage Gen1 と互換性のあるアプリケーションApplications compatible with Data Lake Storage Gen1

Data Lake Storage Gen1 は、Hadoop エコシステムのほとんどのオープン ソース コンポーネントと互換性があります。Data Lake Storage Gen1 is compatible with most open source components in the Hadoop ecosystem. 他の Azure サービスとの連携性にも優れています。It also integrates nicely with other Azure services. その点において、Data Lake Storage Gen1 はデータ ストレージのニーズを満たす最適な選択肢といえます。This makes Data Lake Storage Gen1 a perfect option for your data storage needs. オープン ソース コンポーネントと他の Azure サービスの両方での Data Lake Storage Gen1 の使用方法について詳しくは、以下のリンクを参照してください。Follow the links below to learn more about how Data Lake Storage Gen1 can be used both with open source components as well as other Azure services.

Data Lake Storage Gen1 ファイル システム (adl://) とはWhat is Data Lake Storage Gen1 file system (adl://)?

Hadoop 環境 (HDInsight クラスターで使用可能) では、新しいファイル システムである AzureDataLakeFilesystem (adl://) 経由で Data Lake Storage Gen1 にアクセスできます。Data Lake Storage Gen1 can be accessed via the new filesystem, the AzureDataLakeFilesystem (adl://), in Hadoop environments (available with HDInsight cluster). adl:// を使用するアプリケーションとサービスでは、WebHDFS で現在まだサポートされていない、より有効なパフォーマンスの最適化を利用できるようになります。Applications and services that use adl:// are able to take advantage of further performance optimization that are not currently available in WebHDFS. 結果として、Data Lake Storage Gen1 では、adl:// を使用する推奨オプションで最適なパフォーマンスを利用することも、引き続き WebHDFS API を直接使用することにより既存のコードを維持することもできるという柔軟性が得られます。As a result, Data Lake Storage Gen1 gives you the flexibility to either avail the best performance with the recommended option of using adl:// or maintain existing code by continuing to use the WebHDFS API directly. Azure HDInsight は、AzureDataLakeFilesystem をフルに活用して Data Lake Storage Gen1 で最適なパフォーマンスを実現します。Azure HDInsight fully leverages the AzureDataLakeFilesystem to provide the best performance on Data Lake Storage Gen1.

Data Lake Storage Gen1 内のデータには、adl://<data_lake_storage_gen1_name>.azuredatalakestore.net を使用してアクセスすることができます。You can access your data in Data Lake Storage Gen1 using adl://<data_lake_storage_gen1_name>.azuredatalakestore.net. Data Lake Storage Gen1 内のデータへのアクセス方法の詳細については、格納データのプロパティの表示に関する記述を参照してください。For more information on how to access the data in Data Lake Storage Gen1, see View properties of the stored data

次の手順Next steps