Azure Data Lake Storage Gen1 とはWhat is Azure Data Lake Storage Gen1?

注意

Azure Data Lake Storage Gen2 の一般提供が開始されました。Azure Data Lake Storage Gen2 is now generally available. 今すぐ使用を開始することをお勧めします。We recommend that you start using it today. 詳細については、製品に関するページを参照してください。For more information, see the product page.

Azure Data Lake Storage Gen1 は、ビッグ データの分析ワークロードに対応するエンタープライズ レベルのハイパースケール リポジトリです。Azure Data Lake Storage Gen1 is an enterprise-wide hyper-scale repository for big data analytic workloads. Azure Data Lake を使用すると、運用分析や調査分析を目的として任意のサイズ、種類、および取り込み速度のデータを 1 か所でキャプチャすることができます。Azure Data Lake enables you to capture data of any size, type, and ingestion speed in one single place for operational and exploratory analytics.

Data Lake Storage Gen1 には、Hadoop (HDInsight クラスターで使用可能) から、WebHDFS と互換性のある REST API を使用してアクセスできます。Data Lake Storage Gen1 can be accessed from Hadoop (available with HDInsight cluster) using the WebHDFS-compatible REST APIs. これは、格納されたデータに対する分析を可能にするように設計されており、データ分析シナリオ用にパフォーマンスがチューニングされます。It's designed to enable analytics on the stored data and is tuned for performance for data analytics scenarios. Data Lake Storage Gen1 には、エンタープライズ レベルのすべての機能 (セキュリティ、管理の容易性、スケーラビリティ、信頼性、および可用性) が組み込まれています。Data Lake Storage Gen1 includes all enterprise-grade capabilities: security, manageability, scalability, reliability, and availability.

Azure Data Lake

主な機能Key capabilities

Data Lake Storage Gen1 の主要な機能のいくつかを以下に示します。Some of the key capabilities of Data Lake Storage Gen1 include the following.

Hadoop 用に構築Built for Hadoop

Data Lake Storage Gen1 は、Hadoop 分散ファイル システム (HDFS) と互換性のある Apache Hadoop ファイル システムであり、Hadoop エコシステムと連動します。Data Lake Storage Gen1 is an Apache Hadoop file system that's compatible with Hadoop Distributed File System (HDFS), and works with the Hadoop ecosystem. WebHDFS API を使用する既存の HDInsight アプリケーションまたはサービスは、Data Lake Storage Gen1 と簡単に統合することができます。Your existing HDInsight applications or services that use the WebHDFS API can easily integrate with Data Lake Storage Gen1. Data Lake Storage Gen1 では、アプリケーション向けの WebHDFS と互換性のある REST インターフェイスも公開されています。Data Lake Storage Gen1 also exposes a WebHDFS-compatible REST interface for applications.

Data Lake Storage Gen1 に格納されたデータは、MapReduce や Hive などの Hadoop 分析フレームワークを使用して簡単に分析することができます。You can easily analyze data stored in Data Lake Storage Gen1 using Hadoop analytic frameworks such as MapReduce or Hive. Data Lake Storage Gen1 に格納されたデータに直接アクセスするように Azure HDInsight クラスターをプロビジョニングおよび構成することができます。You can provision Azure HDInsight clusters and configure them to directly access data stored in Data Lake Storage Gen1.

無制限のストレージ、ペタバイト ファイルUnlimited storage, petabyte files

Data Lake Storage Gen1 では無制限のストレージが提供されます。そのため、分析を目的としてさまざまなデータを格納することができます。Data Lake Storage Gen1 provides unlimited storage and can store a variety of data for analytics. Data Lake に格納できるアカウント サイズ、ファイル サイズ、またはデータ量に関する制限は設定されていません。It doesn't impose any limits on account sizes, file sizes, or the amount of data that can be stored in a data lake. 対応可能な個々のファイルのサイズはキロバイトからペタバイトの範囲にわたります。Individual files can range from kilobyte to petabytes in size. データは複数のコピーを作成して格納されるため、障害が発生しても保護されます。Data is stored durably by making multiple copies. Data Lake でのデータの格納期間に制限はありません。There is no limit on the duration of time for which the data can be stored in the data lake.

ビッグ データを分析するためのパフォーマンス チューニングPerformance-tuned for big data analytics

Data Lake Storage Gen1 は、大量のデータのクエリと分析のために非常に高いスループットを必要とする、大規模な分析システムを実行するために構築されています。Data Lake Storage Gen1 is built for running large-scale analytic systems that require massive throughput to query and analyze large amounts of data. Data Lake では、ファイル内のデータを複数の異なる記憶域サーバーに分散します。The data lake spreads parts of a file over a number of individual storage servers. これにより、ファイルを並列に読み取ってデータ分析を実行する場合の読み取りスループットが向上します。This improves the read throughput when reading the file in parallel for performing data analytics.

エンタープライズ対応: 高可用性およびセキュリティEnterprise ready: Highly available and secure

Data Lake Storage Gen1 では、業界標準の可用性と信頼性が提供されます。Data Lake Storage Gen1 provides industry-standard availability and reliability. データ資産は、冗長なコピーを作成して格納されるので、予期せぬ障害が発生しても保護されます。Your data assets are stored durably by making redundant copies to guard against any unexpected failures.

Data Lake Storage Gen1 では、格納されたデータに対してエンタープライズ レベルのセキュリティも提供されます。Data Lake Storage Gen1 also provides enterprise-grade security for the stored data. 詳細については、Azure Data Lake Storage Gen1 内のデータのセキュリティ保護に関するページを参照してください。For more information, see Securing data in Azure Data Lake Storage Gen1.

すべてのデータAll data

Data Lake Storage Gen1 では、任意のデータをネイティブ形式で格納することができ、事前の変換は不要です。Data Lake Storage Gen1 can store any data in its native format, without requiring any prior transformations. Azure Data Lake Storage Gen1 では、データが読み込まれる前にスキーマを定義する必要はなく、分析時にデータを解釈してスキーマを定義するかどうかは個々の分析フレームワークに任されます。Data Lake Storage Gen1 does not require a schema to be defined before the data is loaded, leaving it up to the individual analytic framework to interpret the data and define a schema at the time of the analysis. 任意のサイズおよび形式のファイルを格納できるようにすると、Data Lake Storage Gen1 で構造化データ、半構造化データ、および非構造化データを処理できるようになります。The ability to store files of arbitrary sizes and formats makes it possible for Data Lake Storage Gen1 to handle structured, semi-structured, and unstructured data.

Data Lake Storage Gen1 のデータ コンテナーは、本質的にはフォルダーとファイルです。Data Lake Storage Gen1 containers for data are essentially folders and files. 格納されたデータを SDK、Azure portal、および Azure PowerShell を使用して操作します。You operate on the stored data using SDKs, the Azure portal, and Azure Powershell. これらのインターフェイスと適切なコンテナーを使用してストアにデータを配置すれば、あらゆる種類のデータを格納できます。If you put your data into the store using these interfaces and using the appropriate containers, you can store any type of data. Data Lake Storage Gen1 では、格納されているデータの種類に基づくデータの特別な処理は行われません。Data Lake Storage Gen1 does not perform any special handling of data based on the type of data it stores.

データのセキュリティ保護Securing data

Data Lake Storage Gen1 では、Azure Active Directory (Azure AD) を使用し、認証およびアクセス制御リスト (ACL) によってデータへのアクセスを管理します。Data Lake Storage Gen1 uses Azure Active Directory (Azure AD) for authentication, and access control lists (ACLs) to manage access to your data.

機能Feature 説明Description
AuthenticationAuthentication Data Lake Storage Gen1 では、Azure AD と統合することで、Data Lake Storage Gen1 に格納されたすべてのデータの ID およびアクセスの管理を行います。Data Lake Storage Gen1 integrates with Azure AD for identity and access management for all the data stored in Data Lake Storage Gen1. この統合により、Data Lake Storage Gen1 では、Azure AD のすべての機能 (多要素認証、条件付きアクセス、ロールベースのアクセス制御、アプリケーション使用状況の監視、セキュリティの監視とアラート通知など) の利点が得られます。Because of the integration, Data Lake Storage Gen1 benefits from all Azure AD feature such as multi-factor authentication, conditional access, role-based access control, application usage monitoring, security monitoring and alerting, and so on. Data Lake Storage Gen1 では、REST インターフェイスでの認証に対応する OAuth 2.0 プロトコルがサポートされます。Data Lake Storage Gen1 supports the OAuth 2.0 protocol for authentication within the REST interface. Data Lake Storage Gen1 の認証に関するページを参照してください。See Data Lake Storage Gen1 authentication.
アクセス制御Access control Data Lake Storage Gen1 では、WebHDFS プロトコルで公開された POSIX 形式のアクセス許可をサポートすることにより、アクセス制御が提供されます。Data Lake Storage Gen1 provides access control by supporting POSIX-style permissions exposed by the WebHDFS protocol. ルート フォルダー、サブフォルダー、個々のファイルで ACL を有効にすることができます。You can enable ACLs on the root folder, on subfolders, and on individual files. Data Lake Storage Gen1 のコンテキストにおける ACL のしくみの詳細については、Data Lake Storage Gen1 でのアクセス制御に関するページを参照してください。For more information about how ACLs work in the context of Data Lake Storage Gen1, see Access control in Data Lake Storage Gen1.
暗号化Encryption Data Lake Storage Gen1 では、アカウントに格納されているデータを暗号化することもできます。Data Lake Storage Gen1 also provides encryption for data that's stored in the account. 暗号化設定は、Data Lake Storage Gen1 アカウントの作成時に指定します。You specify the encryption settings while creating a Data Lake Storage Gen1 account. データを暗号化するかどうかを選択できます。You can choose to have your data encrypted or opt for no encryption. 詳細については、Data Lake Storage Gen1 での暗号化に関するページを参照してください。For more information, see Encryption in Data Lake Storage Gen1. 暗号化関連の構成を提供する方法については、Azure portal で Data Lake Storage Gen1 の使用を開始する方法に関するページを参照してください。For instructions on how to provide encryption-related configuration, see Get started with Data Lake Storage Gen1 using the Azure portal.

Data Lake Storage Gen1 内のデータをセキュリティで保護する方法については、Azure Data Lake Storage Gen1 内のデータのセキュリティ保護に関するページを参照してください。For instructions on how to secure data in Data Lake Storage Gen1, see Securing data in Azure Data Lake Storage Gen1.

アプリケーションの互換性Application compatibility

Data Lake Storage Gen1 は、Hadoop エコシステム内のほとんどのオープンソース コンポーネントと互換性があります。Data Lake Storage Gen1 is compatible with most open-source components in the Hadoop ecosystem. 他の Azure サービスとも連携します。It also integrates well with other Azure services. オープンソース コンポーネントや他の Azure サービスで Data Lake Storage Gen1 を使用する方法の詳細については、次のリンクを使用してください。To learn more about how you can use Data Lake Storage Gen1 with open-source components and other Azure services, use the following links:

Data Lake Storage Gen1 ファイル システムData Lake Storage Gen1 file system

Hadoop 環境 (HDInsight クラスターで使用可能) では、ファイル システムである AzureDataLakeFilesystem (adl://) 経由で Data Lake Storage Gen1 にアクセスできます。Data Lake Storage Gen1 can be accessed via the filesystem AzureDataLakeFilesystem (adl://) in Hadoop environments (available with HDInsight cluster). adl:// を使用するアプリケーションとサービスでは、WebHDFS で現在まだサポートされていない、より有効なパフォーマンスの最適化を利用できるようになります。Applications and services that use adl:// can take advantage of further performance optimizations that aren't currently available in WebHDFS. 結果として、Data Lake Storage Gen1 では、adl:// を使用する推奨オプションで最適なパフォーマンスを利用することも、引き続き WebHDFS API を直接使用することにより既存のコードを維持することもできるという柔軟性が得られます。As a result, Data Lake Storage Gen1 gives you the flexibility to either make use of the best performance with the recommended option of using adl:// or maintain existing code by continuing to use the WebHDFS API directly. Azure HDInsight は、AzureDataLakeFilesystem をフルに活用して Data Lake Storage Gen1 で最適なパフォーマンスを実現します。Azure HDInsight fully leverages the AzureDataLakeFilesystem to provide the best performance on Data Lake Storage Gen1.

Data Lake Storage Gen1 内のデータには、adl://<data_lake_storage_gen1_name>.azuredatalakestore.net を使用してアクセスすることができます。You can access your data in Data Lake Storage Gen1 using adl://<data_lake_storage_gen1_name>.azuredatalakestore.net. Data Lake Storage Gen1 内のデータへのアクセス方法の詳細については、格納データのプロパティの表示に関する記述を参照してください。For more information about how to access the data in Data Lake Storage Gen1, see View properties of the stored data.

次の手順Next steps