Azure HDInsight クラスターで使用するストレージ オプションを比較するCompare storage options for use with Azure HDInsight clusters

HDInsight クラスターを作成する際、次のいくつかの異なる Azure Storage サービスを選択できます。You can choose between a few different Azure storage services when creating HDInsight clusters:

  • Azure StorageAzure Storage
  • Azure Data Lake Storage Gen2Azure Data Lake Storage Gen2
  • Azure Data Lake Storage Gen1Azure Data Lake Storage Gen1

この記事では、これらのストレージの種類とそれらの固有の機能の概要を提供します。This article provides an overview of these storage types and their unique features.

次の表は、HDInsight のさまざまなバージョンでサポートされている Azure Storage サービスをまとめたものです。The following table summarizes the Azure Storage services that are supported with different versions of HDInsight:

ストレージ サービスStorage service アカウントの種類Account type 名前空間の種類Namespace Type サポートされているサービスSupported services サポートされているパフォーマンス レベルSupported performance tiers サポートされているアクセス層Supported access tiers HDInsight のバージョンHDInsight Version クラスターの種類Cluster type
Azure Data Lake Storage Gen2Azure Data Lake Storage Gen2 汎用 v2General-purpose V2 階層構造 (ファイルシステム)Hierarchical (filesystem) BLOBBlob StandardStandard ホット、クール、アーカイブHot, Cool, Archive 3.6 以降3.6+ Spark 2.1 および 2.2 を除くすべてAll except Spark 2.1 and 2.2
Azure StorageAzure Storage 汎用 v2General-purpose V2 ObjectObject BLOBBlob StandardStandard ホット、クール、アーカイブHot, Cool, Archive 3.6 以降3.6+ AllAll
Azure StorageAzure Storage 汎用 v1General-purpose V1 ObjectObject BLOBBlob StandardStandard 該当なしN/A AllAll AllAll
Azure StorageAzure Storage Blob Storage**Blob Storage** ObjectObject ブロック BLOBBlock Blob StandardStandard ホット、クール、アーカイブHot, Cool, Archive AllAll AllAll
Azure Data Lake Storage Gen1Azure Data Lake Storage Gen1 該当なしN/A 階層構造 (ファイルシステム)Hierarchical (filesystem) 該当なしN/A 該当なしN/A 該当なしN/A 3.6 のみ3.6 Only HBase を除くすべてAll except HBase

** HDInsight クラスターの場合、セカンダリ ストレージ アカウントのみに BlobStorage 型を使用できます。ページ BLOB は、サポートされるストレージ オプションではありません。**For HDInsight clusters, only secondary storage accounts can be of type BlobStorage and Page Blob is not a supported storage option.

ストレージ アカウントの種類について詳しくは、「Azure ストレージ アカウントの概要」をご覧ください。For more information on Azure Storage account types, see Azure storage account overview

Azure Storage アクセス層の詳細については、「Azure Blob Storage:Premium ストレージ層 (プレビュー)、ホット ストレージ層、クール ストレージ層、アーカイブ ストレージ層」を参照してください。For more information on Azure Storage access tiers, see Azure Blob storage: Premium (preview), Hot, Cool, and Archive storage tiers

プライマリ ストレージと省略可能なセカンダリ ストレージ用のさまざまなサービスの組み合わせを使用してクラスターを作成することができます。You can create a cluster using different combinations of services for primary and optional secondary storage. 次の表に、HDInsight で現在サポートされているクラスター ストレージの構成をまとめています。The following table summarizes the cluster storage configurations that are currently supported in HDInsight:

HDInsight のバージョンHDInsight Version プライマリ ストレージPrimary Storage セカンダリ ストレージSecondary Storage サポートされていますSupported
3.6 と 4.03.6 & 4.0 General Purpose V1、General Purpose V2General Purpose V1 , General Purpose V2 General Purpose V1、General Purpose V2、 BlobStorage (ブロック Blob)General Purpose V1 , General Purpose V2, BlobStorage(Block Blobs) はいYes
3.6 と 4.03.6 & 4.0 General Purpose V1、General Purpose V2General Purpose V1 , General Purpose V2 Data Lake Storage Gen2Data Lake Storage Gen2 いいえNo
3.6 と 4.03.6 & 4.0 Data Lake Storage Gen2*Data Lake Storage Gen2* Data Lake Storage Gen2Data Lake Storage Gen2 はいYes
3.6 と 4.03.6 & 4.0 Data Lake Storage Gen2*Data Lake Storage Gen2* General Purpose V1、General Purpose V2、 BlobStorage (ブロック Blob)General Purpose V1 , General Purpose V2, BlobStorage(Block Blobs) はいYes
3.6 と 4.03.6 & 4.0 Data Lake Storage Gen2Data Lake Storage Gen2 Data Lake Storage Gen1Data Lake Storage Gen1 いいえNo
3.63.6 Data Lake Storage Gen1Data Lake Storage Gen1 Data Lake Storage Gen1Data Lake Storage Gen1 はいYes
3.63.6 Data Lake Storage Gen1Data Lake Storage Gen1 General Purpose V1、General Purpose V2、 BlobStorage (ブロック Blob)General Purpose V1 , General Purpose V2, BlobStorage(Block Blobs) はいYes
3.63.6 Data Lake Storage Gen1Data Lake Storage Gen1 Data Lake Storage Gen2Data Lake Storage Gen2 いいえNo
4.04.0 Data Lake Storage Gen1Data Lake Storage Gen1 AnyAny いいえNo
4.04.0 General Purpose V1、General Purpose V2General Purpose V1 , General Purpose V2 Data Lake Storage Gen1Data Lake Storage Gen1 いいえNo

*=すべてがクラスター アクセスに同じマネージド ID を使用するように構成されている限り、これは 1 つ以上の Data Lake Storage Gen2 アカウントの可能性があります。*=This could be one or multiple Data Lake Storage Gen2 accounts, as long as they are all setup to use the same managed identity for cluster access.

注意

Data Lake Storage Gen2 プライマリ ストレージは、Spark 2.1 または 2.2 クラスターではサポートされていません。Data Lake Storage Gen2 primary storage is not supported for Spark 2.1 or 2.2 clusters.

Azure HDInsight で Azure Data Lake Storage Gen2 と Apache Hadoop を使用するUse Azure Data Lake Storage Gen2 with Apache Hadoop in Azure HDInsight

Azure Data Lake Storage Gen2 は、Azure Data Lake Storage Gen1 のコア機能を取得し、それらを Azure Blob Storage に統合します。Azure Data Lake Storage Gen2 takes core features from Azure Data Lake Storage Gen1 and integrates them into Azure Blob storage. これらの機能には、Hadoop と互換性のあるファイル システム、Azure Active Directory (Azure AD)、および POSIX ベースのアクセス制御リスト (ACL) などがあります。These features include a file system that is compatible with Hadoop, Azure Active Directory (Azure AD), and POSIX-based access control lists (ACLs). この組み合わせにより、Azure Data Lake Storage Gen1 のパフォーマンスを利用しつつ、Blob Storage の階層化とデータのライフ サイクル管理も使用することができます。This combination allows you to take advantage of the performance of Azure Data Lake Storage Gen1 while also using the tiering and data life-cycle management of Blob storage.

Azure Data Lake Storage Gen2 の詳細については、「Azure Data Lake Storage Gen2 の概要」を参照してください。For more information on Azure Data Lake Storage Gen2, see Introduction to Azure Data Lake Storage Gen2.

Azure Data Lake Storage Gen2 のコア機能Core functionality of Azure Data Lake Storage Gen2

  • Hadoop と互換性のあるアクセス: Azure Data Lake Storage Gen2 では、Hadoop 分散ファイル システム (HDFS) を利用する場合と同様に、データの管理およびアクセスが可能です。Access that is compatible with Hadoop: In Azure Data Lake Storage Gen2, you can manage and access data just as you would with a Hadoop Distributed File System (HDFS). Azure BLOB ファイル システム (ABFS) ドライバーは、Azure HDInsight や Azure Databricks を含むすべての Apache Hadoop 環境内で使用できます。The Azure Blob File System (ABFS) driver is available within all Apache Hadoop environments, including Azure HDInsight and Azure Databricks. Data Lake Storage Gen2 に格納されているデータにアクセスするには、ABFS を使用します。Use ABFS to access data stored in Data Lake Storage Gen2.

  • POSIX アクセス許可のスーパーセット:Data Lake Gen2 のセキュリティ モデルは、ACL および POSIX のアクセス許可に加え、Data Lake Storage Gen2 固有の追加設定をサポートしています。A superset of POSIX permissions: The security model for Data Lake Gen2 supports ACL and POSIX permissions along with some extra granularity specific to Data Lake Storage Gen2. 設定は、管理ツールまたはフレームワーク (Apache Hive や Apache Spark など) を通じて構成できます。Settings can be configured through admin tools or frameworks like Apache Hive and Apache Spark.

  • コスト効率:Data Lake Storage Gen2 は、低コストのストレージ容量とトランザクションを備えています。Cost effectiveness: Data Lake Storage Gen2 offers low-cost storage capacity and transactions. Azure Blob Storage のライフサイクルなどの機能は、データのライフサイクルの進展に応じて請求金額を調整することで、コストの削減に役立ちます。Features such as Azure Blob storage life cycle help lower costs by adjusting billing rates as data moves through its life cycle.

  • BLOB ストレージ ツール、フレームワーク、およびアプリとの互換性:Data Lake Storage Gen2 では、BLOB ストレージ用の多様なツール、フレームワーク、およびアプリケーションを継続的に利用できます。Compatibility with Blob storage tools, frameworks, and apps: Data Lake Storage Gen2 continues to work with a wide array of tools, frameworks, and applications for Blob storage.

  • 最適化されたドライバー:ABFS ドライバーは、ビッグ データ分析のために特別に最適化されています。Optimized driver: The ABFS driver is optimized specifically for big data analytics. 対応する REST API は、分散ファイル システム (DFS) エンドポイント dfs.core.windows.net を介して表示されます。The corresponding REST APIs are surfaced through the distributed file system (DFS) endpoint, dfs.core.windows.net.

Azure Data Lake Storage Gen2 の新機能What's new for Azure Data Lake Storage Gen 2

セキュア ファイル アクセスのためのマネージド IDManaged identities for secure file access

Azure HDInsight は、マネージド ID を使用して、Azure Data Lake Storage Gen2 内のファイルへのクラスター アクセスをセキュリティで保護します。Azure HDInsight uses managed identities to secure cluster access to files in Azure Data Lake Storage Gen2. マネージド ID は、Azure サービスに自動的に管理される一連の資格情報を提供する Azure Active Directory の機能です。Managed identities are a feature of Azure Active Directory that provides Azure services with a set of automatically managed credentials. これらの資格情報は、Active Directory 認証をサポートする任意のサービスを認証するために使用できます。These credentials can be used to authenticate to any service that supports Active Directory authentication. マネージド ID の使用には、コードまたは構成ファイルに資格情報を格納する必要はありません。Using managed identities doesn't require you to store credentials in code or configuration files.

詳細については、Azure リソースのマネージド ID に関するページを参照してください。For more information, see Managed identities for Azure resources.

Azure BLOB ファイル システム ドライバーAzure Blob File System driver

Apache Hadoop アプリケーションは、ローカル ディスク ストレージからネイティブにデータを読み書きすることを想定しています。Apache Hadoop applications natively expect to read and write data from local disk storage. ABFS などの Hadoop ファイル システム ドライバーは、通常の Hadoop ファイル システム操作をエミュレートすることによって、Hadoop アプリケーションがクラウド ストレージで動作できるようにします。A Hadoop file system driver like ABFS enables Hadoop applications to work with cloud storage by emulating regular Hadoop file system operations. このドライバーは、アプリケーションから受信されたコマンドを実際のクラウド ストレージ プラットフォームで認識される操作に変換します。The driver converts those commands received from the application into operations that the actual cloud storage platform understands.

以前は、Hadoop ファイル システム ドライバーは、すべてのファイルシステム操作をクライアント側での Azure Storage REST API 呼び出しに変換してから、REST API を呼び出していました。Previously, the Hadoop file system driver converted all file system operations to Azure Storage REST API calls on the client side and then invoked the REST API. しかし、このクライアント側の変換では、ファイルの名前変更のような 1 つのファイルシステム操作に対して複数の REST API が呼び出されていました。This client-side conversion, however, resulted in multiple REST API calls for a single file system operation like the renaming of a file. ABFS では、Hadoop ファイル システムのロジックの一部をクライアント側からサーバー側に移行しています。ABFS has moved some of the Hadoop file system logic from the client side to the server side. Azure Data Lake Storage Gen2 API は、Blob API と並列実行されます。The Azure Data Lake Storage Gen2 API now runs in parallel with the Blob API. この移行により、Hadoop ファイルシステムの一般的な操作が 1 つの REST API 呼び出しで実行できるようになったため、パフォーマンスが向上します。This migration improves performance because now common Hadoop file system operations can be executed with one REST API call.

詳細については、「The Azure Blob Filesystem driver (ABFS):A dedicated Azure Storage driver for Hadoop」 (Azure BLOB ファイルシステム ドライバー (ABFS): Hadoop 専用の Azure Storage ドライバー) を参照してください。For more information, see The Azure Blob Filesystem driver (ABFS): A dedicated Azure Storage driver for Hadoop.

Azure Data Lake Storage Gen 2 の URI スキームURI scheme for Azure Data Lake Storage Gen 2

Azure Data Lake Storage Gen2 は、HDInsight から Azure Storage 内のファイルにアクセスするための新しい URI スキームを使用します。Azure Data Lake Storage Gen2 uses a new URI scheme to access files in Azure Storage from HDInsight:

abfs://<FILE_SYSTEM_NAME>@<ACCOUNT_NAME>.dfs.core.windows.net/<PATH>

URI スキームでは、SSL で暗号化されたアクセスが提供されます。The URI scheme provides SSL-encrypted access.

<FILE_SYSTEM_NAME> には、Data Lake Storage Gen2 ファイル システムのパスを指定します。<FILE_SYSTEM_NAME> identifies the path of the file system Data Lake Storage Gen2.

<ACCOUNT_NAME> には、Azure Storage アカウント名を指定します。<ACCOUNT_NAME> identifies the Azure Storage account name. 完全修飾ドメイン名 (FQDN) を指定する必要があります。A fully qualified domain name (FQDN) is required.

<PATH> は、ファイルまたはディレクトリの HDFS パス名です。<PATH> is the file or directory HDFS path name.

<FILE_SYSTEM_NAME><ACCOUNT_NAME> の値が指定されていない場合、既定のファイルシステムが使用されます。If values for <FILE_SYSTEM_NAME> and <ACCOUNT_NAME> aren't specified, the default file system is used. 既定のファイル システム上にあるファイルに関しては、相対パスか絶対パスを使用します。For the files on the default file system, use a relative path or an absolute path. たとえば、HDInsight クラスターに付属している hadoop-mapreduce-examples.jar ファイルは、次のいずれかのパスを使用して参照できます。For example, the hadoop-mapreduce-examples.jar file that comes with HDInsight clusters can be referred to by using one of the following paths:

abfs://myfilesystempath@myaccount.dfs.core.windows.net/example/jars/hadoop-mapreduce-examples.jar
abfs:///example/jars/hadoop-mapreduce-examples.jar /example/jars/hadoop-mapreduce-examples.jar

注意

HDInsight バージョン 2.1 クラスターと 1.6 クラスターでは、ファイル名は hadoop-examples.jar です。The file name is hadoop-examples.jar in HDInsight versions 2.1 and 1.6 clusters. HDInsight の外部からファイルを操作する場合、ほとんどのユーティリティで ABFS 形式が認識されず、代わりに example/jars/hadoop-mapreduce-examples.jar などの基本的なパス形式が要求されます。When you're working with files outside of HDInsight, you'll find that most utilities don't recognize the ABFS format but instead expect a basic path format, such as example/jars/hadoop-mapreduce-examples.jar.

詳細については、「Use the Azure Data Lake Storage Gen2 URI」 (Azure Data Lake Storage Gen2 の URI を使用する) を参照してください。For more information, see Use the Azure Data Lake Storage Gen2 URI.

Azure StorageAzure Storage

Azure Storage は、堅牢な汎用ストレージ ソリューションであり、HDInsight とシームレスに統合されます。Azure Storage is a robust general-purpose storage solution that integrates seamlessly with HDInsight. HDInsight は、クラスターの既定のファイル システムとして Azure Storage 内の BLOB コンテナーを使用できます。HDInsight can use a blob container in Azure Storage as the default file system for the cluster. HDInsight のすべてのコンポーネントは、BLOB として格納された構造化データまたは非構造化データを HDFS インターフェイスを介して直接操作できます。Through an HDFS interface, the full set of components in HDInsight can operate directly on structured or unstructured data stored as blobs.

Microsoft では、既定のクラスター ストレージとビジネス データに別々のストレージ コンテナーを使用して、HDInsight のログと一時ファイルをご自身のビジネス データから切り離すことをお勧めしています。We recommend to use separate storage containers for your default cluster storage and your business data, to isolate the HDInsight logs and temporary files from your own business data. また、アプリケーション ログとシステム ログが含まれている既定の BLOB コンテナーは、ストレージ コストを削減するために、それぞれのログを使用した後に削除することもお勧めしています。We also recommend deleting the default blob container, which contains application and system logs, after each use to reduce storage cost. コンテナーを削除する前に、ログを取り出してください。Make sure to retrieve the logs before deleting the container.

[選択されたネットワーク][ファイアウォールと仮想ネットワーク] に関する制限を使用してストレージ アカウントをセキュリティで保護する場合、 [Allow trusted Microsoft services](信頼された Microsoft サービスを許可) の例外を有効にして、HDInsight ストレージ アカウントにアクセスできるようにしてください。If you choose to secure your storage account with the Firewalls and virtual networks restrictions on Selected networks, be sure to enable the exception Allow trusted Microsoft services... so that HDInsight can access your storage account.

HDInsight のストレージ アーキテクチャHDInsight storage architecture

次の図は、Azure Storage のHDInsight アーキテクチャを示しています。The following diagram provides an abstract view of the HDInsight architecture of Azure Storage:

HDInsight のストレージ アーキテクチャHDInsight Storage Architecture

HDInsight では、それぞれのコンピューティング ノードにローカルに割り当てられている分散ファイル システムにアクセスします。HDInsight provides access to the distributed file system that is locally attached to the compute nodes. このファイル システムには、完全修飾 URI を使用してアクセスできます。次に例を示します。This file system can be accessed by using the fully qualified URI, for example:

hdfs://<namenodehost>/<path>

HDInsight を介して、Azure Storage 内のデータにアクセスすることもできます。Through HDInsight you can also access data in Azure Storage. 構文は次のとおりです。The syntax is as follows:

wasb://<containername>@<accountname>.blob.core.windows.net/<path>

HDInsight クラスターで Azure Storage アカウントを使用するときには、次の原則を考慮してください。Consider the following principles when using an Azure Storage account with HDInsight clusters:

  • クラスターに接続されているストレージ アカウント内のコンテナー: アカウントの名前とキーは作成中にクラスターと関連付けられるため、これらのコンテナー内の BLOB に対するフル アクセス許可が与えられます。Containers in the storage accounts that are connected to a cluster: Because the account name and key are associated with the cluster during creation, you have full access to the blobs in those containers.

  • クラスターに接続されていないストレージ アカウント内のパブリック コンテナーまたはパブリック BLOB: コンテナー内の BLOB に対する読み取り専用のアクセス許可が与えられます。Public containers or public blobs in storage accounts that are not connected to a cluster: You have read-only permission to the blobs in the containers.

    注意

    パブリック コンテナーの場合、そのコンテナー内に配置されているすべての BLOB のリストとコンテナー メタデータを取得できます。Public containers allow you to get a list of all blobs that are available in that container and to get container metadata. パブリック BLOB の場合、正確な URL がわかっているときのみ、その BLOB にアクセスできます。Public blobs allow you to access the blobs only if you know the exact URL. 詳細については、「 コンテナーと BLOB への匿名読み取りアクセスを管理する」を参照してください。For more information, see Manage anonymous read access to containers and blobs.

  • クラスターに接続されていないストレージ アカウント内のプライベート コンテナー: WebHCat ジョブを送信するときにストレージ アカウントを定義しない限り、コンテナー内の BLOB にはアクセスできません。Private containers in storage accounts that are not connected to a cluster: You can't access the blobs in the containers unless you define the storage account when you submit the WebHCat jobs.

作成プロセスで定義されたストレージ アカウントとそのキーは、クラスター ノードの %HADOOP_HOME%/conf/core-site.xml に格納されます。The storage accounts that are defined in the creation process and their keys are stored in %HADOOP_HOME%/conf/core-site.xml on the cluster nodes. 既定では、HDInsight は core-site.xml ファイルに定義されたストレージ アカウントを使用します。By default, HDInsight uses the storage accounts defined in the core-site.xml file. この設定は、Apache Ambari を使用して変更できます。You can modify this setting by using Apache Ambari.

Apache Hive、MapReduce、Apache Hadoop ストリーミング、Apache Pig など、複数の WebHCat ジョブを利用して、ストレージ アカウントの説明とそのメタデータを伝達できます。Multiple WebHCat jobs, including Apache Hive, MapReduce, Apache Hadoop streaming, and Apache Pig, can carry a description of storage accounts and metadata with them. (現在、ストレージ アカウントについては Pig が対応していますが、メタデータについては対応していません)。詳細については、「代替のストレージ アカウントとメタストアでの HDInsight クラスターの使用」を参照してください。(This is currently true for Pig with storage accounts but not for metadata.) For more information, see Using an HDInsight cluster with alternate storage accounts and metastores.

BLOB は、構造化データと非構造化データに使用できます。Blobs can be used for structured and unstructured data. BLOB コンテナーには、"キーと値のペア" としてデータが格納されます。ディレクトリ階層はありません。Blob containers store data as key/value pairs and have no directory hierarchy. ただし、キー名にスラッシュ (/) を含めると、ファイルがディレクトリ階層に保存されているように見せかけることができます。However the key name can include a slash character ( / ) to make it appear as if a file is stored within a directory structure. たとえば、BLOB のキーが input/log1.txt であるとします。For example, a blob's key can be input/log1.txt. 実際には input というディレクトリは存在しませんが、キー名のスラッシュにより、キーがファイル パスのように見えます。No actual input directory exists, but because of the slash character in the key name, the key looks like a file path.

Azure Storage の利点Benefits of Azure Storage

コンピューティング クラスターとストレージ リソースを同じ場所に併置しないと、パフォーマンスの低下が懸念されます。Compute clusters and storage resources that aren't colocated have implied performance costs. こうした懸念は、Azure リージョン内のストレージ アカウント リソースの近くにコンピューティング クラスターを作成することで軽減されます。These costs are mitigated by the way the compute clusters are created close to the storage account resources inside the Azure region. このリージョンでは、コンピューティング ノードは Azure Storage 内の高速ネットワークを介してデータに効率的にアクセスできます。In this region, the compute nodes can efficiently access the data over the high-speed network inside Azure Storage.

HDFS ではなく、Azure Storage にデータを格納すると、いくつかの利点があります。When you store the data in Azure Storage instead of HDFS, you get several benefits:

  • データの再使用と共有: HDFS のデータはコンピューティング クラスター内に配置されます。Data reuse and sharing: The data in HDFS is located inside the compute cluster. HDFS API を使用してデータを操作できるのは、コンピューティング クラスターへのアクセスが許可されているアプリケーションだけです。Only the applications that have access to the compute cluster can use the data by using HDFS APIs. 対照的に、Azure Storage 内のデータには、HDFS API または Blob Storage REST API のどちらかを使用してアクセスできます。The data in Azure Storage, by contrast, can be accessed through either the HDFS APIs or the Blob storage REST APIs. これにより、さまざまなアプリケーション (その他の HDInsight クラスターを含む) やツールを使用してデータの生成と利用ができます。Because of this arrangement, a larger set of applications (including other HDInsight clusters) and tools can be used to produce and consume the data.

  • データのアーカイブ: Azure Storage にデータを格納した場合、計算で使用する HDInsight クラスターを削除してもユーザー データは失われません。Data archiving: When data is stored in Azure Storage, the HDInsight clusters used for computation can be safely deleted without losing user data.

  • データ ストレージ コスト: コンピューティング クラスターは Azure Storage よりコストがかかるため、DFS に長期間データを格納すると、Azure Storage にデータを格納した場合よりコストが高くなります。Data storage cost: Storing data in DFS for the long term is more costly than storing the data in Azure Storage because the cost of a compute cluster is higher than the cost of Azure Storage. また、コンピューティング クラスターを生成するたびにデータを再読み込みする必要がないため、データの読み込みコストも節約されます。Also, because the data doesn't have to be reloaded for every compute cluster generation, you're saving data-loading costs as well.

  • 柔軟なスケールアウト: HDFS は大規模なファイル システムを提供しますが、規模を拡張するにはクラスターに対して作成するノードの数を増やさなければならないので、作業が複雑になります。Elastic scale-out: Although HDFS provides you with a scaled-out file system, the scale is determined by the number of nodes that you create for your cluster. 一方、Azure Storage には柔軟なスケール機能がもともと備わっています。Changing the scale can be more complicated than relying on the elastic scaling capabilities that you get automatically in Azure Storage.

  • geo レプリケーション: Azure Storage は、別の拠点に geo レプリケートできます。Geo-replication: Your Azure Storage can be geo-replicated. geo レプリケーションにより、災害発生時には別の拠点でデータを回復でき、データの冗長性が高まりますが、geo レプリケーションした別拠点へのフェールオーバーはパフォーマンスに大きな影響を与え、追加コストが発生する可能性もあります。Although geo-replication gives you geographic recovery and data redundancy, a failover to the geo-replicated location severely affects your performance, and it might incur additional costs. このため、geo レプリケーションを利用するときは、追加コストがかかっても保護する価値のあるデータかどうかを十分に考慮してください。So choose geo-replication cautiously and only if the value of the data justifies the additional cost.

MapReduce の一部のジョブやパッケージでは中間結果が生成されますが、Azure Storage には保存したくない場合もあります。Certain MapReduce jobs and packages might create intermediate results that you wouldn't want to store in Azure Storage. このような場合、中間結果データをローカルの HDFS に保存できます。In that case, you can choose to store the data in the local HDFS. HDInsight では、Hive ジョブやその他のプロセスで生成される中間結果の一部が DFS に格納されます。HDInsight uses DFS for several of these intermediate results in Hive jobs and other processes.

注意

ほとんどの HDFS コマンド (lscopyFromLocalmkdir など) は、Azure Storage で想定どおりに機能します。Most HDFS commands (for example, ls, copyFromLocal, and mkdir) work as expected in Azure Storage. ただし、fschkdfsadmin など、HDFS ネイティブ実装 (DFS) に固有のコマンドについては、Azure Storage 上で実行した場合に動作が異なります。Only the commands that are specific to the native HDFS implementation (which is referred to as DFS), such as fschk and dfsadmin, show different behavior in Azure Storage.

Azure Data Lake Storage Gen1 の概要Overview of Azure Data Lake Storage Gen1

Azure Data Lake Storage Gen1 は、ビッグ データの分析ワークロードに対応するエンタープライズ レベルのハイパースケール リポジトリです。Azure Data Lake Storage Gen1 is an enterprise-wide hyperscale repository for big data analytic workloads. Azure Data Lake を使用すると、運用分析や調査分析を目的として任意のサイズ、種類、および取り込み速度のデータを 1 か所でキャプチャすることができます。Using Azure Data Lake, you can capture data of any size, type, and ingestion speed in one place for operational and exploratory analytics.

Data Lake Storage Gen1 には、WebHDFS と互換性のある REST API を使用して Hadoop (HDInsight クラスターで使用可能) からアクセスします。Access Data Lake Storage Gen1 from Hadoop (available with an HDInsight cluster) by using the WebHDFS-compatible REST APIs. Data Lake Storage Gen1 は、格納されたデータに対する分析を可能にするように設計されており、データ分析シナリオ用にパフォーマンスがチューニングされます。Data Lake Storage Gen1 is designed to enable analytics on the stored data and is tuned for performance in data analytics scenarios. これには、企業における実際のユース ケースで不可欠な機能が既定で組み込まれています。Out of the box, it includes the capabilities that are essential for real-world enterprise use cases. これらの機能には、セキュリティ、管理の容易性、スケーラビリティ、信頼性、および可能性が含まれます。These capabilities include security, manageability, scalability, reliability, and availability.

Azure Data Lake Storage Gen1 の詳細については、「Azure Data Lake Storage Gen1 の概要」の詳しい説明を参照してください。For more information on Azure Data Lake Storage Gen1, see the detailed Overview of Azure Data Lake Storage Gen1.

Data Lake Storage Gen1 の主要な機能を以下に示します。The key capabilities of Data Lake Storage Gen1 include the following.

Hadoop との互換性Compatibility with Hadoop

Data Lake Storage Gen1 は、HDFS と互換性のある Apache Hadoop ファイル システムであり、Hadoop エコシステムと連動します。Data Lake Storage Gen1 is an Apache Hadoop file system that is compatible with HDFS and works with the Hadoop ecosystem. WebHDFS API を使用する既存の HDInsight アプリケーションまたはサービスは、Data Lake Storage Gen1 と簡単に統合することができます。Your existing HDInsight applications or services that use the WebHDFS API can easily integrate with Data Lake Storage Gen1. Data Lake Storage Gen1 では、アプリケーション向けの WebHDFS と互換性のある REST インターフェイスも公開されています。Data Lake Storage Gen1 also exposes a WebHDFS-compatible REST interface for applications.

Data Lake Storage Gen1 に格納されたデータは、MapReduce または Hive などの Hadoop 分析フレームワークを使用して簡単に分析することができます。Data stored in Data Lake Storage Gen1 can be easily analyzed using Hadoop analytic frameworks such as MapReduce or Hive. Data Lake Storage Gen1 に格納されたデータに直接アクセスするように Azure HDInsight クラスターをプロビジョニングおよび構成することができます。Azure HDInsight clusters can be provisioned and configured to directly access data stored in Data Lake Storage Gen1.

無制限のストレージ、ペタバイト ファイルUnlimited storage, petabyte files

Data Lake Storage Gen1 では無制限のストレージが提供されます。そのため、分析を目的としてさまざまなデータを格納するのに適しています。Data Lake Storage Gen1 provides unlimited storage and is suitable for storing a variety of data for analytics. Data Lake に格納できるアカウント サイズ、ファイル サイズ、またはデータ量に関する制限は設定されていません。It doesn't impose limits on account sizes, file sizes, or the amount of data that can be stored in a data lake. 対応可能な個々のファイルのサイズはキロバイトからペタバイトの範囲にわたり、任意の種類のデータを Data Lake Storage Gen1 に自由に格納することができます。Individual files can range in size from kilobytes to petabytes, making Data Lake Storage Gen1 a great choice to store any type of data. データは複数のコピーを作成して格納されるため、障害が発生しても保護されます。Data Lake でのデータの格納期間に制限はありません。Data is stored durably by making multiple copies, and there are no limits on how long the data can be stored in the data lake.

ビッグ データを分析するためのパフォーマンス チューニングPerformance tuning for big data analytics

Data Lake Storage Gen1 は、大量のデータのクエリと分析のために非常に高いスループットを必要とする、大規模な分析システムを実行するために構築されています。Data Lake Storage Gen1 is built to run large-scale analytic systems that require massive throughput to query and analyze large amounts of data. Data Lake では、ファイル内のデータを複数の異なる記憶域サーバーに分散します。The data lake spreads parts of a file over several individual storage servers. このセットアップにより、データ分析時にファイルを並列に読み取る場合の読み取りスループットが向上します。When you're analyzing data, this setup improves the read throughput when the file is read in parallel.

エンタープライズへの対応:高可用性およびセキュリティReadiness for enterprise: Highly available and secure

Data Lake Storage Gen1 では、業界標準の可用性と信頼性が提供されます。Data Lake Storage Gen1 provides industry-standard availability and reliability. データ資産は、冗長なコピーを作成して格納されるため、予期せぬ障害が発生しても保護されます。Data assets are stored durably: redundant copies guard against unexpected failures. 企業では、実際のソリューションで既存のデータ プラットフォームの重要な部分として Data Lake Storage Gen1 を使用できます。Enterprises can use Data Lake Storage Gen1 in their solutions as an important part of their existing data platform.

Data Lake Storage Gen1 では、格納されたデータに対してエンタープライズ レベルのセキュリティも提供されます。Data Lake Storage Gen1 also provides enterprise-grade security for stored data. 詳細については、Azure Data Lake Storage Gen1 内のデータのセキュリティ保護に関するページを参照してください。For more information, see Securing data in Azure Data Lake Storage Gen1.

柔軟なデータ構造Flexible data structures

Data Lake Storage Gen1 では、任意のデータをネイティブ形式でそのまま格納することができ、事前の変換は不要です。Data Lake Storage Gen1 can store any data in its native format, as is, without requiring prior transformations. Data Lake Storage Gen1 では、データが読み込まれる前にスキーマを定義する必要はありません。Data Lake Storage Gen1 doesn't require a schema to be defined before the data is loaded. 分析時にデータを解釈してスキーマを定義するかどうかは個々の分析フレームワークに任されます。The individual analytic framework interprets the data and defines a schema at the time of the analysis. 任意のサイズおよび形式のファイルを格納できるため、Data Lake Storage Gen1 では構造化データ、半構造化データ、および非構造化データを処理できます。Because it can store files of arbitrary sizes and formats, Data Lake Storage Gen1 can handle structured, semistructured, and unstructured data.

Data Lake Storage Gen1 のデータ コンテナーは、本質的にはフォルダーとファイルです。Data Lake Storage Gen1 containers for data are essentially folders and files. 格納されたデータを SDK、Azure Portal、および Azure PowerShell を使用して操作します。You operate on the stored data by using SDKs, the Azure portal, and Azure PowerShell. これらのインターフェイスと適切なコンテナーを使用してストアにデータを配置する限り、あらゆる種類のデータを格納できます。As long as you put your data into the store by using these interfaces and the appropriate containers, you can store any type of data. Data Lake Storage Gen1 では、格納されているデータの種類に基づくデータの特別な処理は行われません。Data Lake Storage Gen1 doesn't perform any special handling of data based on the type of data it stores.

Data Lake Storage Gen1 のデータのセキュリティData security in Data Lake Storage Gen1

Data Lake Storage Gen1 では、Azure Active Directory を使用して認証を行い、アクセス制御リスト (ACL) を使用してデータへのアクセスを管理します。Data Lake Storage Gen1 uses Azure Active Directory for authentication and uses access control lists (ACLs) to manage access to your data.

機能Feature 説明Description
認証Authentication Data Lake Storage Gen1 では、Azure Active Directory (Azure AD) と統合することで、Data Lake Storage Gen1 に格納されたすべてのデータの ID およびアクセスの管理を行います。Data Lake Storage Gen1 integrates with Azure Active Directory (Azure AD) for identity and access management for all the data stored in Data Lake Storage Gen1. この統合により、Data Lake Storage Gen1 では、Azure AD のすべての機能の利点が得られます。Because of the integration, Data Lake Storage Gen1 benefits from all Azure AD features. これらの機能には、多要素認証、条件付きアクセス、ロール ベースのアクセス制御、アプリケーション使用状況の監視、セキュリティの監視とアラート通知などが含まれます。These features include multifactor authentication, Conditional Access, role-based access control, application usage monitoring, security monitoring and alerting, and so on. Data Lake Storage Gen1 では、REST インターフェイスでの認証に対応する OAuth 2.0 プロトコルがサポートされます。Data Lake Storage Gen1 supports the OAuth 2.0 protocol for authentication within the REST interface. Azure Data Lake Storage Gen1 での Azure Active Directory を使用した認証」を参照してください。See Authentication within Azure Data Lake Storage Gen1 using Azure Active Directory
アクセス制御Access control Data Lake Storage Gen1 では、WebHDFS プロトコルで公開された POSIX 形式のアクセス許可をサポートすることにより、アクセス制御が提供されます。Data Lake Storage Gen1 provides access control by supporting POSIX-style permissions that are exposed by the WebHDFS protocol. ルート フォルダー、サブフォルダー、個々のファイルで ACL を有効にすることができます。ACLs can be enabled on the root folder, on subfolders, and on individual files. Data Lake Storage Gen1 のコンテキストにおける ACL のしくみの詳細については、「Data Lake Storage Gen1 でのアクセス制御」を参照してください。For more information on how ACLs work in the context of Data Lake Storage Gen1, see Access control in Data Lake Storage Gen1.
暗号化Encryption Data Lake Storage Gen1 では、アカウントに格納されているデータを暗号化することもできます。Data Lake Storage Gen1 also provides encryption for data that is stored in the account. 暗号化設定は、Data Lake Storage Gen1 アカウントの作成時に指定します。You specify the encryption settings while creating a Data Lake Storage Gen1 account. データを暗号化するかどうかを選択できます。You can choose to have your data encrypted or opt for no encryption. 詳細については、Data Lake Storage Gen1 での暗号化に関するページを参照してください。For more information, see Encryption in Data Lake Storage Gen1. 暗号化関連の構成を提供する方法については、「Azure Portal で Azure Data Lake Storage Gen1 の使用を開始する」を参照してください。For instructions on how to provide an encryption-related configuration, see Get started with Azure Data Lake Storage Gen1 using the Azure portal.

Data Lake Storage Gen1 内のデータのセキュリティ保護の詳細については、「Azure Data Lake Storage Gen1 に格納されているデータのセキュリティ保護」を参照してください。To learn more about securing data in Data Lake Storage Gen1, see Securing data stored in Azure Data Lake Storage Gen1.

Data Lake Storage Gen1 と互換性のあるアプリケーションApplications that are compatible with Data Lake Storage Gen1

Data Lake Storage Gen1 は、Hadoop エコシステム内のほとんどのオープンソース コンポーネントと互換性があります。Data Lake Storage Gen1 is compatible with most open-source components in the Hadoop ecosystem. 他の Azure サービスとの連携性にも優れています。It also integrates nicely with other Azure services. Data Lake Storage Gen1 をオープンソース コンポーネントとその他の Azure サービスの両方と共に使用する方法の詳細については、下のリンクに従ってください。Follow the links below to learn more about how Data Lake Storage Gen1 can be used both with open-source components as well as other Azure services.

Data Lake Storage Gen1 ファイル システム (adl://)Data Lake Storage Gen1 file system (adl://)

Hadoop 環境 (HDInsight クラスターで使用可能) では、新しいファイル システムである AzureDataLakeFilesystem (adl://) 経由で Data Lake Storage Gen1 にアクセスできます。In Hadoop environments (available with an HDInsight cluster), you can access Data Lake Storage Gen1 through the new file system, the AzureDataLakeFilesystem (adl://). adl:// を使用するアプリケーションとサービスのパフォーマンスは、WebHDFS で現在まだサポートされていない方法で最適化できます。The performance of applications and services that use adl:// can be optimized in ways that aren't currently available in WebHDFS. 結果として、Data Lake Storage Gen1 を使用すると、推奨される adl:// を使用することで最適なパフォーマンスを利用することも、引き続き WebHDFS API を直接使用することにより既存のコードを維持することもできるという柔軟性が得られます。As a result, when you use Data Lake Storage Gen1, you get the flexibility to either avail the best performance by using the recommended adl:// or maintain existing code by continuing to use the WebHDFS API directly. Azure HDInsight は、AzureDataLakeFilesystem をフルに活用して Data Lake Storage Gen1 で最適なパフォーマンスを実現します。Azure HDInsight takes full advantage of the AzureDataLakeFilesystem to provide the best performance on Data Lake Storage Gen1.

Data Lake Storage Gen1 内のデータには、以下を使用してアクセスすることができます。Access your data in Data Lake Storage Gen1 by using the following:

adl://<data_lake_storage_gen1_name>.azuredatalakestore.net

Data Lake Storage Gen1 内のデータへのアクセス方法の詳細については、「保存データに対して実行できるアクション」を参照してください。For more information on how to access the data in Data Lake Storage Gen1, see Actions available on the stored data.

次のステップNext steps