Data Lake Storage Gen1 を使用してビッグ データの要件に対応するUsing Azure Data Lake Storage Gen1 for big data requirements

注意

Azure Data Lake Storage Gen2 の一般提供が開始されました。Azure Data Lake Storage Gen2 is now generally available. 今すぐ使用を開始することをお勧めします。We recommend that you start using it today. 詳細については、製品に関するページを参照してください。For more information, see the product page.

ビッグ データの処理には主に 4 つの段階があります。There are four key stages in big data processing:

  • データ ストアへの大量のデータの取り込み (リアルタイムまたは一括)Ingesting large amounts of data into a data store, at real-time or in batches
  • データの処理Processing the data
  • データのダウンロードDownloading the data
  • データの視覚化Visualizing the data

この記事では、Azure Data Lake Storage Gen1 に関してこれらの段階について説明し、お客様のビッグ データのニーズを満たすために使用できるオプションとツールを確認します。In this article, we look at these stages with respect to Azure Data Lake Storage Gen1 to understand the options and tools available to meet your big data needs.

Data Lake Storage Gen1 にデータを取り込むIngest data into Data Lake Storage Gen1

このセクションでは、さまざまなデータ ソースと、そのデータを Data Lake Storage Gen1 アカウントに取り込む各種方法について説明します。This section highlights the different sources of data and the different ways in which that data can be ingested into a Data Lake Storage Gen1 account.

Data Lake Storage Gen1 にデータを取り込むIngest data into Data Lake Storage Gen1

アドホック データAd hoc data

これは、ビッグ データ アプリケーションのプロトタイプ作成に使用される小規模なデータ セットを表します。This represents smaller data sets that are used for prototyping a big data application. アドホック データの取り込み方法は、データ ソースに応じてさまざまです。There are different ways of ingesting ad hoc data depending on the source of the data.

データ ソースData Source 取り込みに使用するツールIngest it using
ローカル コンピューターLocal computer
Azure Storage BLOBAzure Storage Blob

ストリーミングされたデータStreamed data

これは、アプリケーション、デバイス、センサーなどのさまざまなソースによって生成されるデータを表します。Data Lake Storage Gen1 へのこのデータの取り込みには各種ツールを使用できます。This represents data that can be generated by various sources such as applications, devices, sensors, etc. This data can be ingested into Data Lake Storage Gen1 by a variety of tools. これらのツールでは通常、イベントごとにリアルタイムでデータを取り込み、処理します。その後、さらにデータを処理できるように、Data Lake Storage Gen1 にイベントを一括で書き込みます。These tools will usually capture and process the data on an event-by-event basis in real-time, and then write the events in batches into Data Lake Storage Gen1 so that they can be further processed.

使用できるツールは次のとおりです。Following are tools that you can use:

リレーショナル データRelational data

リレーショナル データベースのデータもソースとして扱うことができます。You can also source data from relational databases. 一定の期間を経て、リレーショナル データベースには大量のデータが収集されます。ビッグ データのパイプラインを介して処理すると、これらのデータから重要な知見が得られます。Over a period of time, relational databases collect huge amounts of data which can provide key insights if processed through a big data pipeline. このようなデータを Data Lake Storage Gen1 に移動する場合は、次のツールを使用できます。You can use the following tools to move such data into Data Lake Storage Gen1.

Web サーバー ログ データ (カスタム アプリケーションを使用したアップロード)Web server log data (upload using custom applications)

Web サーバー ログ データの分析は、ビッグ データ アプリケーションの一般的な使用例で、大量のログ ファイルを Data Lake Storage Gen1 にアップロードすることを必要とするため、この種類のデータセットが特に呼び出されます。This type of dataset is specifically called out because analysis of web server log data is a common use case for big data applications and requires large volumes of log files to be uploaded to Data Lake Storage Gen1. このようなデータをアップロードするための独自のスクリプトまたはアプリケーションを記述するには、次のツールのいずれかを使用できます。You can use any of the following tools to write your own scripts or applications to upload such data.

Web サーバー ログ データをアップロードする場合、または他の種類のデータ (ソーシャル センチメント データなど) をアップロードする場合には、独自のカスタム スクリプトやカスタム アプリケーションを記述することをお勧めします。For uploading web server log data, and also for uploading other kinds of data (e.g. social sentiments data), it is a good approach to write your own custom scripts/applications because it gives you the flexibility to include your data uploading component as part of your larger big data application. これにより、データをアップロードするコンポーネントをより大規模なビッグ データ アプリケーションの一部として含める柔軟性が得られるためです。In some cases this code may take the form of a script or simple command line utility. このコードは、スクリプトまたは単純なコマンド ライン ユーティリティの形をとる場合もあれば、ビッグ データの処理をビジネス アプリケーションまたはビジネス ソリューションに統合するために使用される場合もあります。In other cases, the code may be used to integrate big data processing into a business application or solution.

Azure HDInsight クラスターに関連付けられたデータData associated with Azure HDInsight clusters

ほとんどの種類の HDInsight クラスター (Hadoop、HBase、Storm) では、データ ストレージ リポジトリとして Data Lake Storage Gen1 がサポートされています。Most HDInsight cluster types (Hadoop, HBase, Storm) support Data Lake Storage Gen1 as a data storage repository. HDInsight クラスターは Azure Storage Blob (WASB) のデータにアクセスします。HDInsight clusters access data from Azure Storage Blobs (WASB). パフォーマンスを向上させるために、クラスターに関連付けられた Data Lake Storage Gen1 アカウントに WASB のデータをコピーできます。For better performance, you can copy the data from WASB into a Data Lake Storage Gen1 account associated with the cluster. データのコピーには次のツールを使用できます。You can use the following tools to copy the data.

オンプレミスまたは IaaS Hadoop クラスターに格納されているデータData stored in on-premises or IaaS Hadoop clusters

大量のデータが既存の Hadoop クラスターの HDFS を使用するコンピューターにローカルに格納されている場合があります。Large amounts of data may be stored in existing Hadoop clusters, locally on machines using HDFS. Hadoop クラスターは、オンプレミスのデプロイ内にある場合も、Azure の IaaS クラスター内にある場合もあります。The Hadoop clusters may be in an on-premises deployment or may be within an IaaS cluster on Azure. このようなデータを 1 回限りまたは定期的に Azure Data Lake Storage Gen1 にコピーする要件が存在します。There could be requirements to copy such data to Azure Data Lake Storage Gen1 for a one-off approach or in a recurring fashion. これを実現するために、さまざまな方法を使用できます。There are various options that you can use to achieve this. 以下の表に、それぞれの方法とそのトレードオフを示します。Below is a list of alternatives and the associated trade-offs.

アプローチApproach 詳細Details 長所Advantages 考慮事項Considerations
Azure Data Factory (ADF) を使用して Hadoop クラスターから Azure Data Lake Storage Gen1 にデータを直接コピーする。Use Azure Data Factory (ADF) to copy data directly from Hadoop clusters to Azure Data Lake Storage Gen1 ADF ではデータ ソースとして HDFS をサポートしている。ADF supports HDFS as a data source ADF では、HDFS が最初からサポートされており、ファースト クラスのエンド ツー エンドの管理と監視が提供される。ADF provides out-of-the-box support for HDFS and first class end-to-end management and monitoring Data Management Gateway をオンプレミスまたは IaaS クラスターにデプロイする必要がある。Requires Data Management Gateway to be deployed on-premises or in the IaaS cluster
Hadoop からデータをファイルとしてエクスポートする。Export data from Hadoop as files. 次に、適切なメカニズムを使用してファイルを Azure Data Lake Storage Gen1 にコピーする。Then copy the files to Azure Data Lake Storage Gen1 using appropriate mechanism. 次のいずれかを使用してファイルを Azure Data Lake Storage Gen1 にコピーできます。You can copy files to Azure Data Lake Storage Gen1 using: 手軽に開始できる。Quick to get started. カスタマイズしたアップロードを行うことができる。Can do customized uploads 複数のテクノロジを含む複数ステップのプロセス。Multi-step process that involves multiple technologies. カスタマイズされたツールという性質上、時間の経過と共に管理と監視が困難になる。Management and monitoring will grow to be a challenge over time given the customized nature of the tools
Distcp を使用して、Hadoop から Azure Storage にデータをコピーする。Use Distcp to copy data from Hadoop to Azure Storage. 次に、適切なメカニズムを使用してデータを Azure Storage から Data Lake Storage Gen1 にコピーする。Then copy data from Azure Storage to Data Lake Storage Gen1 using appropriate mechanism. 次のいずれかを使用してデータを Azure Storage から Data Lake Storage Gen1 にコピーできます。You can copy data from Azure Storage to Data Lake Storage Gen1 using: オープン ソースのツールを使用できる。You can use open-source tools. 複数のテクノロジを含む複数ステップのプロセス。Multi-step process that involves multiple technologies

非常に大規模なデータセットReally large datasets

数 TB に及ぶデータセットをアップロードする場合、上記の方法では速度が遅く、コストがかかることがあります。For uploading datasets that range in several terabytes, using the methods described above can sometimes be slow and costly. このような場合は、次のオプションを使用できます。In such cases, you can use the options below.

  • Azure ExpressRoute の使用Using Azure ExpressRoute. Azure ExpressRoute を使用すると、Azure データ センターとお客様のオンプレミスのインフラストラクチャとの間でプライベート接続を作成できます。Azure ExpressRoute lets you create private connections between Azure datacenters and infrastructure on your premises. これにより、大量のデータを転送するための信頼性の高いオプションが提供されます。This provides a reliable option for transferring large amounts of data. 詳細については、 Azure ExpressRoute のドキュメントをご覧ください。For more information, see Azure ExpressRoute documentation.

  • データの "オフライン" アップロード"Offline" upload of data. 何らかの理由で Azure ExpressRoute が使用できない場合は、 Azure Import/Export サービス を利用して、データが格納されたハード ディスク ドライブを Azure データ センターに発送してください。If using Azure ExpressRoute is not feasible for any reason, you can use Azure Import/Export service to ship hard disk drives with your data to an Azure data center. データはまず Azure Storage BLOB にアップロードされます。Your data is first uploaded to Azure Storage Blobs. その後、Azure Data Factory または AdlCopy ツールを使って、Azure Storage Blob から Data Lake Storage Gen1 にデータをコピーできます。You can then use Azure Data Factory or AdlCopy tool to copy data from Azure Storage Blobs to Data Lake Storage Gen1.

    注意

    Import/Export サービスを利用する場合、Azure データ センターに送るディスク上のファイル サイズは 195 GB 以下である必要があります。While using the Import/Export service, the file sizes on the disks that you ship to Azure data center should not be greater than 195 GB.

Data Lake Storage Gen1 に格納されているデータを処理するProcess data stored in Data Lake Storage Gen1

Data Lake Storage Gen1 でデータが利用できるようになったら、サポートされているビッグ データ アプリケーションを使用して、そのデータの分析を実行できます。Once the data is available in Data Lake Storage Gen1 you can run analysis on that data using the supported big data applications. 現在、Data Lake Storage Gen1 に格納されたデータに対してデータ分析ジョブを実行する場合は、Azure HDInsight と Azure Data Lake Analytics を使用できます。Currently, you can use Azure HDInsight and Azure Data Lake Analytics to run data analysis jobs on the data stored in Data Lake Storage Gen1.

Data Lake Storage Gen1 のデータを分析するAnalyze data in Data Lake Storage Gen1

次の例を参考にしてください。You can look at the following examples.

Data Lake Storage Gen1 からデータをダウンロードするDownload data from Data Lake Storage Gen1

次のようなシナリオでは、Azure Data Lake Storage Gen1 からデータをダウンロードしたり、移動したりすることもできます。You might also want to download or move data from Azure Data Lake Storage Gen1 for scenarios such as:

  • 既存のデータ処理パイプラインとのインターフェイスとなる他のリポジトリにデータを移動する。Move data to other repositories to interface with your existing data processing pipelines. たとえば、Data Lake Storage Gen1 から Azure SQL Database またはオンプレミスの SQL Server にデータを移動できます。For example, you might want to move data from Data Lake Storage Gen1 to Azure SQL Database or on-premises SQL Server.
  • アプリケーション プロトタイプの作成中に IDE 環境で処理するために、ローカル コンピューターにデータをダウンロードする。Download data to your local computer for processing in IDE environments while building application prototypes.

Data Lake Storage Gen1 からデータを出力するEgress data from Data Lake Storage Gen1

このような場合、次のオプションのいずれかを使用できます。In such cases, you can use any of the following options:

次の方法を使用して、Data Lake Storage Gen1 からデータをダウンロードするための独自のスクリプトやアプリケーションを記述することもできます。You can also use the following methods to write your own script/application to download data from Data Lake Storage Gen1.

Data Lake Storage Gen1 のデータを視覚化するVisualize data in Data Lake Storage Gen1

複数のサービスを組み合わせて使用することで、Data Lake Storage Gen1 に格納されたデータを視覚的に表現することができます。You can use a mix of services to create visual representations of data stored in Data Lake Storage Gen1.

Data Lake Storage Gen1 のデータを視覚化するVisualize data in Data Lake Storage Gen1