January 2016

Volume 31 Number 1

編集長より - 「ビッグ」になるしかない

Michael Desmond | January 2016

Michael Desmondビッグ データ ビジネスは急速に拡大を続け、その結果、開発者の作業も大幅に増加しています。調査会社 Wikibon による市場予測では、ビッグ データのテクノロジとサービスへの投資額は、2014 年には 273 億 6,000 ドルだったのが、2018 年には 492 億 8,000 万ドルに達するとされています。

当然、マイクロソフトは、ビッグ データのシナリオに取り組む開発者を支援しています。2015 年 4 月、サンフランシスコで開催された BUILD カンファレンスでマイクロソフトは、Azure SQL Data Warehouse、Azure Data Lake、Azure SQL Database のエラスティック データベースなどのサービスを発表しましたが、2016 年になり、これらの活動が実を結ぼうとしています。そのため、今月号の MSDN マガジンではビッグ データ テクノロジとビッグ データ開発を特集します。

ビッグ データのバッチ分析を容易にする U-SQL」では、SQL と C# のセマンティクスを兼ね備えた新しい言語 U-SQL について Michael Rys が解説しています。また、「HDInsight を使用した .NET 開発者向けリアルタイム データ分析」では、データの連続ストリームをリアルタイムで収集、分析、操作する方法を、Omid Afnan が紹介しています。特集コラムの最後「Azure Data Lake と Azure Data Factory を使用したビッグ データのパイプラインの作成」では、Web のログ データを Azure Data Lake Store に移動するために Azure Data Factory を使用してビッグ データ パイプラインをビルドし、その後、移動したデータを Azure Data Lake Analytics サービスで U-SQL を使用して処理する方法を Gaurav Malhotra が取り上げています。

なぜ今ビッグ データなのか。Afnan が触れているように、2015 年はマイクロソフトにとってビッグ データの 1 年でした。

「マイクロソフト社内でのビッグ データのシナリオが数エクサバイト規模に拡大しているだけでなく、当社は Azure の新機能を多数リリースしています。HDInsight を強化し、Azure Data Lake をリリースすることで、開発者がビッグ データを実に簡単に扱えるようにしました。Azure Data Lake Analytics と Azure Data Lake Store は、分散コンピューティング クラスターとその基盤となる MapReduce アーキテクチャの複雑さを抽象化して、開発者がビジネス レベルでのクエリや集計に専念できるようにします」

また、Azure Data Lake と HDInsight のコーディングとデバッグを最適に行えるように、最近 Visual Studio のツールを強化したことにも触れています。さらに、Afnan は、開発者が依然としてある課題に直面しているといいます。ビッグ データの「3 つの V」、つまり Velocity (速度)、Variety (多様性)、Volume (量) と、この分野で使用される複数段階の分散処理モデルで、学習曲線が急激に上昇すると指摘しています。

「まずは、関心のあるデータに手を加えずそのままビッグ データ ストアに収集したら、データセットを探索し、そこから洞察を得て、最終的にはこのプロセスを運用可能にするのが理想的です。立ち上がりの時間を短くするには、管理すべきものの数を減らします。悪戦苦闘の末に諦めるという事態にならないように、ジョブを抽象化するビッグ データ プラットフォームの採用がお勧めです」

マイクロソフトは、ビッグ データに取り組む開発者を支援するために、新機能の公開と合理化の両面を担うツールとプラットフォームを提供します。Afnan によれば、この中にはたとえば「個々のノード/頂点の障害の複雑なデバッグ シナリオ、データ スキュー問題の調査、同一スクリプトの複数実行の分析」のための新しい開発者向けツールがあるといいます。

.ビッグ データの分野には多くの期待が寄せられています。これから長期にわたって、MSDN マガジンでもビッグ データについての記事をたくさん掲載する予定です。


Michael Desmond は MSDN マガジンの編集長です。