編集長より - 「ビッグ」になるしかない

Michael Desmond | January 2016

Michael Desmond ビッグデータビジネスは急速に拡大を続け、その結果、開発者の作業も大幅に増加しています。調査会社 Wikibon による市場予測では、ビッグデータのテクノロジとサービスへの投資額は、2014 年には 273 億 6,000 ドルだったのが、2018 年には 492 億 8,000 万ドルに達するとされています。

当然、マイクロソフトは、ビッグデータのシナリオに取り組む開発者を支援しています。2015 年 4 月、サンフランシスコで開催された BUILD カンファレンスでマイクロソフトは、Azure SQL Data Warehouse、Azure Data Lake、Azure SQL Database のエラスティックデータベースなどのサービスを発表しましたが、2016 年になり、これらの活動が実を結ぼうとしています。そのため、今月号の MSDN マガジンではビッグデータテクノロジとビッグデータ開発を特集します。

「ビッグデータのバッチ分析を容易にする U-SQL」では、SQL と C# のセマンティクスを兼ね備えた新しい言語 U-SQL について Michael Rys が解説しています。また、「HDInsight を使用した .NET 開発者向けリアルタイムデータ分析」では、データの連続ストリームをリアルタイムで収集、分析、操作する方法を、Omid Afnan が紹介しています。特集コラムの最後「Azure Data Lake と Azure Data Factory を使用したビッグデータのパイプラインの作成」では、Web のログデータを Azure Data Lake Store に移動するために Azure Data Factory を使用してビッグデータパイプラインをビルドし、その後、移動したデータを Azure Data Lake Analytics サービスで U-SQL を使用して処理する方法を Gaurav Malhotra が取り上げています。

なぜ今ビッグデータなのか。Afnan が触れているように、2015 年はマイクロソフトにとってビッグデータの 1 年でした。

「マイクロソフト社内でのビッグデータのシナリオが数エクサバイト規模に拡大しているだけでなく、当社は Azure の新機能を多数リリースしています。HDInsight を強化し、Azure Data Lake をリリースすることで、開発者がビッグデータを実に簡単に扱えるようにしました。Azure Data Lake Analytics と Azure Data Lake Store は、分散コンピューティングクラスターとその基盤となる MapReduce アーキテクチャの複雑さを抽象化して、開発者がビジネスレベルでのクエリや集計に専念できるようにします」

また、Azure Data Lake と HDInsight のコーディングとデバッグを最適に行えるように、最近 Visual Studio のツールを強化したことにも触れています。さらに、Afnan は、開発者が依然としてある課題に直面しているといいます。ビッグデータの「3 つの V」、つまり Velocity (速度)、Variety (多様性)、Volume (量) と、この分野で使用される複数段階の分散処理モデルで、学習曲線が急激に上昇すると指摘しています。

「まずは、関心のあるデータに手を加えずそのままビッグデータストアに収集したら、データセットを探索し、そこから洞察を得て、最終的にはこのプロセスを運用可能にするのが理想的です。立ち上がりの時間を短くするには、管理すべきものの数を減らします。悪戦苦闘の末に諦めるという事態にならないように、ジョブを抽象化するビッグデータプラットフォームの採用がお勧めです」

マイクロソフトは、ビッグデータに取り組む開発者を支援するために、新機能の公開と合理化の両面を担うツールとプラットフォームを提供します。Afnan によれば、この中にはたとえば「個々のノード/頂点の障害の複雑なデバッグシナリオ、データスキュー問題の調査、同一スクリプトの複数実行の分析」のための新しい開発者向けツールがあるといいます。

.ビッグデータの分野には多くの期待が寄せられています。これから長期にわたって、MSDN マガジンでもビッグデータについての記事をたくさん掲載する予定です。

Michael Desmond は MSDN マガジンの編集長です。

編集長より - 「ビッグ」になるしかない

その他のリソース