Azure HDInsight とはWhat is Azure HDInsight?

Azure HDInsight は、マネージドの、全範囲に対応した、クラウド上のオープンソースのエンタープライズ向け分析サービスです。Azure HDInsight is a managed, full-spectrum, open-source analytics service in the cloud for enterprises. Hadoop、Apache Spark、Apache Hive、LLAP、Apache Kafka、Apache Storm、R などのオープンソース フレームワークを使用できます。You can use open-source frameworks such as Hadoop, Apache Spark, Apache Hive, LLAP, Apache Kafka, Apache Storm, R, and more.

HDInsight および Hadoop テクノロジ スタックとはWhat is HDInsight and the Hadoop technology stack?

Azure HDInsight は、Hadoop コンポーネントのクラウド ディストリビューションです。Azure HDInsight is a cloud distribution of Hadoop components. Azure HDInsight によって大量のデータを簡単かつ迅速に高いコスト効率で処理できるようになります。Azure HDInsight makes it easy, fast, and cost-effective to process massive amounts of data. Hadoop、Spark、Hive、LLAP、Kafka、Storm、R など、最もよく使用されているオープンソースのフレームワークを使用することができます。You can use the most popular open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, R, and more. これらのフレームワークにより、抽出/変換/読み込み (ETL)、データ ウェアハウス、機械学習、IoT など、幅広いシナリオに対応できます。With these frameworks, you can enable a broad range of scenarios such as extract, transform, and load (ETL), data warehousing, machine learning, and IoT.

HDInsight で利用可能な Hadoop テクノロジ スタック コンポーネントを確認するには、HDInsight で利用可能なコンポーネントとバージョンに関する記事を参照してください。To see available Hadoop technology stack components on HDInsight, see Components and versions available with HDInsight. HDInsight の Hadoop については、HDInsight 向けの Azure の機能に関するページを参照してください。To read more about Hadoop in HDInsight, see the Azure features page for HDInsight.

ビッグ データとはWhat is big data?

収集されるビッグ データの量は膨れ上がっています。その勢いはしだいに増し、以前よりも形式も多様化しています。Big data is collected in escalating volumes, at higher velocities, and in a greater variety of formats than ever before. ビッグ データの種類には、履歴データ (つまり、保存されたデータ) とリアルタイム データ (つまり、ソースからストリーミングされるデータ) があります。It can be historical (meaning stored) or real time (meaning streamed from the source). ビッグ データの最も一般的な使用例については、「HDInsight を使用するシナリオ」をご覧ください。See Scenarios for using HDInsight to learn about the most common use cases for big data.

どのようなときに Azure HDInsight を使用するかWhy should I use Azure HDInsight?

このセクションでは、Azure HDInsight の一連の機能を紹介します。This section lists the capabilities of Azure HDInsight.

機能Capability 説明Description
クラウド ネイティブCloud native Azure HDInsight を使用すると、Hadoop、Spark、 Interactive query (LLAP)、Kafka、Storm、HBase、ML Services 向けに最適化されたクラスターを Azure 上に作成することができます。Azure HDInsight enables you to create optimized clusters for Hadoop, Spark, Interactive query (LLAP), Kafka, Storm, HBase, and ML Services on Azure. また、HDInsight は、あらゆる運用環境のワークロードについてエンド ツー エンドの SLA を提供します。HDInsight also provides an end-to-end SLA on all your production workloads.
低コストでスケーラブルLow-cost and scalable ワークロードをスケールアップまたはスケールダウンすることができます。HDInsight enables you to scale workloads up or down. クラスターをオンデマンドで作成し、実際に使用する分にのみ支払うことでコストを削減できます。 You can reduce costs by creating clusters on demand and paying only for what you use. データ パイプラインを作成して、必要なジョブを運用化することもできます。You can also build data pipelines to operationalize your jobs. コンピューティングとストレージが分離され、より高いパフォーマンスと柔軟性が実現されています。Decoupled compute and storage provide better performance and flexibility.
セキュリティとコンプライアンスSecure and compliant HDInsight を使用すると、Azure Virtual Network、暗号化、Azure Active Directory との統合によって、企業のデータ資産を保護することができます。HDInsight enables you to protect your enterprise data assets with Azure Virtual Network, encryption, and integration with Azure Active Directory. また HDInsight は、業界や行政上の最も一般的なコンプライアンス基準を満たしています。HDInsight also meets the most popular industry and government compliance standards.
監視Monitoring Azure HDInsight と Azure Monitor ログの統合によって、すべてのクラスターを監視できる一元化されたインターフェイスが得られます。Azure HDInsight integrates with Azure Monitor logs to provide a single interface with which you can monitor all your clusters.
グローバル対応Global availability HDInsight は、他のあらゆるビッグ データ分析サービスより多くのリージョンで提供されています。HDInsight is available in more regions than any other big data analytics offering. Azure HDInsight は、Azure Government、Azure China、Azure Germany でも提供されており、独自の法令が施行されている地域における企業のニーズに応えます。Azure HDInsight is also available in Azure Government, China, and Germany, which allows you to meet your enterprise needs in key sovereign areas.
生産性Productivity Azure HDInsight を使用すると、お好みの開発環境で Hadoop および Spark 向けの豊富な生産性ツールを利用できます。Azure HDInsight enables you to use rich productive tools for Hadoop and Spark with your preferred development environments. これらの開発環境には、Scala、Python、R、Java、.NET に対応した Visual Studio、VS Code、Eclipse、および IntelliJ が含まれます。These development environments include Visual Studio, VSCode, Eclipse, and IntelliJ for Scala, Python, R, Java, and .NET support. データ サイエンティストが、Jupyter や Zeppelin など、広く使われている Notebook を使って共同作業を行うこともできます。Data scientists can also collaborate using popular notebooks such as Jupyter and Zeppelin.
機能拡張Extensibility スクリプト アクションを使ってコンポーネント (Hue、Presto など) をインストールしたり、エッジ ノードを追加したり、定評のある他のビッグ データ アプリケーションと連携したりすることで、HDInsight のクラスターを拡張することができます。You can extend the HDInsight clusters with installed components (Hue, Presto, and so on) by using script actions, by adding edge nodes, or by integrating with other big data certified applications. HDInsight は、特に普及率の高いビッグ データ ソリューションとワンクリック デプロイでシームレスに連携します。HDInsight enables seamless integration with the most popular big data solutions with a one-click deployment.

HDInsight を使用するシナリオScenarios for using HDInsight

Azure HDInsight は、ビッグ データ処理のさまざまなシナリオに対応します。Azure HDInsight can be used for a variety of scenarios in big data processing. ビッグ データは履歴データ (既に収集されて保存されているデータ) である場合もあれば、リアルタイム データ (ソースから直接ストリーミングされるデータ) である場合もあります。It can be historical data (data that's already collected and stored) or real-time data (data that's directly streamed from the source). そのようなデータの処理に関するシナリオは、次のカテゴリに集約することができます。The scenarios for processing such data can be summarized in the following categories:

バッチ処理 (ETL)Batch processing (ETL)

ETL (抽出、変換、読み込み) は、異種データ ソースから非構造化データまたは構造化データを抽出する処理です。Extract, transform, and load (ETL) is a process where unstructured or structured data is extracted from heterogeneous data sources. その後、構造化された形式に変換して、データ ストアに読み込みます。It's then transformed into a structured format and loaded into a data store. 変換後のデータは、データ サイエンスやデータ ウェアハウジングに使用することができます。You can use the transformed data for data science or data warehousing.

データ ウェアハウスData warehousing

HDInsight を使用して、あらゆる形式の構造化データや非構造化データに対話型クエリをペタバイト規模で実行することができます。You can use HDInsight to perform interactive queries at petabyte scales over structured or unstructured data in any format. それらを BI ツールに接続するモデルを作成することもできます。You can also build models connecting them to BI tools. 詳しくは、こちらの顧客事例をご覧ください。For more information, read this customer story.

HDInsight のアーキテクチャ: データ ウェアハウジングHDInsight architecture: Data warehousing

モノのインターネット(IoT)Internet of Things (IoT)

さまざまなデバイスからリアルタイムで受信したストリーミング データを HDInsight で処理することができます。You can use HDInsight to process streaming data that's received in real time from different kinds of devices. 詳細については、Azure マネージド ディスクを使用した HDInsight での Apache Kafka のパブリック プレビューを知らせる Azure のブログ記事を参照してくださいFor more information, read this blog post from Azure that announces the public preview of Apache Kafka on HDInsight with Azure Managed disks.

HDInsight のアーキテクチャ: モノのインターネットHDInsight architecture: Internet of Things

データ サイエンスData science

データから重要な洞察を得るアプリケーションを HDInsight で作成することができます。You can use HDInsight to build applications that extract critical insights from data. また、その基盤の上に Azure Machine Learning を使用して、ビジネスの将来の傾向を予測することもできます。You can also use Azure Machine Learning on top of that to predict future trends for your business. 詳しくは、こちらの顧客事例をご覧ください。For more information, read this customer story.

HDInsight のアーキテクチャ: データ サイエンスHDInsight architecture: Data science

ハイブリッドHybrid

HDInsight を使用して、既にあるオンプレミスのビッグ データ インフラストラクチャを Azure にまで拡張し、そのクラウドの高度な分析機能を活用することができます。You can use HDInsight to extend your existing on-premises big data infrastructure to Azure to leverage the advanced analytics capabilities of the cloud.

HDInsight のアーキテクチャ: ハイブリッドHDInsight architecture: Hybrid

HDInsight でのクラスターの種類Cluster types in HDInsight

HDInsight には、特定のクラスターの種類のほか、コンポーネント、ユーティリティ、および言語を追加する機能などのクラスター カスタマイズ機能が含まれています。HDInsight includes specific cluster types and cluster customization capabilities, such as the capability to add components, utilities, and languages. HDInsight は、次のクラスターの種類を提供します。HDInsight offers the following cluster types:

クラスターの種類Cluster Type 説明Description
Apache HadoopApache Hadoop HDFS、YARN によるリソース管理、およびシンプルな MapReduce プログラミング モデルを使用して、バッチ データを同時に処理および分析するフレームワークです。A framework that uses HDFS, YARN resource management, and a simple MapReduce programming model to process and analyze batch data in parallel.
Apache SparkApache Spark ビッグ データ分析アプリケーションのパフォーマンスを向上させるメモリ内処理をサポートする、オープンソースの並列処理フレームワークです。An open-source, parallel-processing framework that supports in-memory processing to boost the performance of big-data analysis applications. HDInsight での Apache Spark の概要に関する記事を参照してください。See What is Apache Spark in HDInsight?.
Apache HBaseApache HBase Hadoop 上に構築された NoSQL データベースです。数十億行 x 数百万列に達する可能性のある大量の非構造化データや半構造化データへのランダム アクセスと厳密な整合性を実現します。A NoSQL database built on Hadoop that provides random access and strong consistency for large amounts of unstructured and semi-structured data--potentially billions of rows times millions of columns. HDInsight での HBase の概要に関する記事を参照してください。See What is HBase on HDInsight?
ML サービスML Services 並列分散 R プロセスをホストおよび管理するためのサーバーです。A server for hosting and managing parallel, distributed R processes. データ サイエンティスト、統計学者、R プログラマーは、HDInsight でのスケーラブルで分散型の分析手法にオンデマンドでアクセスできるようになります。It provides data scientists, statisticians, and R programmers with on-demand access to scalable, distributed methods of analytics on HDInsight. HDInsight の ML サービスの概要に関するページを参照してください。See Overview of ML Services on HDInsight.
Apache StormApache Storm 大量のデータ ストリームを高速処理するための分散型リアルタイム計算システムです。A distributed, real-time computation system for processing large streams of data fast. Storm は、HDInsight で管理されるクラスターとして提供されます。Storm is offered as a managed cluster in HDInsight. HDInsight (Hadoop) での Storm と HBase を使ったセンサー データの分析」を参照してください。See Analyze real-time sensor data using Storm and Hadoop.
Apache 対話型クエリApache Interactive Query 対話型で高速な Hive クエリのメモリ内キャッシュです。In-memory caching for interactive and faster Hive queries. HDInsight での対話型クエリの使用に関する記事を参照してください。See Use Interactive Query in HDInsight.
Apache KafkaApache Kafka ストリーミング データ パイプラインおよびアプリケーションを構築するために使用されるオープンソースのプラットフォームです。An open-source platform that's used for building streaming data pipelines and applications. Kafka には、データ ストリームの発行とサブスクライブを可能にするメッセージ キュー機能も用意されています。Kafka also provides message-queue functionality that allows you to publish and subscribe to data streams. HDInsight での Apache Kafka の概要」を参照してください。See Introduction to Apache Kafka on HDInsight.

HDInsight のオープンソース コンポーネントOpen-source components in HDInsight

Azure HDInsight では、Hadoop、Spark、Hive、LLAP、Kafka、Storm、HBase、R をはじめとするオープンソースのフレームワークを使ってクラスターを作成できます。これらのクラスターには、Apache Ambari5、Avro5、Apache Hive3、HCatalog2、Apache Mahout2、Apache Hadoop MapReduce3、Apache Hadoop YARN2、Apache Phoenix3、Apache Pig3、Apache Sqoop3、Apache Tez3、Apache Oozie2、Apache ZooKeeper5 など、各クラスターに備わっている他のオープンソース コンポーネントが最初から付属しています。Azure HDInsight enables you to create clusters with open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase, and R. These clusters, by default, come with other open-source components that are included on the cluster such as Apache Ambari5, Avro5, Apache Hive3, HCatalog2, Apache Mahout2, Apache Hadoop MapReduce3, Apache Hadoop YARN2, Apache Phoenix3, Apache Pig3, Apache Sqoop3, Apache Tez3, Apache Oozie2, and Apache ZooKeeper5.

HDInsight のプログラミング言語Programming languages in HDInsight

HDInsight クラスター (Spark、HBase、Kafka、Hadoopなど) は多数のプログラミング言語をサポートします。HDInsight clusters, including Spark, HBase, Kafka, Hadoop, and others, support many programming languages. 既定でインストールされないプログラミング言語があります。Some programming languages aren't installed by default. 既定でインストールされないライブラリ、モジュール、またはパッケージは、スクリプト アクションを使用してコンポーネントをインストールします。For libraries, modules, or packages that aren't installed by default, use a script action to install the component.

プログラミング言語Programming language InformationInformation
既定のプログラミング言語のサポートDefault programming language support 既定では、HDInsight クラスターは以下をサポートします。By default, HDInsight clusters support:
  • JavaJava
  • PythonPython
  • .NET.NET
  • GoGo
Java 仮想マシン (JVM) 言語Java virtual machine (JVM) languages Java 以外の多くの言語を Java 仮想マシン (JVM) で実行できます。Many languages other than Java can run on a Java virtual machine (JVM). ただし、これらの言語の一部を実行する場合は、クラスターへの追加コンポーネントのインストールが必要な場合があります。However, if you run some of these languages, you might have to install additional components on the cluster. 次の JVM ベースの言語が HDInsight クラスターでサポートされます。The following JVM-based languages are supported on HDInsight clusters:
  • ClojureClojure
  • Jython (Java 用の Python)Jython (Python for Java)
  • ScalaScala
Hadoop 固有言語Hadoop-specific languages HDInsight クラスターでは、Hadoop テクノロジ スタックに固有の次の言語をサポートしています。HDInsight clusters support the following languages that are specific to the Hadoop technology stack:
  • Pig ジョブ用の Pig LatinPig Latin for Pig jobs
  • Hive ジョブ用の HiveQL と SparkSQLHiveQL for Hive jobs and SparkSQL

HDInsight 用の開発ツールDevelopment tools for HDInsight

HDInsight のデータ クエリやジョブは、Azure とシームレスに統合された HDInsight の開発ツール (IntelliJ、Eclipse、Visual Studio Code、Visual Studio) を使用して作成、送信することができます。You can use HDInsight development tools, including IntelliJ, Eclipse, Visual Studio Code, and Visual Studio, to author and submit HDInsight data query and job with seamless integration with Azure.

  • Azure Toolkit for IntelliJ10Azure toolkit for IntelliJ10
  • Azure Toolkit for Eclipse6Azure toolkit for Eclipse6
  • Azure HDInsight Tools for VS Code13Azure HDInsight tools for VS Code13
  • Azure Data Lake Tools for Visual Studio9Azure data lake tools for Visual Studio9

HDInsight のビジネス インテリジェンスBusiness intelligence on HDInsight

Power Query アドインまたは Microsoft Hive ODBC ドライバーを使用すれば、使い慣れたビジネス インテリジェンス (BI) ツールを HDInsight と連携して、データの取得、分析、レポート生成を行うことができます。Familiar business intelligence (BI) tools retrieve, analyze, and report data that is integrated with HDInsight by using either the Power Query add-in or the Microsoft Hive ODBC Driver:

リージョンのデータ所在地In-region data residency

Spark、Hadoop、LLAP、Storm、MLService には顧客データは格納されないため、これらのサービスでは、トラスト センターで指定されているものも含めて、リージョンのデータ所在地の要件が自動的に満たされます。Spark, Hadoop, LLAP, Storm, and MLService do not store customer data, so these services automatically satisfy in-region data residency requirements including those specified in the Trust Center.

Kafka と HBase は顧客データを格納します。Kafka and HBase do store customer data. このデータは、Kafka および HBase によって 1 つのリージョンに自動的に格納されるため、このサービスは、トラスト センターで指定されているものも含めて、リージョンのデータ所在地の要件を満たします。This data is automatically stored by Kafka and HBase in a single region, so this service satisfies in-region data residency requirements including those specified in the Trust Center.

Power Query アドインまたは Microsoft Hive ODBC ドライバーを使用すれば、使い慣れたビジネス インテリジェンス (BI) ツールを HDInsight と連携して、データの取得、分析、レポート生成を行うことができます。Familiar business intelligence (BI) tools retrieve, analyze, and report data that is integrated with HDInsight by using either the Power Query add-in or the Microsoft Hive ODBC Driver.

次のステップNext steps