Azure Databricks とはWhat is Azure Databricks?

Azure Databricks は、Microsoft Azure クラウド サービス プラットフォームに最適化された Apache Spark ベースの分析プラットフォームです。Azure Databricks is an Apache Spark-based analytics platform optimized for the Microsoft Azure cloud services platform. Apache Spark の創始者たちと共に設計され、Azure に統合された Databricks では、ワンクリックでのセットアップと効率的なワークフローのほか、データ サイエンティスト、データ エンジニア、ビジネス アナリストが共同作業できるインタラクティブなワークスペースが実現されています。Designed with the founders of Apache Spark, Databricks is integrated with Azure to provide one-click setup, streamlined workflows, and an interactive workspace that enables collaboration between data scientists, data engineers, and business analysts.

Azure Databricks とはWhat is Azure Databricks?

Azure Databricks は、高速で使いやすい、コラボレーション対応の Apache Spark ベースの分析サービスです。Azure Databricks is a fast, easy, and collaborative Apache Spark-based analytics service. ビッグ データ パイプラインに使用されるデータ (生データまたは構造化データ) は、Azure Data Factory を介して一連のバッチに分けて Azure に取り込まれるか、Kafka、Event Hubs、IoT Hub を使ってほぼリアルタイムでストリーム配信されます。For a big data pipeline, the data (raw or structured) is ingested into Azure through Azure Data Factory in batches, or streamed near real-time using Kafka, Event Hub, or IoT Hub. このデータは、長期永続保管を目的としたデータ レイク (Azure Blob Storage または Azure Data Lake Storage) に到達します。This data lands in a data lake for long term persisted storage, in Azure Blob Storage or Azure Data Lake Storage. Azure Databricks は、分析ワークフローの過程で使います。Azure Blob StorageAzure Data Lake StorageAzure Cosmos DBAzure SQL Data Warehouse などさまざまなデータ ソースから、Azure Databricks を使ってデータを読み取り、そのデータを Spark で変換することによって重要な分析情報が得られます。As part of your analytics workflow, use Azure Databricks to read data from multiple data sources such as Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB, or Azure SQL Data Warehouse and turn it into breakthrough insights using Spark.

Databricks のパイプライン

Apache Spark ベースの分析プラットフォームApache Spark-based analytics platform

Azure Databricks は、完全なオープン ソースの Apache Spark クラスター テクノロジと機能から構成されています。Azure Databricks comprises the complete open-source Apache Spark cluster technologies and capabilities. Azure Databricks の Spark には、次のコンポーネントが含まれています。Spark in Azure Databricks includes the following components:

Azure Databricks における Apache SparkApache Spark in Azure Databricks

  • Spark SQL と DataFrame: Spark SQL は構造化データを処理するための Spark モジュールです。Spark SQL and DataFrames: Spark SQL is the Spark module for working with structured data. DataFrame は、名前付きの列に編成されたデータの分散型コレクションです。A DataFrame is a distributed collection of data organized into named columns. 概念的には、リレーショナル データベースのテーブルまたは R/Python のデータ フレームと同等のものです。It is conceptually equivalent to a table in a relational database or a data frame in R/Python.

  • Streaming: 分析アプリケーションおよび対話型アプリケーションのためのリアルタイムのデータ処理と分析です。Streaming: Real-time data processing and analysis for analytical and interactive applications. HDFS、Flume、Kafka と統合されています。Integrates with HDFS, Flume, and Kafka.

  • MLib: 分類、回帰、クラスタリング、協調フィルタリング、次元縮小、基になっている最適化プリミティブなど、一般的な学習アルゴリズムとユーティリティで構成された Machine Learning ライブラリです。MLib: Machine Learning library consisting of common learning algorithms and utilities, including classification, regression, clustering, collaborative filtering, dimensionality reduction, as well as underlying optimization primitives.

  • GraphX: 認知分析からデータ探索まで、さまざまなユース ケースを対象とするグラフおよびグラフ計算です。GraphX: Graphs and graph computation for a broad scope of use cases from cognitive analytics to data exploration.

  • Spark Core API: R、SQL、Python、Scala、Java のサポートが含まれます。Spark Core API: Includes support for R, SQL, Python, Scala, and Java.

Azure Databricks における Apache SparkApache Spark in Azure Databricks

Azure Databricks は、次のようなゼロ管理クラウド プラットフォームを提供することによって Spark の機能を基に構築されています。Azure Databricks builds on the capabilities of Spark by providing a zero-management cloud platform that includes:

  • フル マネージドの Spark クラスターFully managed Spark clusters
  • 探索および視覚化のための対話型ワークスペースAn interactive workspace for exploration and visualization
  • 任意の Spark ベース アプリケーションを強化するプラットフォームA platform for powering your favorite Spark-based applications

クラウド内のフル マネージドの Apache Spark クラスターFully managed Apache Spark clusters in the cloud

Azure Databricks は、安全で信頼性の高い運用環境をクラウド内に持っており、Spark エキスパートによって管理およびサポートされています。Azure Databricks has a secure and reliable production environment in the cloud, managed and supported by Spark experts. 次のようにすることができます。You can:

  • 秒単位でクラスターを作成できます。Create clusters in seconds.
  • クラスターを動的かつ自動的にスケールアップおよびスケールダウンでき (サーバーレス クラスターなど)、チーム間で共有できます。Dynamically autoscale clusters up and down, including serverless clusters, and share them across teams.
  • REST API を使ってプログラムからクラスターを使うことができます。Use clusters programmatically by using the REST APIs.
  • Spark 上に構築されたセキュリティ保護されたデータ統合機能を使って、集中化しないでデータを統合できます。Use secure data integration capabilities built on top of Spark that enable you to unify your data without centralization.
  • リリースごとに最新の Apache Spark 機能にすぐにアクセスできます。Get instant access to the latest Apache Spark features with each release.

Databricks ランタイムDatabricks Runtime

Databricks ランタイムは、Apache Spark を基盤として、Azure クラウドにネイティブに対応するように構築されています。The Databricks Runtime is built on top of Apache Spark and is natively built for the Azure cloud.

サーバーなしオプションを使うと、Azure Databricks は、インフラストラクチャの複雑さと、データ インフラストラクチャをセットアップして構成するための専門知識の必要性を、完全に抽象化します。With the Serverless option, Azure Databricks completely abstracts out the infrastructure complexity and the need for specialized expertise to set up and configure your data infrastructure. サーバーなしオプションは、データ サイエンティストがチームとして簡単に反復作業するのに役立ちます。The Serverless option helps data scientists iterate quickly as a team.

運用ジョブのパフォーマンスに気を掛けるデータ エンジニアに対しては、Azure Databricks は、I/O レイヤーと処理レイヤー (Databricks I/O) でのさまざまな最適化によって、高速で高性能な Spark エンジンを提供します。For data engineers, who care about the performance of production jobs, Azure Databricks provides a Spark engine that is faster and performant through various optimizations at the I/O layer and processing layer (Databricks I/O).

コラボレーションのためのワークスペースWorkspace for collaboration

コラボレーション対応で統合された環境により、Azure Databricks は、Spark でのデータ探査、プロトタイプ作成、およびデータ ドリブン アプリケーション実行のプロセスを簡単にします。Through a collaborative and integrated environment, Azure Databricks streamlines the process of exploring data, prototyping, and running data-driven applications in Spark.

  • 簡単なデータ探索でデータの使用方法を決定します。Determine how to use data with easy data exploration.
  • R、Python、Scala、または SQL のノートブックで進行状況を文書化します。Document your progress in notebooks in R, Python, Scala, or SQL.
  • 数回のクリックでデータを視覚化でき、Matplotlib、ggplot、d3 などの使い慣れたツールを使うことができます。Visualize data in a few clicks, and use familiar tools like Matplotlib, ggplot, or d3.
  • 対話型ダッシュボードを使って、動的なレポートを作成できます。Use interactive dashboards to create dynamic reports.
  • Spark を使い、データを同時に操作できます。Use Spark and interact with the data simultaneously.

エンタープライズ セキュリティEnterprise security

Azure Active Directory の統合、ロール ベースの制御、データとビジネスを保護する SLA など、Azure Databricks はエンタープライズ レベルの Azure セキュリティを提供します。Azure Databricks provides enterprise-grade Azure security, including Azure Active Directory integration, role-based controls, and SLAs that protect your data and your business.

  • Azure Active Directory との統合により、Azure Databricks を使って Azure ベースの完全なソリューションを実行することができます。Integration with Azure Active Directory enables you to run complete Azure-based solutions using Azure Databricks.
  • Azure Databricks のロール ベースのアクセスでは、ノートブック、クラスター、ジョブ、およびデータに対してきめ細かいユーザー権限を設定できます。Azure Databricks roles-based access enables fine-grained user permissions for notebooks, clusters, jobs, and data.
  • エンタープライズ グレードの SLA です。Enterprise-grade SLAs.

Azure サービスとの統合Integration with Azure services

Azure Databricks は、SQL Data Warehouse、Cosmos DB、Data Lake Store、Blob Storage などの Azure のデータベースおよびストアと深いレベルで統合します。Azure Databricks integrates deeply with Azure databases and stores: SQL Data Warehouse, Cosmos DB, Data Lake Store, and Blob Storage.

Power BI との統合Integration with Power BI

Power BI とのリッチな統合により、Azure Databricks は大きな影響を与えるインサイトを迅速かつ簡単に検出して共有することができます。Through rich integration with Power BI, Azure Databricks allows you to discover and share your impactful insights quickly and easily. JDBC/ODBC クラスター エンドポイントを介して Tableau Software などの他の BI ツールを使うこともできます。You can use other BI tools as well, such as Tableau Software via JDBC/ODBC cluster endpoints.

次の手順Next steps