Azure Databricks における Apache Spark

この記事では、Apache Spark がどのように Azure Databricks と Databricks Data Intelligence プラットフォームに関連しているかについて説明します。

Apache Spark は Azure Databricks プラットフォームの中核をなし、コンピューティング クラスターと SQL ウェアハウスの動力となるテクノロジです。 Azure Databricks は Apache Spark 用に最適化されたプラットフォームであり、Apache Spark ワークロードを実行するための効率的でシンプルなプラットフォームです。

Apache Spark と Azure Databricks はどのような関係ですか?

Databricks 社は、Apache Spark の創業者によって設立されました。 オープン ソースのソフトウェア プロジェクトである Apache Spark には、Databricks をはじめとする多くの大手企業のコミッターが含まれています。

Databricks では、Apache Spark 向けの機能の開発とリリースを続けています。 Databricks Runtime には追加の最適化と独自の機能が含まれています。これは、Apache Spark を基に構築および拡張されたものであり、C++ で書き換えられた Apache Spark の最適化バージョンである Photon が含まれます。

Apache Spark は Azure Databricks でどのように動作しますか?

Azure Databricks にコンピューティング クラスターまたは SQL ウェアハウスをデプロイすると、Apache Spark が構成され、仮想マシンにデプロイされます。 Spark コンテキストや Spark セッションは、Azure Databricks によって管理されるため、構成したり初期化したりする必要はありません。

Apache Spark を使用せずに Azure Databricks を使用できますか?

Azure Databricks ではさまざまなワークロードがサポートされ、Databricks Runtime には多数のオープンソース ライブラリが含まれています。 Databricks SQL では内部で Apache Spark を使用しますが、エンド ユーザーは標準の SQL 構文を使用してデータベース オブジェクトを作成し、クエリを実行します。

Databricks Runtime for Machine Learning は ML ワークロード用に最適化されていて、多くのデータ サイエンティストは、Azure Databricks で作業しているときに TensorFlow や SciKit Learn などの主要なオープンソース ライブラリを使用します。 ワークフローを使用すると、Azure Databricks によってデプロイおよび管理されているコンピューティング リソースに対して任意のワークロードをスケジュールできます。

Azure Databricks で Apache Spark を使用する理由は何ですか?

Databricks プラットフォームでは、ビジネスに合わせて拡張されるエンタープライズ ソリューションを開発およびデプロイするための、安全でコラボレーションに対応した環境を提供しています。 Databricks の従業員には、世界で最も知識豊富な Apache Spark 保守担当者とユーザーが多く含まれています。 同社は、ユーザーが Apache Spark を実行するための最速の環境にアクセスできるように、新しい最適化を継続的に開発およびリリースしています。