データアプリケーションを Azure Databricks に移行する

[アーティクル]
04/25/2024

この記事では、既存のデータアプリケーションを Azure Databricks に移行する方法の概要を示します。 Azure Databricks では、単一のプラットフォーム上の多くのソースシステムからのデータを操作できる統一アプローチが提供されます。

プラットフォーム機能の概要については、「Azure Databricks とは」を参照してください。

Databricks Runtime バージョン間の移行の詳細については、「Databricks Runtime の移行ガイド」を参照してください。

ETL ジョブを Azure Databricks に移行する

オンプレミスまたはクラウドネイティブの実装からデータを抽出、変換、読み込むのに使用される Apache Spark ジョブを、わずかな手順で Azure Databricks に移行できます。「Azure Databricks 用に既存の Apache Spark コードを調整する」を参照してください。

Azure Databricks では、事前に構成されたオープンソース統合、パートナー統合、エンタープライズ製品オファリングを使用して Spark SQL の機能を拡張します。 ETL ワークロードが SQL または Hive で記述されている場合は、最小限のリファクタリングで Azure Databricks に移行できます。 Azure Databricks SQL オファリングの詳細については、以下を参照してください。

さまざまなソースシステムから Azure Databricks への移行に関する具体的な手順については、「ETL パイプラインを Azure Databricks に移行する」を参照してください。

エンタープライズデータウェアハウスをレイクハウスに置き換える

Azure Databricks では、ワークロードがレイクハウスに格納されているデータに合わせて調整されるときに、最適な値とパフォーマンスが提供されます。多くのエンタープライズデータスタックには、データレイクとエンタープライズデータウェアハウスの両方が含まれており、組織は複雑な ETL ワークフローを作成して、これらのシステムとデータの同期を維持しようとします。レイクハウスを使用すると、通常は別のデータウェアハウスに依存するクエリとシステム間で、データレイクに格納されているのと同じデータを使用できます。レイクハウスについて詳しくは、「データレイクハウスとは」を参照してください。 Databricks のデータウェアハウスの詳細については、Azure Databricks のデータウェアハウスに関するページを参照してください。

エンタープライズデータウェアハウスからレイクハウスへの移行では、通常、データアーキテクチャとワークフローの複雑さを軽減する必要がありますが、この作業を完了するときに留意すべき注意事項とベストプラクティスがいくつかあります。「データウェアハウスを Databricks レイクハウスに移行する」を参照してください。

ML、データサイエンス、分析のワークロードを統合する

レイクハウスでは、テーブルクエリまたはファイルパスを介してクラウドベースのデータファイルへの最適化されたアクセスが提供されるため、データの単一のコピーで ML、データサイエンス、分析を行うことができます。 Azure Databricks を使用すると、ワークロードをオープンソースと独自のツールの両方から簡単に移動でき、アナリストやデータサイエンティストが使用する多くのオープンソースライブラリの更新バージョンが維持されます。

Jupyter ノートブックの Pandas ワークロードは、Databricks Git フォルダーを使用して同期および実行できます。 Azure Databricks では、すべての Databricks Runtime バージョンで Pandas のネイティブサポートが提供され、Machine Learning 用の Databricks Runtime で多くの一般的な ML およびディープラーニングライブラリが構成されます。 Git および Git フォルダーのワークスペースファイルを使用してローカルワークロードを同期する場合は、ローカル環境に存在するデータライブラリとカスタムライブラリに同じ相対パスを使用できます。

Note

既定では、Azure Databricks により Databricks Git フォルダーと同期された Jupyter ノートブックの .ipynb 拡張子が維持されますが、UI を使用してインポートした場合は、Jupyter ノートブックが Databricks ノートブックに自動的に変換されます。 Databricks ノートブックは .py 拡張子付きで保存されるため、Git リポジトリに Jupyter ノートブックと並行して存在できます。

データ アプリケーションを Azure Databricks に移行する

ETL ジョブを Azure Databricks に移行する

エンタープライズ データ ウェアハウスをレイクハウスに置き換える

ML、データ サイエンス、分析のワークロードを統合する

その他のリソース

データアプリケーションを Azure Databricks に移行する

エンタープライズデータウェアハウスをレイクハウスに置き換える

ML、データサイエンス、分析のワークロードを統合する