Azure Databricks で Python プロセスを再起動する

Azure Databricks で Python プロセスをプログラムで再起動して、ローカルにインストールまたはアップグレードされたライブラリが現在の SparkSession の Python カーネルで正しく機能することを確認できます。

Python プロセスを再起動すると、Python の状態情報が失われます。 Databricks では、先に進む前に、ノートブックの先頭にすべてのセッション スコープ ライブラリをインストールし、dbutils.library.restartPython() を実行して Python プロセスをクリーンすることをお勧めします。

このプロセスは、対話型ノートブックまたはワークフローでスケジュールされた Python タスクで使用できます。

dbutils.library.restartPython の概要

ヘルパー関数 dbutils.library.restartPython() は、Databricks ノートブックで Python プロセスを再起動するための推奨される方法です。

注意

dbutils.library サブモジュールのほとんどの関数は非推奨です。 Databricks では、%pip を使用してすべてのノートブック スコープライブラリのインストールを管理することを強くお勧めします。 「ノートブック スコープの Python ライブラリ」を参照してください。

Python プロセスを再起動する必要があるのはいつですか?

次のいずれかを含むローカル インストールを実行するたびに、Python プロセスを再起動することをお勧めします:

  • Databricks Runtime に含まれるパッケージのバージョンを指定する。
  • Databricks Runtime に含まれるパッケージのカスタム バージョンのインストール。
  • %pip install <library-name> --upgrade を使用してライブラリを最新バージョンに明示的に更新する。
  • ローカル requirements.txt ファイルからのカスタム環境の構成。
  • Databricks Runtime に含まれる依存ライブラリのバージョンを変更する必要があるライブラリのインストール。