Databricks Connect for Python で JupyterLab を使用する
Note
この記事では、Databricks Runtime 13.0 以降用の Databricks Connect について説明します。
この記事では、Databricks Connect for Python と JupyterLab を使用する方法について説明します。 Databricks Connect を使うと、一般的なノートブック サーバー、IDE、その他のカスタム アプリケーションを Azure Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。
Note
Databricks Connect の使用を開始する前に、Databricks Connect クライアントを設定する必要があります。
JupyterLab と Python で Databricks Connect を使用するには、次の手順に従います。
JupyterLab をインストールするには、Python 仮想環境がアクティブな状態で、ターミナルまたはコマンド プロンプトから次のコマンドを実行します。
pip3 install jupyterlab
Web ブラウザーで JupyterLab を起動するには、アクティブな Python 仮想環境から次のコマンドを実行します。
jupyter lab
JupyterLab が Web ブラウザーに表示されない場合は、
localhost
または127.0.0.1
で始まる URL を仮想環境からコピーし、Web ブラウザーのアドレス バーに入力します。JupyterLab で、メインメニューの [File]>[New]>[Notebook] をクリックし、[Python 3 (ipykernel)] を選択し、[Select] をクリックして新しいノートブックを作成します。
ノートブックの最初のセルに、コード例または独自のコードを入力します。 独自のコードを使用する場合は、コード例に示すように、少なくとも
DatabricksSession
をインスタンス化する必要があります。ノートブックを実行するには、[実行] > [すべてのセルを実行] をクリックします。 すべてのコードはローカル環境で実行されますが、DataFrame 操作を含むコードはすべて、リモートの Azure Databricks ワークスペース内のクラスターで実行され、実行の応答がローカル環境の呼び出し元に返送されます。
ノートブックをデバッグするには、ノートブックのツール バーの [Python 3 (ipykernel)] の横にあるバグ (デバッガーを有効にする) アイコンをクリックします。 1 つ以上のブレークポイントを設定し、[実行] > [すべてのセルを実行] をクリックします。 すべてのコードはローカル環境でデバッグされますが、Spark のすべてのコードはリモートの Azure Databricks ワークスペース内のクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。
JupyterLab をシャットダウンするには、[ファイル] > [シャットダウン] をクリックします。 JupyterLab プロセスがターミナルまたはコマンド プロンプトで引き続き実行されている場合は、
Ctrl + c
を押してから、y
を入力して確定してこのプロセスを停止します。
具体的なデバッグ手順については、「Debugger」 (デバッガー) を参照してください。