Share via


Databricks Connect for Python で JupyterLab を使用する

Note

この記事では、Databricks Runtime 13.0 以降用の Databricks Connect について説明します。

この記事では、Databricks Connect for Python と JupyterLab を使用する方法について説明します。 Databricks Connect を使うと、一般的なノートブック サーバー、IDE、その他のカスタム アプリケーションを Azure Databricks クラスターに接続できます。 「Databricks Connect とは」を参照してください。

Note

Databricks Connect の使用を開始する前に、Databricks Connect クライアントを設定する必要があります。

JupyterLab と Python で Databricks Connect を使用するには、次の手順に従います。

  1. JupyterLab をインストールするには、Python 仮想環境がアクティブな状態で、ターミナルまたはコマンド プロンプトから次のコマンドを実行します。

    pip3 install jupyterlab
    
  2. Web ブラウザーで JupyterLab を起動するには、アクティブな Python 仮想環境から次のコマンドを実行します。

    jupyter lab
    

    JupyterLab が Web ブラウザーに表示されない場合は、localhost または 127.0.0.1 で始まる URL を仮想環境からコピーし、Web ブラウザーのアドレス バーに入力します。

  3. JupyterLab で、メインメニューの [File]>[New]>[Notebook] をクリックし、[Python 3 (ipykernel)] を選択し、[Select] をクリックして新しいノートブックを作成します。

  4. ノートブックの最初のセルに、コード例または独自のコードを入力します。 独自のコードを使用する場合は、コード例に示すように、少なくとも DatabricksSession をインスタンス化する必要があります。

  5. ノートブックを実行するには、[実行] > [すべてのセルを実行] をクリックします。 すべてのコードはローカル環境で実行されますが、DataFrame 操作を含むコードはすべて、リモートの Azure Databricks ワークスペース内のクラスターで実行され、実行の応答がローカル環境の呼び出し元に返送されます。

  6. ノートブックをデバッグするには、ノートブックのツール バーの [Python 3 (ipykernel)] の横にあるバグ (デバッガーを有効にする) アイコンをクリックします。 1 つ以上のブレークポイントを設定し、[実行] > [すべてのセルを実行] をクリックします。 すべてのコードはローカル環境でデバッグされますが、Spark のすべてのコードはリモートの Azure Databricks ワークスペース内のクラスターで引き続き実行されます。 コア Spark エンジン コードをクライアントから直接デバッグすることはできません。

  7. JupyterLab をシャットダウンするには、[ファイル] > [シャットダウン] をクリックします。 JupyterLab プロセスがターミナルまたはコマンド プロンプトで引き続き実行されている場合は、Ctrl + c を押してから、y を入力して確定してこのプロセスを停止します。

具体的なデバッグ手順については、「Debugger」 (デバッガー) を参照してください。