コンピューティングの管理

[アーティクル]
03/19/2024

この記事では、表示、編集、開始、終了、削除、アクセス制御、パフォーマンスとログの監視を含む、Azure Databricks コンピューティングの管理方法について説明します。 Clusters API を使用して、コンピューティングをプログラムで管理することもできます。

コンピューティングを表示する

コンピューティングを表示するには、ワークスペースのサイドバーで [コンピューティング] をクリックします。

左側には、2 つの列 (コンピューティングがピン留めされているかどうかを示す列とコンピューティングの状態を示す列) があります。状態にカーソルを合わせると、詳細情報が表示されます。

コンピューティング構成を JSON ファイルとして表示する

場合によっては、コンピューティング構成を JSON として表示すると役立つことがあります。これは、Clusters API を使用して同様のコンピューティングを作成する場合に特に便利です。既存のコンピューティングを表示する場合は、[構成] タブにアクセスし、タブの右上にある [JSON] をクリックします。JSON をコピーして API 呼び出しに貼り付けます。 JSON ビューは読み取り専用です。

コンピューティングをピン留めする

コンピューティングは、終了してから 30 日後に完全に削除されます。終了後 30 日以上経過した後も汎用コンピューティングの構成を維持するには、管理者はコンピューティングをピン留めすることができます。最大 100 個のコンピューティングリソースを固定できます。

管理者は、ピン留めアイコンをクリックして、コンピューティングの一覧またはコンピューティングの詳細ページからコンピューティングをピン留めできます。

コンピューティングを編集する

コンピューティングの詳細 UI からコンピューティング構成を編集できます。

Note

コンピューティングにアタッチされたノートブックとジョブは、編集後もアタッチされたままになります。
コンピューティングにインストールされているライブラリは、編集後もインストールされたままになります。
実行中のコンピューティングの何らかの属性を編集した場合は (コンピューティングサイズとアクセス許可を除く)、そのコンピューティングを再起動する必要があります。これにより、現在そのコンピューティングを使用しているユーザーを中断させる可能性があります。
編集できるのは、実行中または終了済みのコンピューティングだけです。ただし、コンピューティングの詳細ページでは、これらの状態にないコンピューティングの "アクセス許可" を更新できます。

コンピューティングを複製する

既存のコンピューティングを複製するには、コンピューティングのケバブメニュー (3 つのドットメニューとも呼ばれます) から [複製] を選択します。

[複製] を選択すると、コンピューティング構成が事前に設定されたコンピューティング作成 UI が開きます。複製には次の属性が含まれません。

コンピューティングのアクセス許可
インストールされているライブラリ
アタッチされているノートブック

コンピューティングのアクセス許可

コンピューティングには、アクセス許可なし、アタッチ可能、再起動可能、管理可能の 4 つのアクセス許可レベルがあります。表に、それぞれのアクセス許可でできることを示します。

重要

"アタッチ可能" アクセス許可を持つユーザーは、log4j ファイル内のサービスアカウントキーを表示できます。このアクセス許可レベルを付与する場合は注意が必要です。

能力	アタッチ可能	再起動可能	管理可能
コンピューティングへのノートブックのアタッチ	x	x	x
Spark ジョブの表示	x	x	x
コンピューティングメトリックの表示	x	x	x
ドライバーログの表示			x (注を参照)
コンピューティングの終了		x	x
コンピューティングの起動と再起動		x	x
コンピューティングの編集			x
コンピューティングへのライブラリのアタッチ			x
コンピューティングのサイズ変更			x
アクセス許可の変更			x

ワークスペース管理者には、ワークスペース内のすべてのコンピューティングに対する管理可能アクセス許可があります。ユーザーには、自身が作成したコンピューティングに対する管理可能アクセス許可が自動的に付与されます。

Note

シークレットは、クラスターの Spark ドライバーのログストリーム stdout と stderr からは編集されません。機密データを保護するため、既定では、ジョブに対する "管理可能" アクセス許可、シングルユーザーアクセスモード、共有アクセスモードクラスターを設定されたユーザーのみが、Spark ドライバーのログを表示できます。 "アタッチ可能" または "再起動可能" アクセス許可を持つユーザーがこれらのクラスターのログを表示できるようにするには、クラスター構成で次の Spark 構成プロパティを設定します: spark.databricks.acl.needAdminPermissionToViewLogs false。

"分離なし" 共有アクセスモードクラスターでは、"アタッチ可能" または "管理可能" アクセス許可を持つユーザーが Spark ドライバーのログを表示できます。ログを閲覧できるユーザーを "管理可能" アクセス許可を持つユーザーのみに制限するには、spark.databricks.acl.needAdminPermissionToViewLogs を true に設定します。

クラスター構成に Spark プロパティを追加する方法については、「Spark の構成」を参照してください。

コンピューティングのアクセス許可を構成する

このセクションでは、ワークスペース UI を使用してアクセス許可を管理する方法について説明します。 Permissions API または Databricks Terraform プロバイダーを使用することもできます。

コンピューティングのアクセス許可を構成するには、コンピューティングに対する管理可能アクセス許可が必要です。

サイドバーで、[コンピューティング] をクリックします。
コンピューティングの行で、右側にあるケバブメニューをクリックし、[アクセス許可の編集] を選択します。
[アクセス許可の設定] で、[ユーザー、グループ、またはサービスプリンシパルの選択] ドロップダウンメニューをクリックし、ユーザー、グループ、またはサービスプリンシパルを選びます。
[アクセス許可] ドロップダウンメニューからアクセス許可を選択します。
[追加] をクリックし、[保存] をクリックします。

コンピューティングを終了する

コンピューティングリソースを保存するために、コンピューティングを終了できます。終了したコンピューティングの構成は、後で再利用 (またはジョブの場合は自動開始) できるように保存されます。手動でコンピューティングを終了することも、指定した非アクティブ期間の後に自動的に終了するようコンピューティングを構成することもできます。終了したコンピューティングの数が 150 を超えると、最も古いコンピューティングが削除されます。

コンピューティングがピン留めされていない限り、終了してから 30 日後に、自動的に完全に削除されます。

終了したコンピューティングは、コンピューティング名の左側に灰色の円が付加されてコンピューティングの一覧に表示されます。

Note

新しいジョブコンピューティングでジョブを実行すると (通常、これが推奨されます)、コンピューティングは終了し、ジョブの完了時に再起動できなくなります。一方、終了された既存の汎用コンピューティングで実行するジョブをスケジュールすると、そのコンピューティングは自動開始されます。

重要

試用版 Premium ワークスペースを使用している場合は、次の場合に実行中のすべてのコンピューティングが終了します。

ワークスペースをフルプレミアムにアップグレードする場合。
ワークスペースがアップグレードされず、評価版が期限切れになった場合。

手動終了

コンピューティングの一覧 (コンピューティングの行の四角形をクリック) またはコンピューティングの詳細ページ ([終了] をクリック) からコンピューティングを手動で終了できます。

自動終了

コンピューティングに対して自動終了を設定することもできます。コンピューティングの作成時に、コンピューティングを終了するまでの非アクティブな期間を分単位で指定できます。

現在の時刻とコンピューティングで実行された最後のコマンドの差が、指定された非アクティブ期間を超えると、Azure Databricks はそのコンピューティングを自動的に終了します。

コンピューティング上のすべてのコマンド (Spark ジョブ、構造化ストリーミング、JDBC 呼び出しなど) の実行が完了すると、コンピューティングは非アクティブと見なされます。

警告

コンピューティングでは、DStreams を使用した結果のアクティビティは報告されません。つまり、DStreams の実行中に自動終了を設定しているコンピューティングが終了する可能性があります。 DStreams を実行するコンピューティングの自動終了をオフにするか、構造化ストリーミングの使用を検討してください。
アイドル状態のコンピューティングでは、終了するまでの非アクティブ期間中も、DBU とクラウドインスタンスの料金が継続的に発生します。

自動終了の構成

新しいコンピューティング UI で自動終了を構成できます。チェックボックスがオンになっていることを確認し、[非アクティブな分数の ___ 分後に終了する] 設定に分数を入力します。

[自動終了] チェックボックスをオフにするか、非アクティブ期間に 0 を指定することで、自動終了を解除できます。

注意

自動終了は、最新の Spark バージョンで最適にサポートされています。以前のバージョンの Spark では、コンピューティングアクティビティのレポートが不正確になる可能性のある制限が確認されていました。たとえば、JDBC、R、またはストリーミングコマンドを実行しているコンピューティングでは、コンピューティングの早期終了につながる古いアクティビティ時間を報告する可能性があります。バグの修正や自動終了の機能強化が反映されるように、最新の Spark バージョンにアップグレードしてください。

予期しない終了

手動終了または自動終了の構成の結果としてではなく、予期せずにコンピューティングが終了することがあります。

終了の理由と修復手順の一覧については、ナレッジベースを参照してください。

コンピューティングポリシーを削除する

コンピューティングを削除すると、コンピューティングが終了し、その構成も削除されます。コンピューティングを削除するには、コンピューティングのメニューから [削除] を選択します。

警告

この操作を元に戻すことはできません。

ピン留めされたコンピューティングを削除するには、まず管理者によってピン留めが解除される必要があります。

Clusters API エンドポイントを呼び出して、プログラムでコンピューティングを削除することもできます。

コンピューティングを再起動する

以前に終了したコンピューティングは、コンピューティングの一覧、コンピューティングの詳細ページ、またはノートブックから再起動できます。 Clusters API エンドポイントを呼び出して、プログラムでコンピューティングを開始することもできます。

Azure Databricks では、一意のクラスター ID を使用してコンピューティングを識別します。終了したコンピューティングを開始すると、Databricks は同じ ID でコンピューティングを再作成し、すべてのライブラリを自動的にインストールして、ノートブックを再アタッチします。

Note

試用版ワークスペースを使用していて、試用期間が終了した場合は、コンピューティングを開始できなくなります。

コンピューティングを再起動して最新のイメージで更新する

コンピューティングを再起動すると、コンピューティングリソースコンテナーと VM ホストの最新のイメージが取得されます。ストリーミングデータの処理などで使われる実行時間の長いコンピューティングの場合、定期的な再起動をスケジュールすることが重要です。

すべてのコンピューティングリソースを定期的に再起動し、最新のイメージバージョンでイメージを最新の状態に保つことは、ユーザーの責任です。

重要

アカウントまたはワークスペースのコンプライアンスセキュリティプロファイルを有効にすると、長時間実行されているコンピューティングは、スケジュールされたメンテナンス期間中に必要に応じて自動的に再起動されます。これにより、自動再起動によってスケジュールされたジョブが中断されるリスクが軽減されます。メンテナンス期間中に強制的に再起動することもできます。「自動クラスター更新」を参照してください。

ノートブックの例: 長期間実行されているコンピューティングを特定する

ワークスペース管理者は、各コンピューティングが実行されている期間を特定するスクリプトを実行し、指定されている日数より古い場合は必要に応じて再起動できます。このスクリプトは、Azure Databricks でノートブックとして提供されています。

スクリプトの最初の行では、構成パラメーターを定義します。

min_age_output: コンピューティングを実行できる最大日数。既定値のは 1 です。
perform_restart: True の場合、スクリプトは経過時間が min_age_output で指定された日数を超えるすべてのコンピューティングを再起動します。既定値は False で、長期間実行されているコンピューティングが特定されますが、再起動は行われません。
secret_configuration: REPLACE_WITH_SCOPE と REPLACE_WITH_KEY は、シークレットスコープとキー名に置き換えます。シークレットの設定について詳しくは、ノートブックをご覧ください。

警告

perform_restart を True に設定すると、スクリプトは対象となるコンピューティングを自動的に再起動します。そのため、アクティブなジョブが失敗したり、開いているノートブックがリセットされたりする可能性があります。ワークスペースのビジネスクリティカルなジョブが中断するリスクを軽減するため、予定メンテナンス期間を計画し、ワークスペースのユーザーに必ずお知らせください。

長期間実行されているコンピューティングを特定し、必要に応じて再起動する

ノートブックを入手

ジョブと JDBC/ODBC クエリのコンピューティングの自動開始

終了済みコンピューティングに割り当てられたジョブが実行されるようにスケジュールされている場合、または JDBC/ODBC インターフェイスから終了したコンピューティングに接続する場合、コンピューティングは自動的に再起動されます。「ジョブの作成」と JDBC 接続に関するページを参照してください。

コンピューティングの自動開始を使用すると、スケジュールされたジョブのコンピューティングを再起動するように手動で介入しなくても、コンピューティングを自動的に終了するように構成できます。さらに、終了したコンピューティングで実行するジョブをスケジュールすることで、コンピューティングの初期化をスケジュールすることもできます。

コンピューティングを自動的に再起動する前に、コンピューティングとジョブのアクセス制御のアクセス許可がチェックされます。

Note

コンピューティングが Azure Databricks プラットフォームバージョン 2.70 以前で作成された場合、自動開始は利用できません。終了したコンピューティングで実行するようにスケジュールされたジョブは失敗します。

Apache Spark UI でコンピューティング情報を表示する

コンピューティングの詳細ページの [Spark UI] タブを選択して、Spark ジョブに関する詳細情報を表示できます。

終了したコンピューティングを再起動した場合、Spark UI には、終了したコンピューティングの履歴情報ではなく、再起動したコンピューティングの情報が表示されます。

コンピューティングログを表示する

Azure Databricks では、次の 3 種類のコンピューティング関連アクティビティのログ記録が表示されます。

コンピューティングイベントログ。作成、終了、構成の編集などのコンピューティングライフサイクルイベントをキャプチャします。
Apache Spark ドライバーとワーカーログ。デバッグに使用できます。
コンピューティング init スクリプトログ。init スクリプトのデバッグに役立ちます。

このセクションでは、コンピューティングイベントログとドライバーおよびワーカーログについて説明します。 init スクリプトのログの詳細については、「init スクリプトログ」を参照してください。

コンピューティングイベントログ

コンピューティングイベントログには、ユーザー操作によって手動でトリガーされるか、Azure Databricks によって自動的にトリガーされる、重要なコンピューティングライフサイクルイベントが表示されます。このようなイベントは、コンピューティング全体とコンピューティング内で実行されているジョブの動作に影響します。

サポートされているイベントの種類については、Clusters API データ構造体に関するページを参照してください。

イベントは 60 日間保存されます。これは、Azure Databricks の他のデータ保持期間と同程度です。

コンピューティングのイベントログを表示する

コンピューティングのイベントログを表示するには、コンピューティングの詳細ページで [イベントログ] タブを選択します。

イベントの詳細については、ログでその行をクリックし、[JSON] タブをクリックして詳細を確認してください。

コンピューティングドライバーとワーカーログ

ノートブック、ジョブ、ライブラリから print ステートメントおよび log ステートメントを実行することによって、Spark ドライバーログにアクセスできます。これらのログファイルには、コンピューティングの詳細ページの [ドライバーログ] タブからアクセスできます。ログファイルをダウンロードするには、その名前をクリックします。

これらのログには、次の 3 つの出力があります。

標準出力
標準エラー
Log4j ログ

Spark ワーカーログを表示するには、[Spark UI] タブを使用します。コンピューティングのログ配信場所を構成することもできます。指定した場所には、ワーカーおよびコンピューティングログの両方が配信されます。

パフォーマンスの監視

Azure Databricks コンピューティングのパフォーマンスを監視できるようにするため、Azure Databricks ではクラスターの詳細ページからメトリックにアクセスできます。 Databricks Runtime 12.2 以下の場合、Azure Databricks は Ganglia メトリックへのアクセスを提供します。 Databricks Runtime 13.0 以降の場合、コンピューティングメトリックは Azure Databricks によって提供されます。

さらに、Azure の監視プラットフォームである Azure Monitor の Log Analytics ワークスペースにメトリックを送信するように Azure Databricks コンピューティングを構成することもできます。

また、コンピューティングノードに Datadog エージェントをインストールして、Datadog メトリックを Datadog アカウントに送信することもできます。

コンピューティングメトリック

コンピューティングメトリックは、Databricks Runtime 13.0 以降の既定の監視ツールです。コンピューティングメトリック UI にアクセスするには、コンピューティングの詳細ページの [メトリック] タブに移動します。

日付の選択フィルターを使用して時間の範囲を選択することで、履歴メトリックを表示できます。メトリックは 1 分ごとに収集されます。 [最新の情報に更新] ボタンをクリックして、最新のメトリックを取得することもできます。詳細については、「コンピューティングメトリックの表示」を参照してください。

Ganglia メトリック

注意

Ganglia メトリックは、Databricks Runtime 12.2 以下でのみ使用できます。

Ganglia UI にアクセスするには、コンピューティングの詳細ページの [メトリック] タブに移動します。 CPU メトリックは、すべての Databricks ランタイムの Ganglia UI で使用できます。 GPU メトリックは、GPU 対応コンピューティングで使用できます。

ライブメトリックを表示するには、[GANGLIA UI] リンクをクリックします。

履歴のメトリックを表示するには、スナップショットファイルをクリックします。スナップショットには、選択した時刻より前の時間の集計されたメトリックが含まれます。

注意

Ganglia は Docker コンテナーではサポートされていません。コンピューティングで Docker コンテナーを使用する場合、Ganglia メトリックは使用できません。

Ganglia メトリック収集を構成する

既定では、Azure Databricks によって 15 分ごとに Ganglia メトリックが収集されます。収集期間を構成するには、init スクリプトを使用するか、Create cluster API の spark_env_vars フィールドで、DATABRICKS_GANGLIA_SNAPSHOT_PERIOD_MINUTES 環境変数を設定します。

Azure Monitor

Azure の監視プラットフォームである Azure Monitor の Log Analytics ワークスペースにメトリックを送信するように Azure Databricks コンピューティングを構成することもできます。詳細な手順については、「Azure Databricks の監視」を参照してください。

注意

独自の仮想ネットワークに Azure Databricks ワークスペースをデプロイし、Azure Databricks で必要とされないすべての送信トラフィックを拒否するようにネットワークセキュリティグループ (NSG) を構成している場合は、"AzureMonitor" サービスタグに対して追加の送信規則を構成する必要があります。

ノートブックの例: Datadog のメトリック

Datadog メトリック

コンピューティングノードに Datadog エージェントをインストールして、Datadog メトリックを Datadog アカウントに送信できます。次のノートブックには、コンピューティングスコープの init スクリプトを使用してコンピューティングに Datadog エージェントをインストールする方法が示されています。

すべてのコンピューティングに Datadog エージェントをインストールするには、コンピューティングポリシーを使用するコンピューティングスコープの init スクリプトを管理します。

Datadog エージェントの init スクリプトノートブックのインストール

ノートブックを入手

スポットインスタンスの使用停止

スポットインスタンスはコストを削減できるため、オンデマンドインスタンスではなくスポットインスタンスを使用してコンピューティングを作成する方法は、ジョブを実行する一般的な方法です。ただし、スポットインスタンスは、クラウドプロバイダーのスケジュールメカニズムによってプリエンプトされる場合があります。スポットインスタンスのプリエンプションによって、次のような実行中のジョブに関する問題が発生する可能性があります。

シャッフルフェッチエラー
シャッフルデータ損失
RDD データ損失
ジョブの失敗

これらの問題に対処するために、使用停止を有効にすることができます。使用停止では、スポットインスタンスを使用停止にする前に、クラウドプロバイダーが通常送信する通知を利用します。実行プログラムを含むスポットインスタンスがプリエンプション通知を受け取ると、使用停止プロセスはシャッフルと RDD データを正常な実行プログラムに移行しようとします。最終的なプリエンプションの前の期間は、クラウドプロバイダーに応じて、通常 30 秒から 2 分になります。

Databricks では、使用停止も有効になっている場合に、データ移行を有効にすることを推奨します。通常、シャッフルフェッチエラー、シャッフルデータ損失、RDD データ損失などのエラーの可能性は、より多くのデータが移行されるにつれて低下します。データの移行により、再計算やコストの削減にもつながります。

注意

使用停止はベストエフォートであり、最終プリエンプションの前にすべてのデータを移行できることを保証するものではありません。使用停止では、実行中のタスクが実行プログラムからシャッフルデータをフェッチしている場合、シャッフルフェッチエラーを防ぐことを保証できません。

使用停止が有効になっていると、スポットインスタンスのプリエンプションによって発生したタスクエラーは、失敗した試行の合計数に追加されません。失敗の原因はタスクの外部にあり、ジョブの失敗にはならないため、プリエンプションによって発生したタスクエラーは、失敗した場合としてカウントされません。

使用停止を有効にする

コンピューティングで使用停止を有効にするには、コンピューティング構成 UI の [詳細オプション] の [Spark] タブに次のプロパティを入力します。これらのプロパティの詳細については、「Spark の構成」を参照してください。

アプリケーションの使用停止を有効にするには、[Spark 構成] フィールドに次のプロパティを入力します。
```
spark.decommission.enabled true
```
使用停止中にシャッフルデータ移行を有効にするには、[Spark 構成] フィールドに次のプロパティを入力します。
```
spark.storage.decommission.enabled true
spark.storage.decommission.shuffleBlocks.enabled true
```
使用停止中に RDD キャッシュデータ移行を有効にするには、[Spark 構成] フィールドに次のプロパティを入力します。
```
spark.storage.decommission.enabled true
spark.storage.decommission.rddBlocks.enabled true
```
注意

RDD StorageLevel レプリケーションが 1 より大きい値に設定されている場合、Databricks では、RDD によってデータが失われないようにするため、RDD データ移行を有効にすることは推奨されません。
ワーカーの使用停止を有効にするには、[環境変数] フィールドに次のプロパティを入力します。
```
SPARK_WORKER_OPTS="-Dspark.decommission.enabled=true"
```

使用停止の状態と失われた理由を UI で表示する

UI からワーカーの使用停止状態にアクセスするには、[Spark コンピューティング UI - マスター] タブに移動します。

使用停止が完了すると、コンピューティングの詳細ページの [Spark UI > Executor] タブで Executor の失われた理由を確認できます。

コンピューティングの管理

コンピューティングを表示する

コンピューティング構成を JSON ファイルとして表示する

コンピューティングをピン留めする

コンピューティングを編集する

コンピューティングを複製する

コンピューティングのアクセス許可

コンピューティングのアクセス許可を構成する

コンピューティングを終了する

手動終了

自動終了

自動終了の構成

予期しない終了

コンピューティング ポリシーを削除する

コンピューティングを再起動する

コンピューティングを再起動して最新のイメージで更新する

ノートブックの例: 長期間実行されているコンピューティングを特定する

長期間実行されているコンピューティングを特定し、必要に応じて再起動する

ジョブと JDBC/ODBC クエリのコンピューティングの自動開始

Apache Spark UI でコンピューティング情報を表示する

コンピューティング ログを表示する

コンピューティング イベント ログ

コンピューティングのイベント ログを表示する

コンピューティング ドライバーとワーカー ログ

パフォーマンスの監視

コンピューティング メトリック

Ganglia メトリック

Ganglia メトリック収集を構成する

Azure Monitor

ノートブックの例: Datadog のメトリック

Datadog エージェントの init スクリプト ノートブックのインストール

スポット インスタンスの使用停止

使用停止を有効にする

使用停止の状態と失われた理由を UI で表示する

その他のリソース

コンピューティングポリシーを削除する

コンピューティングログを表示する

コンピューティングイベントログ

コンピューティングのイベントログを表示する

コンピューティングドライバーとワーカーログ

コンピューティングメトリック

Datadog エージェントの init スクリプトノートブックのインストール

スポットインスタンスの使用停止