プールの構成

この記事では、プールを作成および編集するときに使用できる構成オプションについて説明します。

プールの構成

プールサイズと自動終了

プールを作成するときに、そのサイズを制御するために、最小アイドルインスタンス数、最大容量、アイドル状態のインスタンスの自動終了という3つのパラメーターを設定できます。

アイドル状態のインスタンスの最小数

プールがアイドル状態を維持する最小インスタンス数。 これらのインスタンスは、アイドル状態のインスタンスの自動終了時に指定された設定に関係なく、終了しません。 クラスターがプールからアイドル状態のインスタンスを使用する場合、Azure Databricks 最小値を維持するために追加のインスタンスをプロビジョニングします。

アイドル状態のインスタンスの最小構成

最大容量

プールによってプロビジョニングされるインスタンスの最大数。 この値を設定すると、 すべてのインスタンス が制限されます (アイドル + 使用)。 プールを使用するクラスターが自動 スケール中にこの数よりも多くのインスタンスを要求した場合、要求は失敗し、エラーが発生 INSTANCE_POOL_MAX_CAPACITY_FAILURE します。

最大容量構成

この構成は 省略可能 です。 次の状況でのみ値を設定することをお勧め Azure Databricks ます。

  • インスタンスクォータを保持しておく 必要 があります。
  • 1つの作業セットが別の作業セットに影響を与えることを防ぐ必要がある。 たとえば、インスタンスのクォータが100で、ジョブを実行する必要があるチーム A と B があるとします。 2つのチームが100クォータをかなり共有できるように、最大値が50でプール B が最大50のプール A を作成できます。
  • コストを上限にする必要があります。

アイドル状態のインスタンスの自動終了

最小アイドルインスタンスに設定されている値を超えるインスタンスが、プールによって終了されるまでアイドル状態になるまでの時間 (分単位)。

アイドル状態のインスタンスの自動終了構成

インスタンスの種類

プールは、実行中のクラスターによって使用されている新しいクラスターおよびインスタンスの準備ができているアイドル状態のインスタンスの両方で構成されます。 これらのインスタンスはすべて、プールを作成するときに選択したインスタンスプロバイダーの種類と同じです。

プールのインスタンスの種類を編集することはできません。 プールにアタッチされているクラスターは、ドライバーとワーカーノードで同じインスタンスの種類を使用します。 インスタンスの種類のファミリは、メモリを集中的に使用するワークロードやコンピューティング集中型のワークロードなど、さまざまなユースケースに適しています。

インスタンスの種類

Azure Databricks は、インスタンスの種類をサポートする前に、常に1年間の非推奨の通知を提供します。

注意

セキュリティ要件に コンピューティング分離が含まれている場合は、ワーカーの種類として Standard_F72s_V2 インスタンスを選択します。 これらのインスタンスの種類は、物理ホスト全体を使用し、米国国防総省の影響レベル 5 (IL5) のワークロードなどをサポートするために必要な分離レベルを提供する分離された仮想マシンを表します。

Databricks Runtime バージョンの プリロード

プール内のアイドル状態のインスタンスに読み込む Databricks Runtime バージョンを選択することで、クラスターの起動速度を上げることができます。 プールによってサポートされるクラスターを作成するときにユーザーがそのランタイムを選択した場合、そのクラスターは、プリロードされた Databricks Runtime バージョンを使用していないプールベースのクラスターよりも高速に起動します。

このオプションを [なし ] に設定すると、Databricks Runtime バージョンがプール内のアイドル状態のインスタンスにダウンロードされるため、クラスターの起動速度が低下します。 クラスターがプール内のインスタンスを解放すると、それらのインスタンスに Databricks Runtime のバージョンがキャッシュされたままになります。 同じ Databricks Runtime バージョンを使用する次のクラスター作成操作では、このキャッシュ動作の利点が得られる場合がありますが、これは保証されません。

プリロード済みランタイムバージョン

プールタグ

プールタグを使用すると、組織内のさまざまなグループによって使用されるクラウドリソースのコストを簡単に監視できます。 プールを作成するときに、キーと値のペアとしてタグを指定できます。これらのタグは、Vm やディスクボリュームなどのクラウドリソースに Azure Databricks 適用されます。

便宜上、Azure Databricks は、、、およびの3つの既定のタグを各プールに適用し Vendor DatabricksInstancePoolId DatabricksInstancePoolCreatorId ます。 プールの作成時にカスタムタグを追加することもできます。 最大41のカスタムタグを追加できます。

カスタムタグの継承

プールによってサポートされるクラスターは、プール構成から既定のタグとカスタムタグを継承します。 プールタグとクラスタータグを連携させる方法の詳細については、「 クラスター、プール、およびワークスペースタグを使用した使用状況の監視」を参照してください。

カスタムプールタグを構成する

  1. [プールの構成] ページの下部にある [ タグ ] タブを選択します。

  2. カスタムタグのキーと値のペアを指定します。

    タグのキーと値のペア

  3. [追加] をクリックします。

ローカルストレージの 自動スケール

多くの場合、特定のジョブで実行されるディスク領域を見積もることは困難です。 作成時にプールにアタッチする管理ディスクのギガバイト数を推定する必要がないように、Azure Databricks によって、すべての Azure Databricks プールで自動スケールのローカルストレージが自動的に有効になります。

自動スケールローカルストレージでは、Azure Databricks によって、プールのインスタンスで使用可能な空きディスク領域が監視されます。 インスタンスの実行にディスクが不足している場合は、ディスク領域が不足する前に、新しい管理ディスクが自動的に接続されます。 ディスクは、仮想マシン (仮想マシンの初期のローカル記憶域を含む) ごとに、合計ディスク領域の 5 TB に制限されます。

仮想マシンに接続されている管理ディスクは、仮想マシンが Azure に返されたときにのみデタッチされます。 つまり、管理ディスクがプールの一部である限り、仮想マシンからは切断されません。

スポットインスタンス

重要

この機能はパブリック プレビュー段階にあります。

コストを節約するには、[すべてのスポット] オプションボタンをオンにして スポットインスタンスを使用することを選択できます。

スポットインスタンス azure

プール内のクラスターは、すべてのノード、ドライバー、およびワーカーのスポットインスタンスを使用して起動されます (ハイブリッドオンデマンドドライバーおよびプール以外のクラスターのスポットインスタンスワーカーとは異なります)。

利用できないためにスポットインスタンスが削除された場合、オンデマンドインスタンスは、削除されたインスタンスを置き換えるためにデプロイされます。