Poolkonfigurationsreferenz

Artikel
03/12/2024

In diesem Artikel werden die verfügbaren Einstellungen beim Erstellen eines Pools mithilfe der Benutzeroberfläche beschrieben. Anleitungen zur Verwendung der Databricks CLI zum Erstellen eines Pools finden Sie unter CLI für Instanzenpools (Legacy). Anleitungen zur Verwendung der REST-API zum Erstellen eines Pools finden Sie unter Instanzenpools-API.

Poolgröße und automatische Beendigung

Wenn Sie einen Pool erstellen, können Sie seine Größe mit drei Parametern festlegen: „Minimale Leerlaufinstanzen“, „Maximale Kapazität“ und „Automatische Beendigung der Leerlaufinstanz“.

Minimale Leerlaufinstanzen

Die Mindestanzahl von Instanzen, die im Pool im Leerlauf gehalten werden. Diese Instanzen werden unabhängig von den Einstellungen für die automatische Beendigung nicht beendet. Wenn in einem Cluster Leerlaufinstanzen aus dem Pool genutzt werden, werden von Azure Databricks zusätzliche Instanzen zur Aufrechterhaltung des Mindestwerts bereitgestellt.

Maximale Kapazität

Die maximale Anzahl von Instanzen, die vom Pool bereitgestellt werden können. Durch Festlegen dieses Parameters werden alle Instanzen (Leerlaufinstanzen und verwendete Instanzen) eingeschränkt. Wenn ein Cluster, in dem der Pool verwendet wird, während der automatischen Skalierung mehr Instanzen als diese Anzahl anfordert, tritt bei der Anforderung der Fehler INSTANCE_POOL_MAX_CAPACITY_FAILURE auf.

Diese Konfiguration ist optional. Azure Databricks empfiehlt, nur in folgenden Situationen einen Wert festzulegen:

Sie verfügen über ein Instanzkontingent, das Sie nicht überschreiten dürfen.
Sie möchten verhindern, dass sich eine Arbeit auf eine andere Arbeit auswirkt. Angenommen, Ihr Instanzkontingent beträgt 100, und Ihre Teams A und B müssen Aufträge ausführen. Sie können Pool A mit maximal 50 und Pool B mit maximal 50 erstellen, sodass sich die beiden Teams das Kontingent von 100 gerecht teilen.
Sie müssen die Kosten begrenzen.

Automatische Beendigung der Leerlaufinstanz

Die Zeit in Minuten, die Instanzen über dem in Minimale Leerlaufinstanzen festgelegten Wert im Leerlauf sein dürfen, bevor sie vom Pool beendet werden.

Instanztypen

Ein Pool besteht sowohl aus Leerlaufinstanzen, die für neue Cluster bereit gehalten werden, als auch aus Instanzen, die von ausgeführten Clustern verwendet werden. Diese Instanzen sind vom gleichen Instanzanbietertyp, der beim Erstellen eines Pools ausgewählt wird.

Der Instanztyp eines Pools kann nicht geändert werden. In Clustern, die an einen Pool angefügt sind, wird dieser Instanztyp auch für den Treiber und für Workerknoten verwendet. Es gibt verschiedene Familien von Instanztypen für unterschiedliche Anwendungsfälle, z. B. speicherintensive oder rechenintensive Workloads.

Azure Databricks informiert immer ein Jahr im Voraus, bevor die Unterstützung für einen Instanztyp eingestellt wird.

Hinweis

Wenn Ihre Sicherheitsanforderungen eine Compute-Isolation vorsehen, wählen Sie eine Standard_F72s_V2-Instanz als Ihren Workertyp. Bei diesen Instanztypen handelt es sich um isolierte VMs, die den gesamten physischen Host in Anspruch nehmen und das erforderliche Maß an Isolation bieten, um z. B. Workloads gemäß DoD IL5 (Department of Defense Impact Level 5) zu unterstützen.

Vorab geladene Databricks Runtime-Version

Sie können den Start von Clustern beschleunigen, indem Sie eine Databricks Runtime-Version auswählen, die auf inaktive Instanzen im Pool geladen wird. Wenn ein Benutzer diese Runtime beim Erstellen eines vom Pool unterstützten Clusters auswählt, wird dieser Cluster noch schneller gestartet als ein vom Pool unterstützter Cluster, für den keine im Voraus geladene Databricks Runtime-Version verwendet wird.

Wenn Sie diese Option auf Keine festlegen, werden Clusterstarts verlangsamt, da die Databricks Runtime-Version bei Bedarf in Leerlaufinstanzen im Pool heruntergeladen wird. Wenn der Cluster die Instanzen im Pool freigibt, bleibt die Databricks Runtime-Version auf diesen Instanzen zwischengespeichert. Bei der nächsten Clustererstellung, bei der dieselbe Databricks Runtime-Version verwendet wird, kann möglicherweise von diesem Cacheverhalten profitieren.

Im Voraus geladenes Docker-Image

Docker-Images werden mit Pools unterstützt, wenn Sie die Instanzpool-API zum Erstellen des Pools verwenden.

Pooltags

Mit Pooltags können Sie die Kosten von Cloudressourcen, die von verschiedenen Gruppen in Ihrer Organisation genutzt werden, problemlos überwachen. Sie können Tags als Schlüssel-Wert-Paare angeben, wenn Sie einen Pool erstellen, und Azure Databricks wendet diese Tags auf Cloudressourcen wie VMs und Datenträgervolumes sowie auf DBU-Nutzungsberichte an.

Der Einfachheit halber wendet Azure Databricks drei Standardtags auf jeden Pool an: Vendor, DatabricksInstancePoolId und DatabricksInstancePoolCreatorId. Beim Erstellen eines Pools können Sie auch benutzerdefinierte Tags hinzufügen. Sie können bis zu 41 benutzerdefinierte Tags hinzufügen.

Benutzerdefinierte Tags

Um dem Pool zusätzliche Tags hinzuzufügen, navigieren Sie unten auf der Seite Pool erstellen zur Registerkarte Tags. Klicken Sie auf die Schaltfläche + Hinzufügen, und geben Sie dann das Schlüssel-Wert-Paar ein.

Poolgestützte Cluster erben Standardtags und benutzerdefinierte Tags von der Poolkonfiguration. Ausführliche Informationen zum Zusammenspiel von Pool- und Clustertags finden Sie unter Überwachen der Nutzung mithilfe von Tags.

Automatische Skalierung des lokalen Speichers

Es ist oft schwierig abzuschätzen, wie viel Speicherplatz auf dem Datenträger ein bestimmter Auftrag beanspruchen wird. Damit Sie beim Erstellen Ihres Pools nicht selbst schätzen müssen, wie viele GB an verwaltetem Speicherplatz Sie an Ihren Pool anfügen müssen, aktiviert Azure Databricks automatisch für alle Azure Databricks-Pools die automatische Skalierung des lokalen Speichers.

Bei der automatischen Skalierung des lokalen Speichers überwacht Azure Databricks die Menge an freiem Speicherplatz, die in den Instanzen des Pools verfügbar ist. Wenn der Speicherplatz einer Instanz nicht mehr ausreicht, wird automatisch ein neuer verwalteter Datenträger angefügt, bevor kein Speicherplatz mehr vorhanden ist. Datenträger werden bis zu einer Obergrenze von 5 TB Gesamtspeicherplatz pro VM angefügt (einschließlich des anfänglichen lokalen Speichers der VM).

Die an eine VM angefügten verwalteten Datenträger werden nur getrennt, wenn die VM an Azure zurückgegeben wird. Das heißt, verwaltete Datenträger werden nie von einer VM abgekoppelt, solange sie Teil eines ausgeführten Clusters sind.

Spot-Instanzen

Wenn Sie zur Einsparung von Kosten Spot-Instanzen verwenden möchten, aktivieren Sie das Optionsfeld All Spot (Alle Spot-Instanzen).

Cluster im Pool werden mit Spot-Instanzen für alle Knoten, Treiber und Worker gestartet (im Gegensatz zu den hybriden bedarfsgesteuerten Treibern und Spot-Instanz-Workern für Cluster ohne Pool).

Wenn Spot-Instanzen aufgrund von Nichtverfügbarkeit entfernt werden, werden die entfernten Instanzen nicht durch bedarfsgesteuerte Instanzen ersetzt.