Naslaginformatie voor poolconfiguratie

Artikel
04/17/2024

In dit artikel worden de beschikbare instellingen beschreven bij het maken van een pool met behulp van de gebruikersinterface. Zie de CLI van exemplaargroepen (verouderd) voor meer informatie over het gebruik van de Databricks CLI om een pool te maken. Zie de API exemplaargroepen voor meer informatie over het gebruik van de REST API om een pool te maken.

Poolgrootte en automatische beëindiging

Wanneer u een pool maakt om de grootte ervan te bepalen, kunt u drie parameters instellen: minimale inactieve exemplaren, maximale capaciteit en automatische beëindiging van niet-actieve instanties.

Minimale niet-actieve exemplaren

Het minimale aantal exemplaren dat de pool inactief houdt. Deze exemplaren worden niet beëindigd, ongeacht de instellingen voor automatische beëindiging. Als een cluster niet-actieve exemplaren uit de pool verbruikt, richt Azure Databricks extra exemplaren in om het minimum te behouden.

Maximale capaciteit

Het maximum aantal exemplaren dat de pool kan inrichten. Als deze waarde is ingesteld, beperkt deze waarde alle exemplaren (niet-actief en gebruikt). Als een cluster met behulp van de pool meer exemplaren aanvraagt dan dit getal tijdens automatisch schalen, mislukt de aanvraag met een INSTANCE_POOL_MAX_CAPACITY_FAILURE fout.

Deze configuratie is optioneel. Azure Databricks raadt u aan om alleen in de volgende omstandigheden een waarde in te stellen:

U hebt een exemplaarquotum dat u moet blijven gebruiken.
U wilt één set werk beschermen tegen gevolgen voor een andere set werk. Stel dat uw exemplaarquotum 100 is en u teams A en B hebt die taken moeten uitvoeren. U kunt groep A maken met een maximum van 50 en groep B met max 50, zodat de twee teams het quotum van 100 redelijk delen.
U moet kosten caperen.

Automatisch beëindigen van niet-actieve exemplaren

De tijd in minuten boven de waarde die is ingesteld in minimale inactieve exemplaren die exemplaren inactief kunnen zijn voordat ze worden beëindigd door de pool.

Exemplaartypen

Een pool bestaat uit zowel niet-actieve exemplaren die gereed zijn voor nieuwe clusters en exemplaren die worden gebruikt door clusters uit te voeren. Al deze exemplaren zijn van hetzelfde exemplaarprovidertype, geselecteerd bij het maken van een pool.

Het exemplaartype van een pool kan niet worden bewerkt. Clusters die aan een pool zijn gekoppeld, gebruiken hetzelfde exemplaartype voor het stuurprogramma en werkknooppunten. Verschillende typen exemplaren passen bij verschillende gebruiksvoorbeelden, zoals geheugenintensieve of rekenintensieve workloads.

Azure Databricks biedt altijd een afschaffingsmelding van één jaar voordat ondersteuning voor een exemplaartype wordt beëindigd.

Notitie

Als uw beveiligingsvereisten rekenisolatie bevatten, selecteert u een Standard_F72s_V2 exemplaar als uw werkroltype. Deze exemplaartypen vertegenwoordigen geïsoleerde virtuele machines die de volledige fysieke host gebruiken en het benodigde isolatieniveau bieden dat nodig is ter ondersteuning van bijvoorbeeld IL5-workloads (Department of Defense Impact Level 5).

Vooraf geladen Databricks Runtime-versie

U kunt clusterlanceringen versnellen door een Databricks Runtime-versie te selecteren die moet worden geladen op niet-actieve exemplaren in de pool. Als een gebruiker die runtime selecteert wanneer deze een cluster maakt dat wordt ondersteund door de pool, wordt dat cluster nog sneller gestart dan een cluster met poolsteun dat geen vooraf geladen Databricks Runtime-versie gebruikt.

Als u deze optie instelt op Geen , worden clusterlanceringen vertraagd, omdat de Databricks Runtime-versie op aanvraag wordt gedownload naar niet-actieve exemplaren in de pool. Wanneer het cluster de exemplaren in de pool vrijgeeft, blijft de Databricks Runtime-versie in de cache opgeslagen op deze exemplaren. De volgende bewerking voor het maken van clusters die gebruikmaakt van dezelfde Databricks Runtime-versie kan profiteren van dit cachinggedrag, maar dit is niet gegarandeerd.

Vooraf geladen Docker-installatiekopieën

Docker-installatiekopieën worden ondersteund met pools als u de API exemplaargroepen gebruikt om de pool te maken.

Pooltags

Met pooltags kunt u eenvoudig de kosten bewaken van cloudresources die door verschillende groepen in uw organisatie worden gebruikt. U kunt tags opgeven als sleutel-waardeparen wanneer u een pool maakt en Azure Databricks past deze tags toe op cloudresources, zoals VM's en schijfvolumes, evenals DBU-gebruiksrapporten.

Voor het gemak past Azure Databricks drie standaardtags toe op elke pool: Vendor, DatabricksInstancePoolIden DatabricksInstancePoolCreatorId. U kunt ook aangepaste tags toevoegen wanneer u een pool maakt. U kunt maximaal 41 aangepaste tags toevoegen.

Aangepaste tags

Als u extra tags aan de pool wilt toevoegen, gaat u naar het tabblad Tabbladen onder aan de pagina Pool maken. Klik op de knop + Toevoegen en voer vervolgens het sleutel-waardepaar in.

Clusters met poolsteun nemen standaard- en aangepaste tags over van de poolconfiguratie. Zie Gebruik bewaken met behulp van tags voor tags voor groepen voor gedetailleerde informatie over hoe pooltags en clustertags samenwerken.

Lokale opslag automatisch schalen

Het kan vaak lastig zijn om te schatten hoeveel schijfruimte een bepaalde taak nodig heeft. Als u wilt besparen hoeveel gigabytes beheerde schijf u tijdens het maken aan uw pool wilt koppelen, schakelt Azure Databricks automatisch automatische schaalaanpassing van lokale opslag in op alle Azure Databricks-pools.

Met automatische schaalaanpassing van lokale opslag bewaakt Azure Databricks de hoeveelheid vrije schijfruimte die beschikbaar is op de exemplaren van uw pool. Als een exemplaar te laag op schijf wordt uitgevoerd, wordt automatisch een nieuwe beheerde schijf gekoppeld voordat er onvoldoende schijfruimte beschikbaar is. Schijven zijn gekoppeld aan een limiet van 5 TB aan totale schijfruimte per virtuele machine (inclusief de initiële lokale opslag van de virtuele machine).

De beheerde schijven die aan een virtuele machine zijn gekoppeld, worden alleen losgekoppeld wanneer de virtuele machine wordt geretourneerd naar Azure. Beheerde schijven worden dus nooit losgekoppeld van een virtuele machine zolang deze deel uitmaakt van een pool.

Spot-exemplaren

Als u kosten wilt besparen, kunt u ervoor kiezen om spot-exemplaren te gebruiken door het keuzerondje All Spot te controleren.

Clusters in de pool worden gestart met spot-exemplaren voor alle knooppunten, stuurprogramma's en werkrollen (in plaats van het hybride on-demand stuurprogramma en spot-exemplaarmedewerkers voor clusters zonder pool).

Als spot-exemplaren worden verwijderd vanwege niet-beschikbaarheid, worden verwijderde exemplaren niet vervangen door on-demand exemplaren.