Clusters met één knooppunt

Een cluster met één knooppunt is een cluster dat bestaat uit een Apache Spark en geen Spark-werksters. Een cluster met één knooppunt ondersteunt Spark-taken en alle Spark-gegevensbronnen, waaronder Delta Lake. Voor een Standard-cluster is minimaal één Spark-werker vereist om Spark-taken uit te voeren.

Clusters met één knooppunt zijn handig voor:

  • Workloads met één machine learning die gebruikmaken van Spark om gegevens te laden en op te slaan
  • Lichtgewicht experimentele gegevensanalyse

Een cluster met één knooppunt maken

Als u een cluster met één knooppunt wilt maken, stelt u Clustermodus in op Eén knooppunt wanneer u een cluster configureert.

Clustermodus met één knooppunt

Eigenschappen van clusters met één knooppunt

Een cluster met één knooppunt heeft de volgende eigenschappen:

  • Spark wordt lokaal uitgevoerd.
  • Het stuurprogramma fungeert als hoofd- en werkknooppunten, zonder werkknooppunten.
  • Er wordt één uitvoerderthread per logische kern in het cluster uitgevoerd, min 1 kern voor het stuurprogramma.
  • Alle stderrstdout logboekuitvoer , en log4j worden opgeslagen in het stuurprogrammalogboek.
  • Een cluster met één knooppunt kan niet worden geconverteerd naar een Standard-cluster. Als u een Standard-cluster wilt gebruiken, maakt u het cluster en koppelt u uw notebook eraan.

Beperkingen

  • Bij grootschalige gegevensverwerking zijn de resources op één knooppuntcluster uitputtend. Voor deze workloads raadt Databricks het gebruik van een Standard-moduscluster aan.

  • Clusters met één knooppunt zijn niet ontworpen om te worden gedeeld. Om resourceconflicten te voorkomen, raadt Databricks aan om een Standard-moduscluster te gebruiken wanneer het cluster moet worden gedeeld.

  • Een cluster in de standaardmodus kan niet worden geschaald naar 0 werksters. Gebruik in plaats daarvan een cluster met één knooppunt.

  • Clusters met één knooppunt zijn niet compatibel met procesisolatie.

  • GPU-planning is niet ingeschakeld op clusters met één knooppunt.

  • Op clusters met één knooppunt kan Spark Parquet-bestanden met een UDT-kolom niet lezen. Het volgende foutbericht resulteert in:

    The Spark driver has stopped unexpectedly and is restarting. Your notebook will be automatically reattached.
    

    U kunt dit probleem tijdelijk oplossen door de native Parquet-lezer uit te schakelen:

    spark.conf.set("spark.databricks.io.parquet.nativeReader.enabled", False)
    

REST API

U kunt de Clusters-API gebruiken om een cluster met één knooppunt te maken.

Clusterbeleid met één knooppunt

Clusterbeleid vereenvoudigt de clusterconfiguratie voor clusters met één knooppunt.

Kijk eens naar het voorbeeld van een data science-team waarvan de leden geen toestemming hebben om clusters te maken. Een beheerder kan een clusterbeleid maken dat teamleden machtigt om een maximum aantal clusters met één knooppunt te maken met behulp van pools en clusterbeleid:

  1. Een pool maken:

    1. Stel Maximale capaciteit in op .
    2. Schakel in Autopilot-optiesautomatisch schalen in dat is ingeschakeld voor lokale opslag.
    3. Stel Instantietype in op Cluster met één knooppunt.
    4. Selecteer een Azure Databricks versie. Databricks raadt u aan om indien mogelijk de nieuwste versie te gebruiken.
    5. Klik op Create.

    De eigenschappenpagina van de pool wordt weergegeven. Noteer de pagina pool-id en instantietype-id voor de zojuist gemaakte pool.

  2. Een clusterbeleid maken:

    • Stel de pool-id en het instantietype-id in van de pooleigenschappen van de pool.
    • Geef waar nodig beperkingen op.
  3. Verleen het clusterbeleid aan de teamleden. U kunt Gebruikers en groepen beheren gebruiken om gebruikersbeheer te vereenvoudigen.

    {
      "spark_conf.spark.databricks.cluster.profile": {
        "type": "fixed",
        "value": "singleNode",
        "hidden": true
      },
      "instance_pool_id": {
        "type": "fixed",
        "value": "singleNodePoolId1",
        "hidden": true
      },
      "spark_version": {
        "type": "fixed",
        "value": "7.3.x-cpu-ml-scala2.12",
        "hidden": true
      },
      "autotermination_minutes": {
        "type": "fixed",
        "value": 120,
        "hidden": true
      },
      "num_workers": {
        "type": "fixed",
        "value": 0,
        "hidden": true
      },
      "docker_image.url": {
        "type": "forbidden",
        "hidden": true
      }
    }
    

Clusterbeleid voor één knooppunt

Als u een clusterbeleid voor taken wilt instellen, kunt u een vergelijkbaar clusterbeleid definiëren. Stel de cluster_type.type in op en op fixedcluster_type.valuejob . Verwijder alle verwijzingen naar auto_termination_minutes .

{
  "cluster_type": {
    "type": "fixed",
    "value": "job"
  },
  "spark_conf.spark.databricks.cluster.profile": {
    "type": "fixed",
    "value": "singleNode",
    "hidden": true
  },
  "instance_pool_id": {
    "type": "fixed",
    "value": "singleNodePoolId1",
    "hidden": true
  },
  "num_workers": {
    "type": "fixed",
    "value": 0,
    "hidden": true
  },
  "spark_version": {
    "type": "fixed",
    "value": "7.3.x-cpu-ml-scala2.12",
    "hidden": true
  },
  "docker_image.url": {
    "type": "forbidden",
    "hidden": true
  }
}