Apache Spark di pool in Azure Synapse Analytics

Un pool Spark è un set di metadati che definisce i requisiti delle risorse di calcolo e le caratteristiche di comportamento associate quando viene creata un'istanza di Spark. Queste caratteristiche includono, ma non sono limitate al nome, al numero di nodi, alle dimensioni dei nodi, al comportamento di ridimensionamento e al tempo di vita. Un pool Spark di per sé non usa risorse. Non sono previsti costi per la creazione di pool Spark. Gli addebiti vengono sostenuti solo dopo l'esecuzione di un processo Spark nel pool Spark di destinazione e la creazione di un'istanza di Spark su richiesta.

Per informazioni su come creare un pool di Spark e visualizzarne tutte le proprietà, vedere Creare un pool di Apache Spark (anteprima) in Synapse Analytics usando gli strumenti Web.

Calcolo isolato

L'opzione Calcolo isolato offre sicurezza aggiuntiva alle risorse di calcolo Spark da servizi non attendibili dedicando la risorsa di calcolo fisica a un singolo cliente. ambiente di calcolo isolato'opzione è più adatta per i carichi di lavoro che richiedono un elevato livello di isolamento dai carichi di lavoro di altri clienti per motivi che includono la conformità e i requisiti normativi.
L'opzione Isola calcolo è disponibile solo con le dimensioni del nodo XXXLarge (80 vCPU/504 GB) e solo nelle aree seguenti. L'opzione di calcolo isolato può essere abilitata o disabilitata dopo la creazione del pool, anche se potrebbe essere necessario riavviare l'istanza. Se si prevede di abilitare questa funzionalità in futuro, assicurarsi che l'area di lavoro Synapse sia creata in un'area di calcolo isolata supportata.

  • Stati Uniti orientali
  • Stati Uniti occidentali 2
  • Stati Uniti centro-meridionali
  • US Gov Arizona
  • US Gov Virginia

Nodi

Apache Spark'istanza del pool è costituita da un nodo head e da due o più nodi di lavoro con almeno tre nodi in un'istanza di Spark. Il nodo head esegue servizi di gestione aggiuntivi, ad esempio Livy, Yarn Resource Manager, Zookeeper e il driver Spark. Tutti i nodi eseguono servizi come Node Agent e Yarn Node Manager. Tutti i nodi di lavoro eseguono il servizio Executor Spark.

Dimensioni dei nodi

Un pool Spark può essere definito con dimensioni di nodo che vanno da un nodo di calcolo Small con 8 vCore e 64 GB di memoria fino a un nodo di calcolo XXLarge con 64 vCore e 432 GB di memoria per nodo. Le dimensioni dei nodi possono essere modificate dopo la creazione del pool, anche se potrebbe essere necessario riavviare l'istanza.

Dimensione vCore Memoria
Small 4 32 GB
Medio 8 64 GB
Grande 16 128 GB
XLarge 32 256 GB
XXLarge 64 432 GB
XXX Large (calcolo isolato) 80 504 GB

Autoscale

Apache Spark pool consentono di aumentare e ridimensionare automaticamente le risorse di calcolo in base alla quantità di attività. Quando la funzionalità di scalabilità automatica è abilitata, è possibile impostare il numero minimo e massimo di nodi da ridimensionare. Quando la funzionalità di scalabilità automatica è disabilitata, il numero di nodi impostati rimarrà fisso. Questa impostazione può essere modificata dopo la creazione del pool, anche se potrebbe essere necessario riavviare l'istanza.

Sospensione automatica

La funzionalità di sospensione automatica rilascia le risorse dopo un periodo di inattività impostato riducendo il costo complessivo di un Apache Spark pool. Il numero di minuti di tempo di inattività può essere impostato una volta abilitata questa funzionalità. La funzionalità di sospensione automatica è indipendente dalla funzionalità di scalabilità automatica. Le risorse possono essere sospese indipendentemente dal fatto che la scalabilità automatica sia abilitata o disabilitata. Questa impostazione può essere modificata dopo la creazione del pool, anche se potrebbe essere necessario riavviare l'istanza.

Passaggi successivi