Sincronizzare Apache Spark per le definizioni di tabelle esterne di Azure Synapse in un pool SQL serverless

Il pool SQL serverless consente di sincronizzare automaticamente i metadati di Apache Spark. Per ogni database esistente nei pool di Apache Spark serverless verrà creato un database del pool SQL serverless.

Per ogni tabella esterna Spark basata su Parquet o CSV e inclusa in Archiviazione di Azure, viene creata una tabella esterna nel database del pool SQL serverless. Di conseguenza, è possibile arrestare i pool di Spark e continuare a eseguire query sulle tabelle esterne Spark dal pool SQL serverless.

Quando una tabella viene partizionata in Spark, i file nell'account di archiviazione sono organizzati in base a cartelle. Per la query, il pool SQL serverless userà i metadati della partizione e solo le cartelle e i file pertinenti come destinazione.

La sincronizzazione dei metadati viene configurata automaticamente per ogni pool di Apache Spark serverless nell'area di lavoro di Azure Synapse. È possibile iniziare immediatamente a eseguire query sulle tabelle esterne Spark.

Ogni tabella esterna Spark basata su Parquet o CSV inclusa in Archiviazione di Azure viene rappresentata con una tabella esterna in uno schema dbo che corrisponde a un database del pool SQL serverless.

Per le tabelle esterne Spark, eseguire una query destinata a una tabella esterna [spark_table]. Prima di eseguire l'esempio seguente, assicurarsi di avere l'accesso corretto all'account di archiviazione in cui si trovano i file.

SELECT * FROM [db].dbo.[spark_table]

Mapping tra tipi di dati Apache Spark e tipi di dati SQL

Per altre informazioni sul mapping dei tipi di dati Apache Spark ai tipi di dati SQL, vedere Tabelle di metadati condivise di Azure Synapse Analytics.

Passaggi successivi

Per altre informazioni sul controllo di accesso all'archiviazione, vedere l'articolo corrispondente.