Che cos'è Collegamento ad Azure Synapse per Azure Cosmos DB?

SI APPLICA A: NoSQL MongoDB Gremlin

Collegamento ad Azure Synapse per Azure Cosmos DB è una funzionalità HTAP (Hybrid Transactional and Analytical Processing) nativa del cloud che consente di eseguire analisi quasi in tempo reale su dati operativi in Azure Cosmos DB. Collegamento ad Azure Synapse crea una stretta integrazione tra Azure Cosmos DB e Azure Synapse Analytics.

L'archivio analitico di Azure Cosmos DB, un archivio a colonne completamente isolato, può essere usato con Collegamento a Synapse di Azure per abilitare l'analisi ETL (Extract-Transform-Load, estrazione, trasformazione e caricamento) in Azure Synapse Analytics su dati operativi su larga scala. Gli analisti aziendali, gli ingegneri dei dati e gli scienziati dei dati possono ora usare Synapse Spark o Synapse SQL in modo intercambiabile per eseguire attività di business intelligence, analisi e pipeline di Machine Learning quasi in tempo reale. È possibile analizzare i dati in tempo reale senza influire sulle prestazioni dei carichi di lavoro transazionali in Azure Cosmos DB.

L'immagine seguente mostra l'integrazione di Collegamento ad Azure Synapse con Azure Cosmos DB e Azure Synapse Analytics:

Architecture diagram for Azure Synapse Analytics integration with Azure Cosmos DB

Per analizzare set di dati operativi di grandi dimensioni riducendo al minimo gli effetti sulle prestazioni dei carichi di lavoro transazionali cruciali, i clienti di Azure Cosmos DB esportano tradizionalmente i dati operativi. Queste operazioni vengono eseguite dalle pipeline Extract-Transform-Load (ETL), che richiedono molti livelli di gestione dei dati e dei processi, con conseguente complessità operativa ed effetti sulle prestazioni sui carichi di lavoro transazionali. L'analisi di dati operativi dal momento in cui vengono generati comporta inoltre un aumento della latenza.

Rispetto alle soluzioni tradizionali basate su ETL, Collegamento ad Azure Synapse per Azure Cosmos DB offre diversi vantaggi, ad esempio:

Riduzione della complessità senza processi ETL da gestire

Collegamento ad Azure Synapse consente di accedere direttamente all'archivio analitico di Azure Cosmos DB tramite Azure Synapse Analytics senza complessi spostamenti di dati. Tutti gli aggiornamenti apportati ai dati operativi sono visibili nell'archivio analitico quasi in tempo reale senza ETL o processi di feed di modifiche. È possibile eseguire analisi su larga scala nell'archivio analitico, da Azure Synapse Analytics, senza una trasformazione aggiuntiva dei dati.

Informazioni dettagliate quasi in tempo reale sui dati operativi

È ora possibile ottenere informazioni dettagliate sui dati operativi quasi in tempo reale usando Collegamento ad Azure Synapse. I sistemi basati su ETL tendono ad avere una latenza più elevata per l'analisi dei dati operativi, a causa dei molti livelli necessari per estrarli, trasformarli e caricarli. Grazie all'integrazione nativa dell'archivio analitico di Azure Cosmos DB con Azure Synapse Analytics, è possibile analizzare i dati operativi quasi in tempo reale, rendendo possibili nuovi scenari aziendali.

Nessuna compromissione delle prestazioni nei carichi di lavoro operativi

Con Collegamento ad Azure Synapse è possibile eseguire query analitiche su un archivio analitico di Azure Cosmos DB, una rappresentazione dell'archivio colonne dei dati. È possibile eseguire le query durante l'elaborazione delle operazioni transazionali usando la velocità effettiva con provisioning per il carico di lavoro transazionale, nell'archivio transazionale basato su righe di Azure Cosmos DB. Il carico di lavoro analitico è indipendente dal traffico del carico di lavoro transazionale e non dalla velocità effettiva allocata per i dati operativi.

Ottimizzazione per carichi di lavoro analitici su larga scala

L'archivio analitico di Azure Cosmos DB è ottimizzato per offrire scalabilità, elasticità e prestazioni per carichi di lavoro analitici senza alcuna dipendenza dai runtime di calcolo. La tecnologia di archiviazione è gestita automaticamente per ottimizzare i carichi di lavoro analitici. Grazie al supporto incorporato in Azure Synapse Analytics, l'accesso al livello di archiviazione assicura semplicità e prestazioni elevate.

Conveniente

Con Collegamento ad Azure Synapse, si ottiene una soluzione per l'analisi operativa completamente gestita e ottimizzata per i costi. Elimina i livelli di archiviazione e calcolo aggiuntivi necessari nelle pipeline ETL tradizionali per l'analisi dei dati operativi.

L'archivio analitico di Azure Cosmos DB segue un modello di determinazione dei prezzi a consumo, in base all'archiviazione dei dati e al numero di operazioni di lettura/scrittura e di query di analisi eseguite. Non è necessario allocare una velocità effettiva, come è attualmente richiesto per i carichi di lavoro transazionali. L'accesso ai dati con motori di calcolo estremamente elastici da Azure Synapse Analytics aumenta in modo significativo l'efficienza dei costi complessivi associati alla gestione delle risorse di archiviazione e di calcolo.

Analisi per scritture di più aree disponibili localmente e distribuite a livello globale

È possibile eseguire efficacemente query analitiche sulla copia locale dei dati più vicina in Azure Cosmos DB. Azure Cosmos DB include la funzionalità all'avanguardia per l'esecuzione dei carichi di lavoro analitici distribuiti a livello globale oltre che dei carichi di lavoro transazionali in modalità attiva/attiva.

Abilitare scenari HTAP per i dati operativi

Collegamento ad Azure Synapse raggruppa l'archivio analitico di Azure Cosmos DB con il supporto del runtime analitico di Azure Synapse. Questa integrazione consente di creare soluzioni HTAP native del cloud che generano informazioni dettagliate basate su aggiornamenti in tempo reale per i dati operativi su set di dati di grandi dimensioni. È così possibile realizzare nuovi scenari aziendali per generare avvisi basati su tendenze dinamiche, creare dashboard quasi in tempo reale e definire esperienze aziendali basate sul comportamento degli utenti.

Archivio analitico di Azure Cosmos DB

L'archivio analitico di Azure Cosmos DB è una rappresentazione orientata alle colonne dei dati operativi disponibili in Azure Cosmos DB. Questo archivio analitico è adatto per query veloci e convenienti su set di dati operativi di grandi dimensioni. Questo archivio può eseguire query sui dati senza copiare i dati e influire sulle prestazioni dei carichi di lavoro transazionali.

L'archivio analitico preleva automaticamente inserimenti, aggiornamenti ed eliminazioni ad alta frequenza nei carichi di lavoro transazionali quasi in tempo reale, come funzionalità completamente gestita (sincronizzazione automatica) di Azure Cosmos DB. Non sono necessari feed di modifiche o processi ETL.

Se si ha un account Azure Cosmos DB distribuito a livello globale, un archivio analitico abilitato per un contenitore sarà disponibile in tutte le aree per tale account. Per altre informazioni sull'archivio analitico, vedere l'articolo Panoramica dell'archivio analitico di Azure Cosmos DB.

Con Collegamento ad Azure Synapse è ora possibile connettersi direttamente ai contenitori Azure Cosmos DB da Azure Synapse Analytics e accedere all'archivio analitico senza connettori separati. Azure Synapse Analytics attualmente supporta Collegamento ad Azure Synapse con i pool di Apache Spark per Synapse e i pool SQL serverless.

È possibile eseguire query sui dati dell'archivio analitico di Azure Cosmos DB simultaneamente, con interoperabilità tra diversi runtime di analisi supportati da Azure Synapse Analytics. Per analizzare i dati operativi, non è necessario eseguire trasformazioni extra. È possibile eseguire query e analizzare i dati dell'archivio analitico tramite:

  • Synapse Apache Spark con supporto completo per Scala, Python, SparkSQL e C#. Synapse Spark è fondamentale per gli scenari di ingegneria dei dati e data science

  • Il pool SQL serverless con linguaggio T-SQL e supporto per strumenti di BI familiari, ad esempio Power BI Premium e così via.

Nota

Da Azure Synapse Analytics è possibile accedere agli archivi analitici e transazionali nel contenitore Azure Cosmos DB. Se tuttavia si vuole eseguire un'analisi su larga scala dei dati operativi, è consigliabile usare l'archivio analitico per evitare l'impatto sulle prestazioni dei carichi di lavoro transazionali.

Nota

È possibile eseguire analisi a bassa latenza in un'area di Azure connettendo il contenitore Azure Cosmos DB al runtime di Synapse in tale area.

Questa integrazione consente gli scenari HTAP seguenti per utenti diversi:

  • Un ingegnere di business intelligence che vuole modellare e pubblicare un report di Power BI per l'accesso ai dati operativi live di Azure Cosmos DB direttamente tramite Synapse SQL.

  • Un analista di dati che vuole ricavare informazioni dettagliate dai dati operativi di un contenitore Azure Cosmos DB eseguendo query con Synapse SQL, leggere i dati su larga scala e combinare i risultati con altre origini dati.

  • Uno scienziato dei dati che vuole usare Synapse Spark per trovare una funzionalità che consenta di migliorare il modello e sottoporlo a training senza eseguire operazioni complesse di ingegneria dei dati. I risultati del modello possono anche essere scritti dopo l'inferenza in Azure Cosmos DB per l'assegnazione di punteggi in tempo reale ai dati tramite Spark Synapse.

  • Un ingegnere dei dati che vuole rendere i dati accessibili ai consumer creando tabelle SQL o Spark su contenitori Azure Cosmos DB senza processi ETL manuali.

Per altre informazioni sul supporto del runtime di Azure Synapse Analytics per Azure Cosmos DB, vedere Supporto di Azure Synapse Analytics per Azure Cosmos DB.

Collegamento ad Azure Synapse è consigliato per i clienti di Azure Cosmos DB che vogliono eseguire attività di analisi, BI e Machine Learning sui dati operativi. Ad esempio:

  • Si eseguono attività di analisi o BI sui dati operativi di Azure Cosmos DB direttamente usando connettori separati

  • Si eseguono processi ETL per estrarre dati operativi in un sistema di analisi distinto.

In questi casi, Collegamento ad Azure Synapse offre un'esperienza di analisi maggiormente integrata senza influire sulla velocità effettiva con provisioning dell'archivio transazionale.

Collegamento ad Azure Synapse non è consigliato se si cercano i requisiti tradizionali del data warehouse. Questi requisiti possono includere concorrenza elevata, gestione del carico di lavoro e persistenza delle aggregazioni in più origini dati. Per altre informazioni, vedere gli scenari comuni che possono essere basati su Collegamento ad Azure Synapse per Azure Cosmos DB.

Limiti

  • Collegamento ad Azure Synapse per Azure Cosmos DB è supportato per le API NoSQL e MongoDB. Non è supportato per le API Cassandra o Table e rimane in anteprima per l'API Gremlin.

  • L'accesso all'archivio di analisi di Azure Cosmos DB con il pool SQL dedicato di Azure Synapse non è attualmente supportato.

  • Anche se i dati dell'archivio analitico non vengono sottoposti a backup e pertanto non possono essere ripristinati, è possibile ricompilare l'archivio analitico eseguendo di nuovo Collegamento ad Azure Synapse nel contenitore ripristinato. Per altre informazioni, vedere la documentazione dell'archivio analitico.

  • La possibilità di attivare Collegamento a Synapse negli account di database con backup continuo abilitato è ora disponibile. Tuttavia la situazione opposta, ossia attivare il backup continuo negli account di database abilitati per Collegamento a Synapse, non è ancora supportata.

  • Il controllo degli accessi in base al ruolo granulare non è supportato durante l'esecuzione di query da Synapse. Gli utenti che hanno accesso all'area di lavoro di Synapse e hanno accesso all'account Azure Cosmos DB possono accedere a tutti i contenitori all'interno di tale account. Attualmente un accesso più granulare ai contenitori non è supportato.

  • Attualmente le aree di lavoro di Azure Synapse non supportano i servizi collegati usando Managed Identity. Usare sempre l'opzione MasterKey.

  • Attualmente gli account di scrittura in più aree non sono consigliati per gli ambienti di produzione.

Sicurezza

Collegamento ad Azure Synapse consente di eseguire analisi quasi in tempo reale sui dati cruciali in Azure Cosmos DB. È fondamentale assicurarsi che i dati aziendali critici vengano archiviati in modo sicuro in archivi transazionali e analitici. Collegamento ad Azure Synapse per Azure Cosmos DB è progettato per soddisfare questi requisiti di sicurezza tramite le funzionalità seguenti:

  • Isolamento rete usando endpoint privati: è possibile controllare l'accesso di rete ai dati negli archivi transazionali e analitici in modo indipendente. L'isolamento della rete viene eseguito usando endpoint privati gestiti separati per ogni archivio, all'interno di reti virtuali gestite nelle aree di lavoro di Azure Synapse. Per altre informazioni, vedere l'articolo su come Configurare gli endpoint privati per l'archivio analitico.

  • Crittografia dei dati con chiavi gestite dal cliente: è possibile crittografare facilmente i dati tra archivi transazionali e analitici usando le stesse chiavi gestite dal cliente in modo automatico e trasparente. Collegamento ad Azure Synapse supporta solo la configurazione delle chiavi gestite dal cliente usando l'identità gestita dell'account Azure Cosmos DB. È necessario configurare l'identità gestita dell'account nei criteri di accesso di Azure Key Vault prima di abilitare Collegamento ad Azure Synapse nell'account. Per altre informazioni, vedere come configurare le chiavi gestite dal cliente usando le identità gestite dell'account Azure Cosmos DB.

  • Gestione delle chiavi sicura: l'accesso ai dati nell'archivio analitico dai pool SQL serverless Synapse Spark e Synapse richiede la gestione delle chiavi di Azure Cosmos DB all'interno delle aree di lavoro di Synapse Analytics. Anziché usare le chiavi dell'account Azure Cosmos DB inline nei processi Spark o negli script SQL, Collegamento ad Azure Synapse offre funzionalità più sicure:

    • Quando si usano pool SQL serverless di Synapse, è possibile eseguire query nell'archivio analitico di Azure Cosmos DB creando preventivamente credenziali SQL che archiviano le chiavi dell'account e facendo riferimento a queste chiavi nella funzione OPENROWSET. Per altre informazioni, vedere l'articolo Eseguire query con un pool SQL serverless in Collegamento ad Azure Synapse.

    • Quando si usa Synapse Spark, è possibile archiviare le chiavi dell'account in oggetti servizio collegati che puntano a un database di Azure Cosmos DB e fare riferimento alle chiavi nella configurazione di Spark in fase di esecuzione. Per altre informazioni, vedere l'articolo Copiare dati in un pool SQL dedicato con Apache Spark.

Prezzi

Il modello di fatturazione di Collegamento ad Azure Synapse include i costi sostenuti con l'uso dell'archivio analitico di Azure Cosmos DB e del runtime di Synapse. Per altre informazioni, vedere gli articoli Prezzi dell'archivio analitico di Azure Cosmos DB e Prezzi di Azure Synapse Analytics.

Passaggi successivi

Per altre informazioni, vedere la documentazione seguente: