Data warehouse aziendale

Archiviazione BLOB di Azure
Azure Data Lake
Azure Synapse Analytics

Idee per le soluzioni

Questo articolo è un'idea di soluzione. Per espandere il contenuto con altre informazioni, ad esempio potenziali casi d'uso, servizi alternativi, considerazioni sull'implementazione o indicazioni sui prezzi, inviare commenti e suggerimenti su GitHub.

Questo articolo presenta una soluzione per un data warehouse aziendale in Azure che:

  • Riunisce tutti i dati, indipendentemente dalla scala o dal formato.
  • Consente a tutti gli utenti di ottenere informazioni dettagliate dai dati tramite dashboard analitici, report operativi e analisi avanzate.

Apache e Apache® Spark sono marchi registrati o marchi di Apache Software Foundation nei Stati Uniti e/o in altri paesi. L'uso di questi marchi non implica alcuna approvazione da parte di Apache Software Foundation.

Architettura

Architecture diagram of an enterprise data warehouse that uses Azure Synapse Analytics, Data Lake Storage, Analysis Services, and Power BI.

Scaricare un file di Visio di questa architettura.

Flusso di dati

  1. Le pipeline di Azure Synapse Analytics riuniscono dati strutturati, non strutturati e semistrutturati, ad esempio log, file e supporti. Le pipeline archiviano i dati in Azure Data Lake Archiviazione.
  2. I pool di Apache Spark in Azure Synapse Analytics puliscono e trasformano i dati di Data Lake Archiviazione.
  3. Azure Synapse Analytics combina i dati elaborati con i dati strutturati esistenti, creando un hub dati unificato.
  4. Un pool SQL dedicato rende i dati disponibili per i report operativi e i dashboard analitici che derivano informazioni dettagliate. Azure Analysis Services serve i report e i dashboard a migliaia di utenti finali.

Componenti

  • Azure Synapse Analytics è un servizio di analisi per data warehouse e sistemi di Big Data. Questo strumento usa un'architettura di elaborazione parallela elevata e offre un'integrazione approfondita con i servizi di Azure.
  • Le pipeline di Azure Synapse Analytics consentono di creare, pianificare e orchestrare flussi di lavoro, ad esempio estrarre, caricare, trasformare (ELT) ed estrarre, trasformare, caricare flussi di lavoro (ETL).
  • Archiviazione BLOB di Azure offre un'archiviazione a oggetti altamente scalabile e conveniente per qualsiasi tipo di dati non strutturati, ad esempio immagini, video, audio, documenti e altro ancora.
  • Data Lake Archiviazione è un repository di archiviazione che contiene una grande quantità di dati nel formato nativo e non elaborato. Data Lake Archiviazione è basato su Archiviazione BLOB. Di conseguenza, Data Lake Archiviazione offre scalabilità, archiviazione a livelli, disponibilità elevata e funzionalità di ripristino di emergenza di Archiviazione BLOB.
  • I pool di Spark di Azure Synapse Analytics offrono un framework di elaborazione parallela che supporta l'elaborazione in memoria per migliorare le prestazioni delle applicazioni analitiche di Big Data.
  • Analysis Services è un motore di analisi di livello aziendale che consente agli utenti di eseguire facilmente l'analisi dei dati ad hoc. È possibile usare Analysis Services per gestire, testare e distribuire soluzioni aziendali su larga scala.
  • Power BI è un gruppo di strumenti di Analisi business che consente di distribuire informazioni dettagliate in tutta l'organizzazione. È possibile usare Power BI per connettersi a centinaia di origini dati, semplificare la preparazione dei dati e guidare l'analisi ad hoc. È anche possibile produrre report accattivanti e pubblicarli per l'organizzazione per utilizzarli sul Web e in tutti i dispositivi mobili.

Dettagli dello scenario

Un data warehouse aziendale riunisce tutti i dati, indipendentemente dall'origine, dal formato o dalla scalabilità. Un data warehouse offre anche un modo per eseguire analisi ad alte prestazioni sui dati, in modo da ottenere informazioni dettagliate tramite dashboard analitici, report operativi e analisi avanzate.

Questa soluzione stabilisce un data warehouse che:

  • È una singola fonte di verità per i dati.
  • Integra origini dati relazionali con altri set di dati non strutturati.
  • Usa la modellazione semantica e potenti strumenti di visualizzazione per un'analisi dei dati più semplice.

Per integrare i dati in una piattaforma unificata, questa soluzione usa le pipeline di Azure Synapse Analytics. Queste pipeline offrono funzionalità ELT e ETL. In particolare, è possibile usare le pipeline per spostare i dati nei flussi di lavoro basati sui dati. Le pipeline funzionano con vari formati e strutture di dati.

Le pipeline archiviano i dati in Data Lake Archiviazione, basato su blob Archiviazione. Questo servizio di archiviazione può gestire grandi volumi di dati non strutturati.

I pool di Spark di Azure Synapse Analytics costituiscono una parte chiave della soluzione. Questi pool puliscono e trasformano i dati archiviati in Azure. Il framework di elaborazione parallela supporta l'elaborazione in memoria per garantire velocità ed efficienza. I pool supportano anche il ridimensionamento automatico, in modo da poter aggiungere o rimuovere nodi in base alle esigenze.

Un pool SQL dedicato rende disponibili i dati elaborati per l'analisi ad alte prestazioni. Questo pool archivia i dati in tabelle relazionali con archiviazione a colonne, un formato che riduce significativamente il costo dell'archiviazione dei dati. Migliora anche le prestazioni delle query, in modo da poter eseguire analisi su larga scala.

Potenziali casi d'uso

È possibile usare questa soluzione in scenari come quelli seguenti che coinvolgono grandi volumi di dati:

  • Integrazione dei dispositivi IoT
  • Piattaforme dati dei clienti
  • Elaborazione del linguaggio naturale
  • Algoritmi di apprendimento automatico

Prezzi

Per visualizzare una stima del costo di questa soluzione, vedere un esempio di prezzi nel calcolatore prezzi.

Passaggi successivi