Prodotti dati di analisi su scala cloud in Azure

I prodotti dati sono dati forniti come prodotto e calcolato, salvato e servito da servizi di persistenza poliglotta, che possono essere richiesti da determinati casi d'uso. Il processo di creazione e gestione di un prodotto dati può richiedere servizi e tecnologie che non sono inclusi nei servizi principali della zona di destinazione dei dati . Un esempio di questo comportamento è la creazione di report con requisiti di nicchia, ad esempio la conformità e la segnalazione fiscale.

Considerazioni relative alla progettazione

Una zona di destinazione dei dati può essere servita da più prodotti dati creati inserendo i dati dall'interno della stessa zona di destinazione dei dati o da più zone di destinazione dei dati. Questa operazione è illustrata nel diagramma seguente.

Diagramma del consumo di zona di destinazione tra dati.

Nell'esempio precedente vengono illustrati i due concetti seguenti:

  • Uso di dati intrazonale:
    • Il prodotto dati B utilizza i dati del prodotto dati A e altri dati o prodotti dati esistenti nel data lake all'interno della propria zona di destinazione.
    • I prodotti dati C e D utilizzano solo i dati all'interno delle rispettive zone di destinazione dei dati.
  • Uso di dati interzonale:
    • Il prodotto dati B utilizza anche i dati del prodotto dati C e i dati nel data lake della zona di destinazione 3.

Importante

Nel caso dell'utilizzo dei dati tra zone, poiché il prodotto B dei dati viene creato leggendo dalla zona di destinazione dei dati 3, l'accesso in lettura richiede l'approvazione delle operazioni della zona di destinazione dei dati e dei team operativi di integrazione della zona di destinazione dei dati 3.

Importante

Il prodotto dati B utilizza i dati dei prodotti dati A e C. Prima che ciò possa verificarsi, il prodotto dati B deve registrare il consumo di prodotti dati tramite contratti di condivisione dei dati. In questo contratto deve essere aggiornata la derivazione dei dati dal prodotto dati A al prodotto dati B e dal prodotto dati C al prodotto dati B.

Il gruppo di risorse per un prodotto dati include tutti i servizi necessari per crearlo e gestirlo. È possibile chiamare questo gruppo di risorse un'applicazione dati. Esempi di servizi che potrebbero far parte di un'applicazione dati includono Funzioni di Azure, Servizio app di Azure, App per la logica, Azure Analysis Services, Servizi cognitivi di Azure, Azure Machine Learning, Azure SQL Database, Database di Azure per MySQL e Azure Cosmos DB. Per altre informazioni, vedere Esempi di applicazioni dati.

I prodotti dati hanno dati provenienti da origini dati READ che hanno applicato alcune trasformazioni dei dati. Alcuni esempi possono essere un set di dati appena curato o un report bi.

Suggerimenti per la progettazione

Creare prodotti dati all'interno della zona di destinazione dei dati rispettando i principi di progettazione che consentono di ridimensionare con la governance dei dati. Le sezioni seguenti forniscono consigli di progettazione utili per pianificare l'ecosistema di applicazioni dati.

Distribuire più gruppi di risorse

Ogni applicazione dati è un gruppo di risorse. Poiché le applicazioni dati sono servizi di calcolo, servizi di persistenza poliglotta o entrambi, possono essere necessari solo a seconda di determinati casi d'uso. Di conseguenza, vengono considerati un componente facoltativo della zona di destinazione dei dati. In un caso in cui sono necessarie applicazioni dati, creare più gruppi di risorse in base all'applicazione dati come illustrato nel diagramma seguente.

Diagramma dei gruppi di risorse dell'applicazione dati.

Impostare strumenti di protezione

Criteri di Azure determina la configurazione predefinita dei servizi all'interno di una zona di destinazione dei dati. Si pensi all'analisi operativa come a più gruppi di risorse che il team del prodotto dati può richiedere da un catalogo di servizi standard. Usando Criteri di Azure, è possibile configurare il limite di sicurezza e il set di funzionalità richiesto.

Importante

Per favorire la coerenza, configurare una Criteri di Azure per ogni applicazione dati.

Utilizzare i dati da più posizioni

Le applicazioni dati gestiscono, organizzano e hanno senso dei dati da più asset di dati e presentano eventuali informazioni dettagliate acquisite. Un prodotto dati è il risultato dei dati di una o più applicazioni dati all'interno delle zone di destinazione dei dati. Consentire alle applicazioni dati di accedere ai dati da più origini e da varie origini quando necessario.

Ridimensionare i prodotti dati in base alle esigenze

I servizi che costituiscono applicazioni dati sono distribuzioni incrementali nella zona di destinazione dei dati. Ridimensionare le applicazioni dati in base alle esigenze.

Abilitare l'individuazione dei dati

Registrare automaticamente i prodotti dati in un catalogo dati, ad esempio Azure Purview , per consentire l'analisi dei dati.

Identificare i prodotti dati

Durante l'avvio della pianificazione di una zona di destinazione dei dati, identificare tutti i prodotti dati (e le applicazioni dati che li generano e gestirli) in base alle esigenze per favorire l'architettura dell'applicazione del prodotto dati. La conformità alla governance della piattaforma implementata deve svolgere il ruolo più importante nelle decisioni.

Concentrarsi sul modo in cui le applicazioni dati sono produttori di dati e consumer per altri utenti. Si supponga, ad esempio, di aver identificato una suite di prodotti dati (A, B, C e D) prodotti e utilizzati. Sono necessari prodotti dati A e D come origini per i dati nell'applicazione dati B per il prodotto dati B. I dati B vengono creati dai dati utilizzati dall'applicazione dati B dai prodotti dati A e D. L'applicazione dati B funge da produttore dati stesso e produce anche i dati per il prodotto dati C.

Diagramma di un producer di dati e di consumer.

Controllare l'ambiente dell'applicazione dati con infrastruttura distribuita come codice

La governance e l'infrastruttura come codice devono controllare l'ambiente dell'applicazione dati nell'ecosistema di prodotti dati, come illustrato nel diagramma precedente.

Pubblicare modelli di dati

I team del prodotto dati devono pubblicare i modelli di dati in un repository di modellazione.

Impostare le aspettative per gli utenti dei prodotti dati

Aggiornare i contratti di condivisione dei dati con contratti di servizio e certificazioni per i prodotti dati in modo da trasmettere aspettative accurate ai potenziali utenti del prodotto dati.

Acquisire la derivazione dei dati

Se il prodotto dati B viene creato dai dati provenienti dai prodotti dati A e D, la derivazione deve essere acquisita da A e D a B. È inoltre necessario acquisire ulteriore derivazione per il prodotto dati C, poiché viene creato usando i dati del prodotto dati B. La derivazione aggiornata deve essere acquisita in un'applicazione di derivazione dati prima di ogni rilascio del prodotto dati.

Nota

L'uso di Azure Pipelines consente di creare controlli di approvazione e richiamare funzioni in grado di assicurarsi che i metadati, la derivazione e i contratti di servizio siano registrati nel servizio di governance corretto.

Definire l'architettura dell'applicazione dati

È necessario creare un'architettura dettagliata per ogni prodotto dati che ne definisce completamente la relazione con altri prodotti dati, le relative dipendenze e i relativi requisiti di accesso.

Scenario di progettazione di esempio

Per comprendere il processo di definizione dell'architettura, esplorare l'esempio seguente di un istituto finanziario e il relativo prodotto di dati di monitoraggio del credito.

Diagramma dettagliato dell'architettura define-data-product.

Il prodotto dei dati di monitoraggio del credito illustrato in questo diagramma utilizza i dati di un archivio dati di lettura inserito dal team delle operazioni di integrazione. Produce anche i prodotti dati utilizzati da altri due prodotti dati.

Nota

Un'origine dati o un archivio di lettura è noto anche come origine record golden. Queste origini dati sono state pulite, ma non sono state applicate trasformazioni.

Il team del prodotto dei dati di monitoraggio del credito richiede l'accesso in lettura agli archivi dati necessari per la creazione del prodotto dati. Le richieste vengono instradate ai proprietari dei dati per l'approvazione. Una volta ricevuta l'approvazione, il team del prodotto può iniziare a creare l'applicazione dati.

I dati dell'origine dati di lettura vengono trasformati nei prodotti di dati di monitoraggio del credito. Tutti i nuovi prodotti dati vengono archiviati nel livello curato del data lake. Questi nuovi prodotti dati e la nuova derivazione dei dati devono essere registrati come parte del processo di distribuzione DevOps. Una funzione può controllare i metadati registrati con la struttura fisica dell'asset di dati. Deve registrare la dipendenza dagli asset di dati e dai prodotti dati dell'origine dati di lettura.

Il team del prodotto dei dati di approvazione del prestito ha una dipendenza da alcuni dei prodotti di dati di monitoraggio del credito. Il team di approvazione dei prestiti potrebbe richiedere l'accesso in lettura ai prodotti dati di monitoraggio del credito necessari per i prodotti dati. Dopo aver rilasciato il prodotto dati di approvazione del prestito e la relativa applicazione dati, tutti gli asset di prodotto dati, la derivazione e i modelli devono essere registrati nei servizi di governance pertinenti.

Applicazioni di dati di esempio

Le sezioni seguenti contengono applicazioni dati di esempio per illustrare ulteriormente gli scenari dell'applicazione dati.

Applicazione di analisi dei dati e data science

Un'applicazione per l'analisi dei dati e l'analisi scientifica dei dati può contenere i servizi visualizzati nell'applicazione product-analytics-rgdati di esempio .

Diagramma che mostra i possibili servizi che è possibile selezionare per la distribuzione dell'applicazione dati di Analisi.

Nota

L'applicazione dati precedente è disponibile come modello, che distribuisce un set di servizi che è possibile usare per l'analisi dei dati e l'analisi scientifica dei dati. Come tutti i modelli, questo modello di applicazione del prodotto dati è un progetto che è possibile usare per creare rapidamente ambienti per i team interfunzionali. Tutti i servizi non necessari devono essere disabilitati in modo esplicito.

Il modello Analisi prodotto dati contiene tutti i modelli per la distribuzione di un prodotto dati per l'analisi e l'analisi scientifica dei dati all'interno di una zona di destinazione dei dati dello scenario di analisi su scala cloud.

Gli artefatti di distribuzione e codice includono i servizi seguenti:

Applicazione dati batch

Il modello di applicazione dati Batch contiene tutti i modelli per la distribuzione di un prodotto dati per l'elaborazione dei dati batch all'interno di una zona di destinazione dei dati di analisi su scala cloud.

Gli artefatti di distribuzione e codice includono i servizi seguenti:

Diagramma che mostra i possibili servizi che possono essere selezionati per la distribuzione di applicazioni dati Batch.

Applicazione dati di streaming

Il modello di applicazione dati di streaming contiene tutti i modelli per la distribuzione di un prodotto dati per l'elaborazione dei dati in tempo reale all'interno di un'area di destinazione degli scenari di analisi su scala cloud

Gli artefatti di distribuzione e codice includono i servizi seguenti:

Diagramma che mostra i possibili servizi che possono essere selezionati per la distribuzione di applicazioni dati di streaming.

Per trovare i repository contenenti i modelli di distribuzione indicati in precedenza, fare riferimento ai modelli di distribuzione per l'analisi su scala cloud

Passaggi successivi

Applicazioni dati (allineate all'origine)