Ripristino di emergenza per Azure Data Platform - Panoramica

Azure Synapse Analytics
Azure Machine Learning
Azure Cosmos DB
Azure Data Lake
Hub eventi di Azure

Panoramica

Questa serie fornisce un esempio illustrativo del modo in cui un'organizzazione potrebbe progettare una strategia di ripristino di emergenza per una piattaforma dati aziendale di Azure.

Azure offre un'ampia gamma di opzioni di resilienza che possono offrire continuità del servizio in caso di emergenza. Ma i livelli di servizio più elevati possono introdurre complessità e un costo premium. Il compromesso dei costi rispetto alla resilienza rispetto alla complessità è il fattore chiave per il processo decisionale per la maggior parte dei clienti che riguardano il ripristino di emergenza.

Sebbene si verifichino errori occasionali nel servizio di Azure, si noti che Microsoft Data Center e Servizi di Azure hanno più livelli di ridondanza predefiniti. Qualsiasi errore è normalmente limitato nell'ambito e viene in genere recuperato entro un intervallo di ore. Storicamente è molto più probabile che un servizio chiave, ad esempio gestione delle identità, verifichi un problema di servizio anziché un'intera area di Azure che andrà offline.

Si dovrebbe anche riconoscere che gli attacchi informatici, in particolare ransomware, ora rappresentano una minaccia tangibile per qualsiasi ecosistema di dati moderni e possono causare un'interruzione della piattaforma dati. Sebbene si tratta di un ambito non compreso in questa serie, i clienti sono invitati a implementare controlli contro tali attacchi come parte della progettazione della sicurezza e della resilienza della piattaforma dati.

Scope

L'ambito di questa serie di articoli include:

  • Ripristino del servizio di una piattaforma dati di Azure da un'emergenza fisica per una persona illustrativa del cliente. Questo cliente illustrativo è:
    • un'organizzazione di medie dimensioni con una funzione di supporto operativo definita, seguendo una metodologia di gestione dei servizi basata su ITIL
    • non nativo del cloud, con i servizi aziendali principali, servizi condivisi come la gestione dell'accesso e l'autenticazione e la gestione degli eventi imprevisti rimangono in locale
    • nel percorso della migrazione cloud ad Azure, abilitato dall'automazione
  • La piattaforma dati di Azure ha implementato le progettazioni seguenti all'interno della tenancy di Azure del cliente
  • Questo processo verrà eseguito da una risorsa tecnica di Azure anziché da una PMI di Azure specializzata. Di conseguenza, le risorse devono avere il livello seguente di conoscenze/competenze
    • Nozioni fondamentali di Azure : conoscenza di Azure, dei relativi servizi di base e dei componenti dei dati
    • Conoscenza di Azure DevOps. In grado di esplorare il controllo del codice sorgente ed eseguire distribuzioni della pipeline
  • Questo processo descrive il processo di failover, dall'area primaria all'area secondaria

Fuori ambito

Gli elementi seguenti sono considerati non inclusi nell'ambito per questa serie di articoli:

  • Processo di fallback, dall'area secondaria all'area primaria
  • Tutte le applicazioni, i componenti o i sistemi di Azure, inclusi, ma non sono limitati a locali, altri fornitori di cloud, servizi Web di terze parti e così via.
  • Ripristino di tutti i servizi upstream, ad esempio reti locali, gateway, servizi condivisi aziendali e così via, prerequisiti per questo processo
  • Ripristino di tutti i servizi downstream, ad esempio sistemi operativi locali, sistemi di report di terze parti, modellazione dei dati o applicazioni di data science, ecc., dipendenti da questo processo per recuperare i propri servizi
  • Scenari di perdita di dati, inclusi il ripristino da ransomware o da eventi imprevisti di sicurezza dei dati simili
  • Strategie di backup dei dati e piani di ripristino dei dati
  • Definizione della causa radice di un evento di ripristino di emergenza
    • Per gli eventi imprevisti del servizio/componente di Azure, Microsoft pubblica una "Analisi della causa radice" nella pagina Web Stato - Cronologia

Presupposti chiave

I presupposti chiave per questo esempio di ripristino di emergenza sono

  • L'organizzazione segue una metodologia di gestione dei servizi basata su ITIL per il supporto operativo della piattaforma dati di Azure
  • L'organizzazione ha un processo di ripristino di emergenza esistente come parte del relativo framework di ripristino dei servizi per gli asset IT
  • "Infrastruttura come codice" (IaC) è stata usata per distribuire la piattaforma dati di Azure abilitata da un servizio di automazione, ad esempio Azure DevOps o simile
  • Ogni soluzione ospitata dalla piattaforma dati di Azure ha completato una valutazione dell'impatto aziendale o simile, fornendo requisiti di servizio chiari per RPO, RTO e MTO

Passaggi successivi

Dopo aver appreso lo scenario ad alto livello, è possibile passare a informazioni sull'architettura progettata per il caso d'uso.