Elenco di controllo per la revisione della progettazione per Affidabilità

Questo elenco di controllo presenta un set di consigli da usare per valutare l'affidabilità, la resilienza e le strategie di ripristino degli errori nella progettazione dell'architettura. Per garantire l'affidabilità, identificare l'infrastruttura e la progettazione dell'applicazione migliori per il carico di lavoro. Prendere queste decisioni in base ai requisiti aziendali mappati alle metriche di destinazione di disponibilità e ripristino.

Per implementare una progettazione affidabile, considerare attentamente i punti decisionali nella progettazione e tenere presente come queste decisioni influiscono sul carico di lavoro. Questo elenco di controllo e le guide associate forniscono risorse che consentono di prendere queste decisioni. Rendere l'affidabilità del carico di lavoro una considerazione centrale durante la progettazione, lo sviluppo e il ciclo di vita dell'operazione del carico di lavoro.

Elenco di controllo

Approcciare la progettazione con un'attenzione all'affidabilità per garantire la progettazione di un carico di lavoro resiliente, gestibile e ripetibile. Se non si includono le procedure di affidabilità e si considerino i compromessi, la progettazione è potenzialmente a rischio. Considerare attentamente tutti i punti trattati nell'elenco di controllo per infondere fiducia nel successo del sistema.

  Codice Recommendation
RE:01 Progettare il carico di lavoro per allinearsi agli obiettivi aziendali ed evitare complessità o sovraccarico non necessari. Usare un approccio pratico ed bilanciato per prendere decisioni di progettazione che forniscono i risultati desiderati. Contenere la progettazione alle necessità per ridurre l'inefficienze e i potenziali problemi.
RE:02 Identificare e valutare i flussi utente e di sistema. Usare una scalabilità di criticità in base ai requisiti aziendali per assegnare priorità ai flussi.
RE:03 Usare l'analisi della modalità di errore (FMA) per identificare e definire le priorità di potenziali errori nei componenti della soluzione. Eseguire FMA per valutare il rischio e l'effetto di ogni modalità di errore. Determinare il modo in cui il carico di lavoro risponde e recupera.
RE:04 Definire obiettivi di affidabilità e ripristino per i componenti, i flussi e la soluzione complessiva. Visualizzare gli obiettivi per negoziare, ottenere consenso, impostare le aspettative e guidare le azioni per ottenere lo stato ideale. Usare le destinazioni definite per compilare il modello di integrità. Il modello di integrità definisce gli stati integri, degradati e non integri.
RE:05
RE:05
RE:05
Aggiungere ridondanza a livelli diversi, soprattutto per i flussi critici. Applicare la ridondanza ai livelli di calcolo, dati, rete e altri livelli di infrastruttura in conformità alle destinazioni di affidabilità identificate.
RE:06
RE:06
Implementare una strategia di scalabilità tempestiva e affidabile a livello di applicazione, dati e infrastruttura.
RE:07
RE:07
RE:07
Rafforzare la resilienza e la recuperabilità del carico di lavoro implementando misure di auto-conservazione e auto-guarigione. Creare funzionalità nella soluzione usando modelli di affidabilità basati sull'infrastruttura e modelli di progettazione basati su software per gestire gli errori dei componenti e gli errori temporanei. Creare funzionalità nel sistema per rilevare gli errori dei componenti della soluzione e avviare automaticamente l'azione correttiva mentre il carico di lavoro continua a funzionare con funzionalità complete o ridotte.
RE:08 Testare scenari di resilienza e disponibilità applicando i principi di progettazione del caos negli ambienti di test e produzione. Usare i test per garantire che l'implementazione e la scalabilità di riduzione della tolleranza siano efficaci eseguendo errori attivi e test di carico simulati.
RE:09 Implementare piani strutturati, testati e documentati di continuità aziendale e ripristino di emergenza (BCDR) allineati alle destinazioni di ripristino. I piani devono coprire tutti i componenti e il sistema nel suo complesso.
RE:10 Misurare e modellare i segnali di integrità della soluzione. Acquisire continuamente il tempo di attività e altri dati di affidabilità provenienti da tutto il carico di lavoro e anche da singoli componenti e flussi chiave.

Passaggi successivi

È consigliabile esaminare i compromessi di affidabilità per esplorare altri concetti.