Share via


Osservabilità nel monitoraggio cloud

Questo articolo fa parte di una serie della guida al monitoraggio del cloud.

Le sezioni seguenti mirano a favorire la maturità operativa osservando e eseguendo costantemente l'iterazione per migliorare il modo in cui si monitorano i servizi. Informazioni su come le organizzazioni implementano una strategia di monitoraggio coerente più rapidamente stabilendo l'osservabilità per ogni soluzione di monitoraggio.

Definizione dell'osservabilità

Mentre l'osservabilità e il monitoraggio si integrano tra loro, esiste una distinzione notevole:

  • Monitoraggio: raccoglie informazioni e informa l'utente che ha rilevato un problema in base alla configurazione per il monitoraggio di tali condizioni. Si sta monitorando per errori noti o prevedibili.
  • Osservabilità: la possibilità di comprendere cosa accade all'interno di un sistema esaminando i dati di output. Una soluzione di osservabilità consente di analizzare questi dati per valutare l'integrità del sistema e trovare modi per risolvere i problemi nell'infrastruttura IT.

L'osservabilità guida innanzitutto il consumer di monitoraggio a comprendere cosa viene considerato il normale funzionamento di un servizio. In altre parole, si cerca visibilità totale il prima possibile.

Una volta ottenuta l'osservabilità iniziale, si basa su tale livello iniziale di visibilità per sviluppare avvisi interattivi, creare dashboard utili e valutare le soluzioni AIOps. Queste informazioni dettagliate consentono di acquisire familiarità con i dati di monitoraggio delle metriche e dei log sottostanti.

Nota

Questo è l'opposto dell'approccio usato in passato quando i team hanno lavorato per definire tutti i requisiti di monitoraggio prima di compilare, testare e distribuire.

Indipendentemente dal fatto che il piano di monitoraggio sia destinato a un'applicazione, all'infrastruttura cloud o alla piattaforma Azure, il primo passaggio consiste nel stabilire l'osservabilità.

Questo approccio semplifica inoltre i piani. In tutti i casi, la visibilità totale significa ottenere e sostenere una visibilità sufficiente su tre dimensioni o aspetti:

  1. Monitoraggio approfondito: raccogliere segnali significativi e rilevanti.
  2. Monitorare end-to-end o ampiezza: dal livello più basso dello stack fino all'applicazione.
  3. Monitorare il modello di integrità: concentrarsi su aspetti relativi all'integrità, ad esempio disponibilità, prestazioni, sicurezza e continuità.

Three-sided cube example

L'osservabilità non è solo un obiettivo per i team IT. Un obiettivo essenziale è garantire che gli utenti finali possano usare i sistemi e che gli obiettivi del livello di servizio siano soddisfatti.

Monitoraggio di soluzioni e osservabilità

Il monitoraggio dell'infrastruttura e delle applicazioni può essere complicato. La trasformazione aziendale applica la tecnologia per ottenere e aiutare a definire le proprie strategie. Il cloud ha ulteriormente influenzato la natura complessa del monitoraggio.

Questo approccio è illustrato come segue:

  • Cambiamento di trasformazione digitale: le attività di trasformazione digitale delle aziende passano verso l'iper-sfruttamento della tecnologia cloud.
  • Monitoraggio predefinito: il monitoraggio viene incorporato nelle risorse di Azure e nei gruppi di risorse rispetto agli strumenti separati gestiti in locale.
  • Il monitoraggio esteso delle architetture native del cloud, ad esempio Monitoraggio di Azure, è simile agli strumenti siem (Security Incident and Event Management). Monitoraggio di Azure è esteso, basato sui log e gli ordini di grandezza più flessibili rispetto agli strumenti locali tradizionali.

Gli architetti devono, come gli operatori, comprendere quali informazioni di diagnostica generano un componente dell'infrastruttura o un'applicazione.

La combinazione di flussi di log multivariati, dinamici, time series, con eventi, con stato e telemetrici dipende dalle informazioni seguenti:

  • Conoscenza del team: conoscenza e esperienza dello sviluppatore o del tecnico del sistema che comprende profondamente la destinazione di monitoraggio.
  • Esperienza di risoluzione dei problemi: esperienza di supporto e risoluzione dei problemi nell'uso dei dati per trovare o individuare le cause dei problemi.
  • Apprendimento dalla cronologia: esaminare gli eventi imprevisti passati per trovare motivi non tecnologici che possono essere risolti automaticamente in un secondo momento.
  • Documentazione: materiale sussidiario nella documentazione, nel software, nel training o nella consulenza da parte del fornitore di software o hardware.

Microsoft e i suoi partner forniscono Management Pack per System Center Operations Manager. I Management Pack sono specifici della tecnologia; Ad esempio, se si importa un Management Pack SQL, Operations Manager individua automaticamente i server di destinazione che ospitano SQL Server e inizia a monitorarli. In questo caso, l'osservabilità è più o meno predefinita. Operations Manager è progettato principalmente per l'infrastruttura locale, che tende a essere fisso nei componenti e nei modelli di progettazione architetturali relativi ai servizi cloud.

Nel cloud si ha un'enorme flessibilità nei tipi di servizi tra cui scegliere. Il monitoraggio include il modo in cui i servizi cambiano nel tempo e possono essere dinamici, globali e resilienti. Con Monitoraggio di Azure è possibile sfruttare le cartelle di lavoro esistenti incluse in Informazioni dettagliate di Monitoraggio di Azure che offrono funzionalità simili a un Management Pack in Operations Manager.

L'arte di mantenere l'osservabilità

L'osservabilità si basa su cosa e su come viene monitorato qualcosa.

In Azure sono disponibili più origini dati di monitoraggio, ognuna delle quali offre una prospettiva diversa del comportamento di un elemento. Azure include numerosi strumenti che consentono di analizzare i vari aspetti di questi dati.

Osservare la piattaforma

In Azure, Microsoft offre la prospettiva del provider di servizi tramite diversi log della piattaforma.

I servizi in Azure possono cambiare in modi diversi e imprevedibili nel tempo. Si fa riferimento a questo comportamento come dinamico. Anche i manager dei servizi cloud che osservano il servizio nel tempo devono prendere in considerazione quanto segue:

  • Rilocazione delle risorse: le risorse possono eseguire la migrazione o spostarsi tra posizioni o aree geografiche.
  • Modifiche alle risorse: le risorse vengono aggiunte, eliminate o modificate.
  • Consumo: il consumo varia per diversi servizi e implementazioni. Tenere presente di monitorare il costo, il consumo e la spesa proiettata.

Ecco alcuni esempi di strumenti che consentono l'osservabilità della piattaforma:

Origine log Descrizione
Integrità dei servizi Eventi imprevisti del servizio e manutenzione pianificata segnalati da Microsoft.
Integrità risorse di Azure Segnala l'integrità corrente e passata delle risorse.
Log attività di Monitoraggio di Azure Segnala gli eventi a livello di sottoscrizione in tutte le risorse distribuite nella sottoscrizione.
Analisi delle modifiche di Monitoraggio di Azure Segnala le modifiche apportate alle applicazioni Azure e riduce il tempo medio di ripristino (MTTR).
Log delle risorse di Azure Nota in precedenza come log di diagnostica, i log delle risorse segnalano le operazioni eseguite all'interno di una risorsa di Azure nel piano dati.
Log dei report di Microsoft Entra (AzureAD) Segnala la cronologia dell'attività di accesso e l'audit trail delle modifiche nell'ID Microsoft Entra per un determinato tenant.
Azure Advisor Usare Azure Advisor per ricevere soluzioni consigliate in base alle procedure consigliate per ottimizzare le distribuzioni di Azure.
Log di trasparenza di Microsoft Cloud for Sovranità Segnala quando si accede alle risorse e quale tecnico Microsoft accede alla risorsa. I log di trasparenza forniscono informazioni dettagliate sull'accesso alle risorse dei clienti. I log notificano anche quando non è stato eseguito alcun accesso, che è comune.

L'osservabilità si evolve gradualmente, a partire da un piano di monitoraggio minimamente fattibile, e il lavoro per l'integrazione di strumenti e processi è in continuo svolgimento. Quando si ha familiarità con i dati (metriche, log e transazioni), è possibile comprendere il comportamento e i segni di sintomi o problemi da tali risorse o applicazioni. Acquisire familiarità con i dati consente di creare fiducia nell'uso di Monitoraggio di Azure e dei dati.

Ottenere fiducia dall'osservabilità

Con una corretta osservabilità, si ottiene fiducia e si è in grado di realizzare la causa e trovare risposte che possono aiutare. Più si apprendono i dati, più si sono evoluti i processi e i team ottengono informazioni dettagliate.

Per impostare la scena, ecco alcuni modi per ottenere fiducia dall'osservabilità:

  • Aumento della prevedibilità: il monitoraggio migliorato delle risorse e dei servizi consente di identificare in modo proattivo i problemi, rendendoli prevedibili e gestibili in futuro.

  • Rilevamento anticipato delle anomalie: l'osservabilità consente il rilevamento tempestivo di anomalie o deviazioni dal comportamento previsto, riducendo l'impatto dei potenziali problemi.

  • Identificazione della causa radice: i dati di osservabilità dettagliati consentono di identificare le cause radice dei problemi, consentendo una risoluzione più rapida e impedendo la ricorrenza.

  • Migliorare l'efficienza della risoluzione dei problemi: con l'osservabilità, i team possono diagnosticare e risolvere rapidamente problemi complessi analizzando i dati pertinenti e correlando gli eventi.

  • Migliorare l'affidabilità del sistema: identificando colli di bottiglia, problemi di prestazioni e potenziali punti di errore, l'osservabilità consente di ottimizzare le prestazioni del sistema e migliorare l'affidabilità complessiva.

  • Migliorare l'esperienza dei clienti: l'osservabilità consente una migliore comprensione del modo in cui le prestazioni del sistema influiscono sugli utenti finali, consentendo misure proattive per migliorare la soddisfazione dei clienti.

  • Facilita la collaborazione: le piattaforme di osservabilità offrono visibilità e accesso ai dati condivisi, promuovendo la cooperazione tra team diversi, ad esempio sviluppatori, operazioni e supporto.

  • Conformità alle normative: l'osservabilità aiuta a soddisfare i requisiti normativi fornendo tracciabilità, log di controllo e garantire la conformità agli standard di sicurezza e privacy.

  • Tempi di risoluzione più rapidi: fornendo dati avanzati e informazioni dettagliate, l'osservabilità accelera il tempo necessario per diagnosticare e risolvere i problemi, riducendo al minimo i tempi di inattività e le interruzioni del servizio.

  • Gestione proattiva della capacità: i dati di osservabilità consentono di prevedere le richieste delle risorse, identificare i gap di capacità e regolare in modo proattivo le risorse per mantenere prestazioni ottimali.

  • Mitigazione dei rischi: con l'osservabilità, è possibile identificare i potenziali rischi in anticipo, abilitare misure di mitigazione proattive e ridurre la probabilità di gravi impatti.

  • Monitoraggio e apprendimento continui: l'osservabilità consente il monitoraggio e l'apprendimento continui, aiutando i team ad adattarsi agli ambienti, ai requisiti e al comportamento degli utenti in continua evoluzione.

  • Ottimizzazione delle prestazioni: analizzando i dati di osservabilità, i team possono identificare e ottimizzare i colli di bottiglia delle prestazioni, migliorando l'efficienza del sistema.

  • Definizione delle priorità degli sforzi: le informazioni dettagliate sull'osservabilità consentono ai team di assegnare priorità alle attività e allocare le risorse in base alla criticità e all'impatto dei problemi identificati.

  • Attendibilità nella gestione delle modifiche: l'osservabilità offre visibilità sull'impatto delle modifiche, assicurandosi che le nuove distribuzioni o gli aggiornamenti non introducono problemi imprevisti.

  • Miglioramento della risposta agli eventi imprevisti: con l'osservabilità, i team di risposta agli eventi imprevisti possono raccogliere rapidamente informazioni pertinenti, comprendere il contesto e avviare azioni appropriate.

Piano di monitoraggio

Si crea un piano di monitoraggio per descrivere gli obiettivi e gli obiettivi, i requisiti e altri dettagli essenziali. Si collabora quindi per chiedere un accordo tra tutti gli stakeholder di rilievo dell'organizzazione.

Un piano di monitoraggio deve spiegare come sviluppare e gestire una o più soluzioni di monitoraggio. Iniziare a creare i piani di monitoraggio nelle fasi di strategia e pianificazione del progetto.

Durante la creazione del piano, è essenziale ricordare le cinque discipline del monitoraggio moderno, come descritto nella documentazione sulla strategia di monitoraggio cloud: monitorare, misurare, rispondere, apprendere e migliorare.

Di seguito è riportata una struttura consigliata iniziale per un piano di monitoraggio e vengono considerate le considerazioni principali per un singolo piano per i servizi o quando si standardizzano le funzionalità del servizio cloud, ad esempio i tipi di risorse di Azure o i servizi di Microsoft 365.

L'essenza del piano consiste nel definire la linea di visibilità tra i provider di servizi (che metteranno in campo le soluzioni) e i consumer (che operano o deriveranno valore).

Prospettiva aziendale

Un piano di monitoraggio completo deve considerare le esigenze aziendali con e dal monitoraggio, incluso un focus incentrato sugli utenti. Durante la definizione del piano, è essenziale documentare e condividere i requisiti aziendali e il codice seguente suggerisce l'ambito di questa parte del piano.

  • Stakeholder e consumer
  • Flussi e processi del valore aziendale
  • Prospettiva e utilità per l'utente finale
  • Requisiti di misura e di creazione di report
  • Rischi identificati e framework di controllo della conformità
  • Requisiti di controllo e di accesso
  • Rischio per l'azienda

Prospettiva del servizio

Un piano di monitoraggio completo deve considerare le esigenze dei proprietari dei servizi con e dal monitoraggio. Durante la definizione del piano, è essenziale documentare e condividere i propri requisiti e il codice seguente suggerisce l'ambito di questa parte del piano.

  • Stakeholder e consumer
  • Ruoli e responsabilità
  • Definizione del servizio
  • Requisiti di controllo e di accesso
  • Considerazioni sull'architettura?
  • Contratti a sostegno di fornitori e partner
  • Contratti di servizio (SLA, OLA)
  • Identificazione della copertura della garanzia del servizio
  • Requisiti di misura e di creazione di report
  • Rischi

Prospettiva tecnologica

Questa sezione del piano rappresenta una soluzione di monitoraggio con le informazioni provenienti dalla prospettiva aziendale e del servizio. Di seguito viene suggerito l'ambito di questa parte del piano.

  • Storie utente e scenari
  • Obiettivi tecnici (ad esempio, la rete)
  • Mapping delle dipendenze dei componenti
  • Tipi (ad esempio, nativo del cloud, ibrido, locale)
  • Osservazionale
  • Reattività
  • Misura
  • Ottimizzazione e miglioramento

Considerazioni

Riepilogare il piano per assicurarsi che comunichi e informi tutti i consumer, gli stakeholder e i livelli di gestione pertinenti. Per un piano di monitoraggio riuscito, considerare questi punti:

Considerazioni essenziali

  • Fasi di produzione: la soluzione di monitoraggio deve essere pronta quando il servizio diventa attivo. La pianificazione può includere la configurazione di test o preproduzione in un'altra sottoscrizione dedicata per consentire l'esperimento e testare i presupposti.

  • Strategia: i piani possono anche eseguire il mapping al monitoraggio e alla strategia IT per tracciare gli obiettivi di monitoraggio alla missione o all'azienda.

  • Destinazioni: nel piano, descrivere e analizzare gli asset o i servizi di destinazione presi in considerazione. Se necessario, eseguire il mapping di tutti i componenti da monitorare, incluse le dipendenze del servizio. Identificare le lacune di copertura e determinare chi è il proprietario di ogni parte del servizio.

  • Soluzione: per la soluzione di monitoraggio, identificare i consumer, gli stakeholder, i fornitori, i partner, l'accesso e la strumentazione. Inoltre, monitorare aspetti, ambito, risposta, report e dashboard (disponibilità, sicurezza, esperienza utente e altro ancora).

Considerazioni generali

Oltre alle considerazioni chiave, cercare di comprendere meglio come questi punti potrebbero influenzare il piano di monitoraggio per l'organizzazione.

  • Prodotto minimo valido (MVP): consente al piano di definire l'aspetto positivo del prodotto minimo funzionante. In altre parole, cosa è inizialmente necessario per vivere e possiamo misurare il successo su questo? Dopo aver vissuto, si continua a sviluppare la soluzione di monitoraggio per ottimizzare il valore.

  • Proteggere i dati di monitoraggio: la sicurezza è un aspetto fondamentale per ogni organizzazione e team oggi. Assicurarsi di essere istruiti e conoscere le protezioni o consentire agli esperti di guidare l'utente in modo da non aggiungere rischi alle soluzioni di monitoraggio, ad esempio esponendo i dati di monitoraggio sensibili nei log.

  • Prendere in considerazione Microsoft 365: qualsiasi piano valido considera il tenant di Azure con Microsoft 365 come componente significativo. Microsoft 365 dipende dall'ID Microsoft Entra e Monitoraggio di Azure offre l'integrazione di Microsoft 365 con la gestione degli endpoint.

  • Vince l'osservabilità: concentrarsi sulla visibilità totale prima di concentrarsi sull'invio di avvisi, poiché gli avvisi sono entrambi un costo e possono causare rapidamente affaticamento degli avvisi.

  • Monitoraggio delle attività: i log di controllo, accesso e attività sono ora facili per i proprietari dei servizi e la sicurezza per sezionare e dadi. Assicurarsi che il piano di monitoraggio consideri il monitoraggio delle attività, inclusi i dati analitici e i dashboard che è necessario creare per tutti gli stakeholder pertinenti.

Passaggi successivi