Resilienza predefinitaBuilt in resiliency

Come provider di servizi cloud, Microsoft riconosce la necessità di guadagnare continuamente la fiducia degli utenti fornendo soluzioni che funzionino in modo coerente e che piacciano agli utenti.As your cloud collaboration provider, Microsoft recognizes the need to continuously earn your trust by providing solutions that function consistently and that your users love. Quando un servizio non è disponibile, si parla di tempo di inattività.When any given service is unavailable, this is called downtime. La definizione del tempo di inattività varia in base a ogni servizio Microsoft 365, ma in genere sta a indicare un periodo di tempo in cui gli utenti non riescono a usare le funzionalità essenziali del servizio.The definition of downtime varies for each Microsoft 365 service, but they commonly focus on any period of time when users are unable to use the essential functionality of the service. Ad esempio, ecco la definizione di tempo di inattività per SharePoint Online, tratta dal contratto di servizio di Microsoft 365:For example, here's the definition of downtime for SharePoint Online taken from the Microsoft 365 service level agreement:

“Tempo di inattività di SharePoint Online: periodo di tempo in cui gli utenti non riescono né a leggere né a scrivere qualunque parte di una raccolta siti di SharePoint Online per cui dispongono delle autorizzazioni appropriate"."SharePoint Online Downtime: Any period of time when users are unable to read or write any portion of a SharePoint Online site collection for which they have appropriate permissions."

È possibile trovare le definizioni di tempo di inattività per ogni servizio nei Contratti di servizio.You can find the downtime definitions for each service in the Service Level Agreements.

Per ridurre al minimo i tempi di inattività, sia previsti che non previsti, i servizi di Microsoft 365 sono progettati e gestiti per essere altamente disponibili e resistenti ai guasti concentrandosi su quattro aree:To minimize downtime, either planned or unexpected, Microsoft 365 services are designed and operated to be highly available and resilient to failure by focusing on four areas:

Modello attivo/attivoActive/Active design

Microsoft 365 sta facendo in modo che tutti i servizi siano progressivamente architettati e gestiti secondo un modello attivo/attivo che aumenta la resilienza.In Microsoft 365 we are driving towards having all services architected and operated in an active/active design which increases resiliency. Ciò significa che sono sempre presenti più istanze di un servizio in esecuzione che possono rispondere alle richieste degli utenti, ospitate in data center geograficamente dispersi.This means that there are always multiple instances of a service running that can respond to user requests and that they are hosted in geographically dispersed datacenters. Tutto il traffico degli utenti passa per il servizio Frontdoor di Microsoft e viene automaticamente instradato verso l'istanza del servizio meglio posizionata ed evitando qualsiasi errore di servizio per impedire o ridurre l'impatto sui clienti.All user traffic comes in through the Microsoft Front Door service and is automatically routed to the optimally located instance of the service and around any service failures to prevent or reduce impact to our customers.

Ridurre la portata degli eventi imprevistiReduce incident scope

La portata di un evento imprevisto relativo a un servizio viene misurata in base al livello di gravità, alla durata e al numero di clienti interessati.The scope of a service incident is measured by how severe it is, how long it lasts and how many customers are impacted. Per limitare la portata di tutti gli eventi imprevisti sono in atto le seguenti misure:We strive to limit the scope of all incidents by:

  • avere più istanze di ogni servizio divise l’una dall’altrahaving multiple instances of each service partitioned off from each other
  • distribuire gli aggiornamenti in modo controllato e graduato usando anelli di convalida in modo che gli eventuali problemi che potrebbero derivare dall'aggiornamento possano essere individuati e attenuati all'inizio del processo di distribuzione.deploying updates in a controlled, graduated fashion using rings of validation so that any issues that might arise from the update can be detected and mitigated early in the deployment process. Questo consente di eseguire la regressione dell'aggiornamento, se necessario, e avviene innanzitutto in un piccolo gruppo all'interno di Microsoft (anello interno) prima della distribuzione a gruppi più grandi, come tutti i 140.000 dipendenti di Microsoft (anello 2), quindi agli anelli degli early adopter (anello 3) e infine a tutti i clienti a livello globale (anello 4).This allows for regression of the update if needed and first occurs in a small group inside Microsoft (inner ring) before it is deployed to larger groups like all 140,000 Microsoft employees (ring 2), then to early adopter rings (ring 3) and ultimately to all customers globally (ring 4).
  • migliorare il monitoraggio tramite l’automazione.driving improvements in monitoring through automation. Microsoft 365 è molto grande e il tempo di attività a cui punta il contratto di servizio è elevato.Microsoft 365 is very large, and the SLA target uptime is high. All'inizio di un evento imprevisto di un servizio, se gli esseri umani dovessero occuparsi del rilevamento e della risposta, non sarebbe possibile rispondervi abbastanza velocemente da rispettare il contratto di servizio.At the very beginning of a service incident, if humans had to be involved in detection and response, we couldn't respond fast enough to meet SLAs. L'automazione è la chiave per individuare e rispondere in modo rapido ed efficace.Automation is the key to fast and effective service incident detection and response. Prima si viene a conoscenza di un problema, prima questo può essere risolto.The sooner we know about something, the faster it can be fixed.

Insieme alle funzioni attivo/attivo integrate nell'architettura dei servizi di Microsoft 365, tali sforzi consentono di ridurre il livello di gravità, la durata e il numero di clienti interessati durante un evento imprevisto.Along with the active/active capabilities built into Microsoft 365 service architecture, these efforts mitigate the severity, duration and number of impacted customers during a service incident.

Isolamento del guastoFault isolation

Così come i servizi sono progettati e gestiti in modo attivo/attivo e sono divisi l’uno dall’altro per evitare che un errore in uno di essi influisca su un altro, il code base del servizio viene sviluppato usando simili criteri di partizionamento denominati isolamento del guasto.Just as the services are designed and operated in an active/active fashion and are partitioned off from each other to prevent a failure in one from affecting another, the code base of the service is developed using similar partitioning principles called fault isolation. Le misure di isolamento del guasto sono protezioni incrementali eseguite all'interno del code base stesso.Fault isolation measures are incremental protections made within the code base itself. Queste misure consentono di impedire che un problema verificatosi in un'area si propaghi ad altre aree di attività.These measures help prevent an issue in one area from cascading into other areas of operation. Le misure di isolamento del guasto vengono applicate in più fasi dello sviluppo e dell’emissione di un servizio, tra cui lo sviluppo del codice, la distribuzione del servizio, il bilanciamento del carico e la replica di database.Fault isolation measures are applied at multiple stages of the development and delivery of a service, including code development, service deployment, load balancing and database replication.

Il Microsoft Security Development Lifecycle (SDL) favorisce ulteriormente la resilienza e consiste in una serie di procedure che supportano i requisiti di sicurezza e conformità.The Microsoft Security Development Lifecycle (SDL) further promotes resiliency and consists of a set of practices that support security and compliance requirements. SDL consente agli sviluppatori di creare servizi resilienti, sicuri e conformi.SDL guides our developers in building resilient, secure, compliant services. Gli elementi principali di SDL includono revisioni di codice, modellazione delle minacce, test di penetrazione e processi standard di risposta agli eventi imprevisti nel cloud di Microsoft.Key elements of SDL include code reviews, threat modeling, penetration testing, and standardized incident response processes across the Microsoft cloud.

I servizi di Microsoft 365 sono altamente interconnessi, ma i sistemi e le tecnologie alle loro spalle sono progettati in modo da limitare la propagazione dell’impatto dell’evento imprevisto di un servizio verso altri servizi.M365 services are highly interconnected, but the systems and technology behind them are engineered in a way that limits the impact of one service incident from spilling over to other services. Un problema che colpisce Exchange Online, ad esempio, non influisce sulle funzionalità di base di Teams, e un problema relativo alla funzionalità di ricerca in SharePoint Online non influisce sulla possibilità per gli utenti di caricare o scaricare file.For example, an issue affecting Exchange Online will not impact core functionality in Teams, or an issue with search functionality in SharePoint Online won’t affect users’ ability to upload or download files.

Miglioramento continuo del servizioContinuous service improvement

Se si verifica un evento imprevisto, è importante prenderlo seriamente.When we experience an incident, we take it seriously. Dopo tutto, l'architettura cloud ridondante e i rigorosi processi interni di Microsoft hanno l’obiettivo di mantenere accessibili i servizi.After all, our redundant cloud architecture and rigorous internal processes aim to keep our services accessible. Nel corso di un evento imprevisto, il monitoraggio rileva rapidamente i servizi interessati e, se il tenant di un utente è interessato, l’utente riceve una notifica immediata attraverso diversi canali.During an incident, our monitoring rapidly detects the affected services and, if your tenant is affected, you'll be notified immediately through a variety of channels. Contemporaneamente, gli ingegneri seguono processi ben definiti per la valutazione del problema ed eseguono i passaggi necessari per ripristinare il funzionamento normale nel più breve tempo possibile.Simultaneously, engineers follow well-defined processes to triage the issue and take the necessary steps to restore normal operation as quickly as possible. Una volta che il servizio funziona di nuovo normalmente, delle revisioni post-evento imprevisto vengono integrate nel ciclo di miglioramento continuo del servizio.Once the service is functioning normally again, we hold post incident reviews as part of the cycle of continuous service improvement. Durante la revisione post-evento imprevisto vengono identificate le cause principali dell’evento imprevisto e gli elementi necessari alla risoluzione dei problemi.During the post incident review, we identify the root causes of the incident and what was required to fix the issues. Infine, quello che si è imparato dalla situazione viene applicato ai modelli e alle operazioni dell’intera famiglia di prodotti.Then we take what was learned from the situation and apply it to the design and operations of all of our suite of offerings. In questo modo è possibile evitare che la stessa causa principale influisca su altri servizi o altri clienti.By doing this, we can prevent the same root cause from impacting other services and additional customers.