Progettazione per la disponibilità elevata con ExpressRouteDesigning for high availability with ExpressRoute

ExpressRoute è progettato per garantire un'elevata disponibilità per la connettività di rete privata di livello vettore alle risorse Microsoft.ExpressRoute is designed for high availability to provide carrier grade private network connectivity to Microsoft resources. In altre parole, non esiste un singolo punto di errore nel percorso ExpressRoute all'interno della rete Microsoft.In other words, there is no single point of failure in the ExpressRoute path within Microsoft network. Per ottimizzare la disponibilità, è necessario progettare anche il segmento Customer e provider di servizi del circuito ExpressRoute per la disponibilità elevata.To maximize the availability, the customer and the service provider segment of your ExpressRoute circuit should also be architected for high availability. In questo articolo vengono esaminate prima di tutto le considerazioni sull'architettura di rete per la creazione di una connettività di rete affidabile usando un ExpressRoute, quindi si osserveranno le funzionalità di ottimizzazione che consentono di migliorare la disponibilità elevata del circuito ExpressRoute.In this article, first let's look into network architecture considerations for building robust network connectivity using an ExpressRoute, then let's look into the fine-tuning features that help you to improve the high availability of your ExpressRoute circuit.

Considerazioni sull'architetturaArchitecture considerations

La figura seguente illustra la modalità consigliata per connettersi usando un circuito ExpressRoute per massimizzare la disponibilità di un circuito ExpressRoute.The following figure illustrates the recommended way to connect using an ExpressRoute circuit for maximizing the availability of an ExpressRoute circuit.

11

Per la disponibilità elevata, è essenziale mantenere la ridondanza del circuito ExpressRoute in tutta la rete end-to-end.For high availability, it's essential to maintain the redundancy of the ExpressRoute circuit throughout the end-to-end network. In altre parole, è necessario mantenere la ridondanza all'interno della rete locale e non deve compromettere la ridondanza all'interno della rete del provider di servizi.In other words, you need to maintain redundancy within your on-premises network, and shouldn't compromise redundancy within your service provider network. Il mantenimento della ridondanza minima implica la prevenzione del singolo punto di errore di rete.Maintaining redundancy at the minimum implies avoiding single point of network failures. Il risparmio di energia e il raffreddamento ridondante per i dispositivi di rete miglioreranno ulteriormente la disponibilità elevata.Having redundant power and cooling for the network devices will further improve the high availability.

Considerazioni sulla progettazione del livello fisico del primo miglioFirst mile physical layer design considerations

Se si terminano sia le connessioni primarie che secondarie di un circuito ExpressRoute nello stesso sistema CPE (Customer locale Equipment), si sta compromettendo la disponibilità elevata nella rete locale.If you terminate both the primary and secondary connections of an ExpressRoute circuits on the same Customer Premises Equipment (CPE), you're compromising the high availability within your on-premises network. Inoltre, se si configurano le connessioni primarie e secondarie tramite la stessa porta di un CPE (terminando le due connessioni in diverse sottointerfacce o unendo le due connessioni all'interno della rete partner), il partner verrà forzato per compromettere la disponibilità elevata anche sul segmento di rete.Additionally, if you configure both the primary and secondary connections via the same port of a CPE (either by terminating the two connections under different subinterfaces or by merging the two connections within the partner network), you're forcing the partner to compromise high availability on their network segment as well. Questa compromissione è illustrata nella figura seguente.This compromise is illustrated in the following figure.

22

D'altra parte, se si terminano le connessioni primarie e secondarie di un circuito ExpressRoute in posizioni geografiche diverse, si potrebbero compromettere le prestazioni di rete della connettività.On the other hand, if you terminate the primary and the secondary connections of an ExpressRoute circuits in different geographical locations, then you could be compromising the network performance of the connectivity. Se il traffico viene attivamente sottoposta a bilanciamento del carico tra le connessioni primarie e secondarie interrotte in posizioni geografiche diverse, la potenziale differenza sostanziale nella latenza di rete tra i due percorsi risulterebbe una rete non ottimale prestazioni.If traffic is actively load balanced across the primary and the secondary connections that are terminated on different geographical locations, potential substantial difference in network latency between the two paths would result in suboptimal network performance.

Per considerazioni sulla progettazione con ridondanza geografica, vedere progettazione per il ripristino di emergenza con ExpressRoute.For geo-redundant design considerations, see Designing for disaster recovery with ExpressRoute.

Connessioni attive-attiveActive-active connections

Microsoft Network è configurato per il funzionamento delle connessioni primarie e secondarie dei circuiti ExpressRoute in modalità Active-Active.Microsoft network is configured to operate the primary and secondary connections of ExpressRoute circuits in active-active mode. Tuttavia, tramite gli annunci di route, è possibile forzare le connessioni ridondanti di un circuito ExpressRoute in modo che funzionino in modalità attivo/passivo.However, through your route advertisements, you can force the redundant connections of an ExpressRoute circuit to operate in active-passive mode. L'annuncio di route più specifiche e BGP come percorso anteposto sono le tecniche comuni utilizzate per rendere un percorso preferito rispetto all'altro.Advertising more specific routes and BGP AS path prepending are the common techniques used to make one path preferred over the other.

Per migliorare la disponibilità elevata, è consigliabile usare entrambe le connessioni di un circuito ExpressRoute in modalità Active-Active.To improve high availability, it's recommended to operate both the connections of an ExpressRoute circuit in active-active mode. Se si lascia che le connessioni funzionino in modalità attivo-attivo, Microsoft Network caricherà il carico del traffico tra le connessioni in base ai singoli flussi.If you let the connections operate in active-active mode, Microsoft network will load balance the traffic across the connections on per-flow basis.

L'esecuzione delle connessioni primarie e secondarie di un circuito ExpressRoute in modalità attivo/passivo affronta il rischio che entrambe le connessioni abbiano esito negativo in seguito a un errore nel percorso attivo.Running the primary and secondary connections of an ExpressRoute circuit in active-passive mode face the risk of both the connections failing following a failure in the active path. Le cause più comuni di errore durante il trasferimento sono la mancanza di una gestione attiva della connessione passiva e la connessione passiva che annuncia le route non aggiornate.The common causes for failure on switching over are lack of active management of the passive connection, and passive connection advertising stale routes.

In alternativa, l'esecuzione delle connessioni primarie e secondarie di un circuito ExpressRoute in modalità attivo-attivo comporta solo la metà dei flussi che non riescono e vengono reindirizzati, a seguito di un errore di connessione ExpressRoute.Alternatively, running the primary and secondary connections of an ExpressRoute circuit in active-active mode, results in only about half the flows failing and getting rerouted, following an ExpressRoute connection failure. Quindi, la modalità Active-Active consente di migliorare significativamente il tempo medio di recupero (MTTR).Thus, active-active mode will significantly help improve the Mean Time To Recover (MTTR).

NAT per il peering MicrosoftNAT for Microsoft peering

Il peering Microsoft è progettato per la comunicazione tra endpoint pubblici.Microsoft peering is designed for communication between public end-points. Quindi, in genere, gli endpoint privati locali sono tradotti come indirizzo di rete (NATed) con IP pubblico nella rete del cliente o del partner prima che comunicano tramite peering Microsoft.So commonly, on-premises private endpoints are Network Address Translated (NATed) with public IP on the customer or partner network before they communicate over Microsoft peering. Supponendo di usare le connessioni primarie e secondarie in modalità attivo-attivo, dove e come si ha un effetto NAT sulla velocità di ripristino in seguito a un errore in una delle connessioni ExpressRoute.Assuming you use both the primary and secondary connections in active-active mode, where and how you NAT has an impact on how quickly you recover following a failure in one of the ExpressRoute connections. Nella figura seguente sono illustrate due diverse opzioni NAT:Two different NAT options are illustrated in the following figure:

33

Nell'opzione 1, NAT viene applicato dopo la suddivisione del traffico tra le connessioni primarie e secondarie di ExpressRoute.In the option 1, NAT is applied after splitting the traffic between the primary and secondary connections of the ExpressRoute. Per soddisfare i requisiti con stato di NAT, i pool NAT indipendenti vengono usati tra i dispositivi primari e secondari, in modo che il traffico di ritorno raggiunga lo stesso dispositivo perimetrale attraverso il quale il flusso uscita.To meet the stateful requirements of NAT, independent NAT pools are used between the primary and the secondary devices so that the return traffic would arrive to the same edge device through which the flow egressed.

Nell'opzione 2 viene usato un pool NAT comune prima di suddividere il traffico tra le connessioni primarie e secondarie di ExpressRoute.In the option 2, a common NAT pool is used before splitting the traffic between the primary and secondary connections of the ExpressRoute. È importante distinguere che il pool NAT comune prima di suddividere il traffico non implica l'introduzione di un singolo punto di errore, compromettendo così la disponibilità elevata.It's important to make the distinction that the common NAT pool before splitting the traffic does not mean introducing single-point of failure thereby compromising high-availability.

Con l'opzione 1, in seguito a un errore di connessione ExpressRoute, la possibilità di raggiungere il pool NAT corrispondente è interruppe.With the option 1, following an ExpressRoute connection failure, ability to reach the corresponding NAT pool is broken. Pertanto, tutti i flussi interrotti devono essere ristabiliti tramite il livello TCP o dell'applicazione dopo il timeout della finestra corrispondente.Therefore, all the broken flows have to be re-established either by TCP or application layer following the corresponding window timeout. Se uno dei pool NAT viene usato per il front-end di uno dei server locali e se la connettività corrispondente ha esito negativo, non è possibile raggiungere i server locali da Azure fino a quando la connettività non è fissa.If either of the NAT pools are used to frontend any of the on-premises servers and if the corresponding connectivity were to fail, the on-premises servers cannot be reached from Azure until the connectivity is fixed.

Mentre con l'opzione 2, il NAT è raggiungibile anche dopo un errore di connessione primaria o secondaria.Whereas with the option 2, the NAT is reachable even after a primary or secondary connection failure. Pertanto, il livello di rete stesso può reindirizzare i pacchetti e contribuire a un ripristino più rapido dopo l'errore.Therefore, the network layer itself can reroute the packets and help faster recovery following the failure.

Nota

Se si usa l'opzione NAT 1 (pool NAT indipendenti per le connessioni ExpressRoute primarie e secondarie) e si esegue il mapping di una porta di un indirizzo IP da uno del pool NAT a un server locale, il server non sarà raggiungibile tramite il circuito ExpressRoute quando il corrispondente connessione non riuscita.If you use NAT option 1 (independent NAT pools for primary and secondary ExpressRoute connections) and map a port of an IP address from one of the NAT pool to an on-premises server, the server will not be reachable via the ExpressRoute circuit when the corresponding connection fails.

Ottimizzazione delle funzionalità per il peering privatoFine-tuning features for private peering

In questa sezione vengono esaminate le funzionalità facoltative (a seconda della distribuzione di Azure e del modo in cui si è MTTR) che consentono di migliorare la disponibilità elevata del circuito ExpressRoute.In this section, let us review optional (depending on your Azure deployment and how sensitive you're to MTTR) features that help improve high availability of your ExpressRoute circuit. In particolare, esaminiamo la distribuzione in grado di riconoscere le zone dei gateway di rete virtuale ExpressRoute e il rilevamento di inoltri bidirezionale (BFD).Specifically, let's review zone-aware deployment of ExpressRoute virtual network gateways, and Bidirectional Forwarding Detection (BFD).

I gateway di rete virtuale ExpressRoute compatibili con la zona di disponibilitàAvailability Zone aware ExpressRoute virtual network gateways

Una zona di disponibilità in un'area di Azure è una combinazione di un dominio di errore e un dominio di aggiornamento.An Availability Zone in an Azure region is a combination of a fault domain and an update domain. Se si opta per la distribuzione di Azure IaaS con ridondanza della zona, è anche possibile configurare i gateway di rete virtuale con ridondanza della zona che terminano il peering privato di ExpressRoute.If you opt for zone-redundant Azure IaaS deployment, you may also want to configure zone-redundant virtual network gateways that terminate ExpressRoute private peering. Per ulteriori informazioni, vedere informazioni sui gateway di rete virtuale con ridondanza della zona in zone di disponibilità di Azure.To learn further, see About zone-redundant virtual network gateways in Azure Availability Zones. Per configurare il gateway di rete virtuale con ridondanza della zona, vedere creare un gateway di rete virtuale con ridondanza della zona in zone di disponibilità di Azure.To configure zone-redundant virtual network gateway, see Create a zone-redundant virtual network gateway in Azure Availability Zones.

Miglioramento del tempo di rilevamento degli erroriImproving failure detection time

ExpressRoute supporta BFD sul peering privato.ExpressRoute supports BFD over private peering. BFD riduce il tempo di rilevamento dell'errore sulla rete di livello 2 tra Microsoft Enterprise Edge (MSEE) e i relativi adiacenti BGP sul lato locale da circa 3 minuti (impostazione predefinita) a meno di un secondo.BFD reduces detection time of failure over the Layer 2 network between Microsoft Enterprise Edge (MSEEs) and their BGP neighbors on the on-premises side from about 3 minutes (default) to less than a second. Il tempo di rilevamento rapido degli errori consente di velocizzare il ripristino degli errori.Quick failure detection time helps hastening failure recovery. Per altre informazioni, vedere configurare BFD su ExpressRoute.To learn further, see Configure BFD over ExpressRoute.

Passaggi successiviNext steps

In questo articolo è stato illustrato come progettare per la disponibilità elevata di una connettività del circuito ExpressRoute.In this article, we discussed how to design for high availability of an ExpressRoute circuit connectivity. Un punto di peering del circuito ExpressRoute è aggiunto a una posizione geografica e pertanto può essere influenzato da un errore irreversibile che influisca sull'intera posizione.An ExpressRoute circuit peering point is pinned to a geographical location and therefore could be impacted by catastrophic failure that impacts the entire location.

Per considerazioni sulla progettazione per la creazione di connettività di rete con ridondanza geografica a backbone Microsoft che possa resistere a errori irreversibili, che influiscano su un'intera area, vedere progettazione per il ripristino di emergenza con peering privato ExpressRoute.For design considerations to build geo-redundant network connectivity to Microsoft backbone that can withstand catastrophic failures, which impact an entire region, see Designing for disaster recovery with ExpressRoute private peering.