Conception pour une haute disponibilité avec ExpressRouteDesigning for high availability with ExpressRoute

ExpressRoute est conçu pour la haute disponibilité afin de fournir à l’opérateur une connectivité de réseau privé de qualité aux ressources Microsoft.ExpressRoute is designed for high availability to provide carrier grade private network connectivity to Microsoft resources. En d’autres termes, il n’existe aucun point de défaillance unique dans le chemin d’accès ExpressRoute au sein du réseau de Microsoft.In other words, there is no single point of failure in the ExpressRoute path within Microsoft network. Pour optimiser la disponibilité, le client et le segment de fournisseur de service de votre circuit ExpressRoute doivent également être conçus pour la haute disponibilité.To maximize the availability, the customer and the service provider segment of your ExpressRoute circuit should also be architected for high availability. Dans cet article, nous allons tout d’abord passer en revue les considérations relatives à l’architecture réseau pour la conception d’une connectivité réseau robuste à l’aide d’ExpressRoute. Nous analyserons ensuite les fonctionnalités qui vous aident à améliorer la haute disponibilité de votre circuit ExpressRoute.In this article, first let's look into network architecture considerations for building robust network connectivity using an ExpressRoute, then let's look into the fine-tuning features that help you to improve the high availability of your ExpressRoute circuit.

Considérations relatives à l’architectureArchitecture considerations

Le schéma suivant montre la méthode de connexion recommandée à l’aide d’un circuit ExpressRoute afin d’optimiser la disponibilité d’un circuit ExpressRoute.The following figure illustrates the recommended way to connect using an ExpressRoute circuit for maximizing the availability of an ExpressRoute circuit.

11

Pour une haute disponibilité, il est primordial de maintenir la redondance du circuit ExpressRoute dans le réseau de bout en bout.For high availability, it's essential to maintain the redundancy of the ExpressRoute circuit throughout the end-to-end network. En d’autres termes, vous devez conserver la redondance au sein de votre réseau local et ne devez pas la compromettre au sein de votre réseau de fournisseur de service.In other words, you need to maintain redundancy within your on-premises network, and shouldn't compromise redundancy within your service provider network. Pour conserver la redondance à son minimum, il faut éviter des points de défaillance réseau uniques.Maintaining redundancy at the minimum implies avoiding single point of network failures. Vous pouvez davantage améliorer la haute disponibilité en disposant d’une alimentation et d’un refroidissement redondants pour vos appareils réseau.Having redundant power and cooling for the network devices will further improve the high availability.

Considérations relatives à la conception de couche physique pour le premier mileFirst mile physical layer design considerations

Si vous arrêtez les connexions primaires et secondaires d’un circuit ExpressRoute sur le même Customer Premises Equipment (CPE), vous compromettez la haute disponibilité au sein de votre réseau local.If you terminate both the primary and secondary connections of an ExpressRoute circuits on the same Customer Premises Equipment (CPE), you're compromising the high availability within your on-premises network. De plus, si vous configurez les connexions primaires et secondaires via le même port qu’un CPE (en arrêtant les deux connexions sous différentes interfaces ou en les fusionnant au sein d’un réseau partenaire), vous forcez le partenaire à compromettre la haute disponibilité sur leur segment réseau également.Additionally, if you configure both the primary and secondary connections via the same port of a CPE (either by terminating the two connections under different subinterfaces or by merging the two connections within the partner network), you're forcing the partner to compromise high availability on their network segment as well. C’est ce qu’illustre le diagramme suivant.This compromise is illustrated in the following figure.

22

En revanche, si vous arrêtez les connexions primaires et secondaires d’un circuit ExpressRoute dans différents emplacements géographiques, il se peut que vous compromettiez les performances réseau de la connectivité.On the other hand, if you terminate the primary and the secondary connections of an ExpressRoute circuits in different geographical locations, then you could be compromising the network performance of the connectivity. Si le trafic est activement équilibré entre les connexions primaires et secondaires arrêtées dans différents emplacements géographiques, une différence potentielle considérable dans la latence du réseau entre les deux chemins entraînerait des sous-performances réseau.If traffic is actively load balanced across the primary and the secondary connections that are terminated on different geographical locations, potential substantial difference in network latency between the two paths would result in suboptimal network performance.

Pour des considérations relatives à la conception de la géoredondance, consultez Conception pour une reprise d’activité après sinistre.For geo-redundant design considerations, see Designing for disaster recovery with ExpressRoute.

Connexions entre deux passerelles activesActive-active connections

Le réseau Microsoft est configuré pour opérer les connexions primaires et secondaires des circuits ExpressRoute en mode actif/actif.Microsoft network is configured to operate the primary and secondary connections of ExpressRoute circuits in active-active mode. Toutefois, via vos annonces d’itinéraire, vous pouvez forcer les connexions redondantes d’un circuit ExpressRoute à opérer en mode actif/passif.However, through your route advertisements, you can force the redundant connections of an ExpressRoute circuit to operate in active-passive mode. L’annonce d’itinéraires plus spécifiques et l’ajout du chemin du système autonome BGP sont des techniques courantes utilisées pour préférer un chemin à un autre.Advertising more specific routes and BGP AS path prepending are the common techniques used to make one path preferred over the other.

Pour améliorer la haute disponibilité, il est recommandé d’opérer les deux connexions d’un circuit ExpressRoute en mode actif/actif.To improve high availability, it's recommended to operate both the connections of an ExpressRoute circuit in active-active mode. Si vous autorisez les connexions à opérer en mode actif/actif, le réseau Microsoft équilibre les charges du trafic sur les connexions selon le flux.If you let the connections operate in active-active mode, Microsoft network will load balance the traffic across the connections on per-flow basis.

L’exécution des connexions primaires et secondaires d’un circuit ExpressRoute en mode actif/passif risque de causer l’échec des deux connexions, après un autre échec dans le chemin actif.Running the primary and secondary connections of an ExpressRoute circuit in active-passive mode face the risk of both the connections failing following a failure in the active path. Les causes courantes d’échec sur le basculement sont le manque de gestion active de la connexion passive et les itinéraires obsolètes d’annonces de connexions passives.The common causes for failure on switching over are lack of active management of the passive connection, and passive connection advertising stale routes.

Aussi, l’exécution des connexions primaires et secondaires d’un circuit ExpressRoute en mode actif/actif entraîne l’échec et le reroutage d’environ la moitié des flux, après l’échec de la connexion ExpressRoute.Alternatively, running the primary and secondary connections of an ExpressRoute circuit in active-active mode, results in only about half the flows failing and getting rerouted, following an ExpressRoute connection failure. Ainsi, le mode actif/actif améliorera grandement le MTTR (temps moyen de récupération).Thus, active-active mode will significantly help improve the Mean Time To Recover (MTTR).

NAT pour le peering MicrosoftNAT for Microsoft peering

Le peering Microsoft est conçue pour la communication entre les points de terminaison publics.Microsoft peering is designed for communication between public end-points. Souvent, les points de terminaison privés locaux deviennent des NAT avec une IP publique sur le réseau du client ou du partenaire avant qu’ils ne communiquent via le peering Microsoft.So commonly, on-premises private endpoints are Network Address Translated (NATed) with public IP on the customer or partner network before they communicate over Microsoft peering. En supposant que vous utilisez tous deux les connexions primaires et secondaires en mode actif/actif, où et comment vous utilisez le NAT affecte votre temps de récupération après la défaillance d’une des connexions ExpressRoute.Assuming you use both the primary and secondary connections in active-active mode, where and how you NAT has an impact on how quickly you recover following a failure in one of the ExpressRoute connections. Deux options NAT sont illustrées dans la figure suivante :Two different NAT options are illustrated in the following figure:

33

Dans l’option 1, le NAT est appliqué après avoir fractionné le trafic entre les connexions primaires et secondaires du circuit ExpressRoute.In the option 1, NAT is applied after splitting the traffic between the primary and secondary connections of the ExpressRoute. Pour répondre aux exigences avec état du NAT, des pools NAT indépendants sont utilisés entre les appareils principaux et secondaires, de sorte que le trafic renvoyé arrive dans le même appareil edge par lequel sort le flux.To meet the stateful requirements of NAT, independent NAT pools are used between the primary and the secondary devices so that the return traffic would arrive to the same edge device through which the flow egressed.

Dans l’option 2, un pool NAT commun est utilisé avant de fractionner le trafic entre les connexions primaires et secondaires du circuit ExpressRoute.In the option 2, a common NAT pool is used before splitting the traffic between the primary and secondary connections of the ExpressRoute. Il est important de bien comprendre que le pool NAT commun avant fractionnement du trafic n’induit pas l’introduction d’un point de défaillance unique et donc le risque de compromettre la haute disponibilité.It's important to make the distinction that the common NAT pool before splitting the traffic does not mean introducing single-point of failure thereby compromising high-availability.

Avec l’option 1, après un échec de connexion ExpressRoute, la capacité à atteindre le pool NAT correspondant est rompue.With the option 1, following an ExpressRoute connection failure, ability to reach the corresponding NAT pool is broken. Par conséquent, tous les flux rompus doivent être rétablis par TCP ou par couche d’application après l’expiration du délai de la fenêtre correspondante.Therefore, all the broken flows have to be re-established either by TCP or application layer following the corresponding window timeout. Si l’un des pools NAT est utilisé pour le serveur frontal d’un serveur local et si la connectivité correspondante cesse de fonctionner, les serveurs sur site ne sont pas accessibles à partir d’Azure tant que la connectivité n’est pas résolue.If either of the NAT pools are used to frontend any of the on-premises servers and if the corresponding connectivity were to fail, the on-premises servers cannot be reached from Azure until the connectivity is fixed.

Tandis qu’avec l’option 2, le NAT est accessible même après l’échec de la connexion primaire ou secondaire.Whereas with the option 2, the NAT is reachable even after a primary or secondary connection failure. Ainsi, la couche réseau elle-même peut rediriger les paquets et permettre un temps de récupération plus court après l’échec.Therefore, the network layer itself can reroute the packets and help faster recovery following the failure.

Notes

Si vous utilisez l’option NAT 1 (des pools NAT indépendants pour les connexions ExpressRoute primaires et secondaires), et que vous mappez un port d’une adresse IP d’un des pools NAT à un serveur local, le serveur n’est plus accessible via le circuit ExpressRoute en cas d’échec de la connexion correspondante.If you use NAT option 1 (independent NAT pools for primary and secondary ExpressRoute connections) and map a port of an IP address from one of the NAT pool to an on-premises server, the server will not be reachable via the ExpressRoute circuit when the corresponding connection fails.

Réglage des fonctionnalités du peering privéFine-tuning features for private peering

Dans cette section, nous allons passer en revue des fonctionnalités facultatives (selon votre déploiement Azure et votre susceptibilité au temps de récupération moyen) qui visent à améliorer la haute disponibilité de votre circuit ExpressRoute.In this section, let us review optional (depending on your Azure deployment and how sensitive you're to MTTR) features that help improve high availability of your ExpressRoute circuit. Plus précisément, nous allons voir un déploiement de passerelles de réseau virtuel ExpressRoute tenant compte de la zone, et la détection d’envoi bidirectionnel (BFD).Specifically, let's review zone-aware deployment of ExpressRoute virtual network gateways, and Bidirectional Forwarding Detection (BFD).

Passerelles de réseau virtuel ExpressRoute tenant compte de la zone de disponibilitéAvailability Zone aware ExpressRoute virtual network gateways

Une zone de disponibilité dans une région Azure est une combinaison d’un domaine d’erreur et d’un domaine de mise à jour.An Availability Zone in an Azure region is a combination of a fault domain and an update domain. Si vous optez pour le déploiement Azure IaaS redondant interzone, il se peut que vous vouliez configurer des passerelles de réseau virtuel redondantes interzone qui termine le peering privé ExpressRoute.If you opt for zone-redundant Azure IaaS deployment, you may also want to configure zone-redundant virtual network gateways that terminate ExpressRoute private peering. Pour en apprendre plus, consultez À propos des passerelles de réseau virtuel redondantes interzone dans les zones de disponibilité Azure.To learn further, see About zone-redundant virtual network gateways in Azure Availability Zones. Pour configurer une passerelle de réseau virtuel redondante interzone, consultez Créer une passerelle de réseau virtuel redondante interzone dans les zones de disponibilité Azure.To configure zone-redundant virtual network gateway, see Create a zone-redundant virtual network gateway in Azure Availability Zones.

Amélioration du temps de détection des défaillancesImproving failure detection time

ExpressRoute prend en charge la détection d’envoi bidirectionnel via le peering privé.ExpressRoute supports BFD over private peering. La détection d’envoi bidirectionnel réduit le temps de détection des défaillances sur le réseau de couche 2 entre Microsoft Enterprise Edge (MSEE) et leurs voisins BGP en local de 3 minutes environ à moins d’une seconde.BFD reduces detection time of failure over the Layer 2 network between Microsoft Enterprise Edge (MSEEs) and their BGP neighbors on the on-premises side from about 3 minutes (default) to less than a second. Un temps de détection des défaillances plus rapide aide à accélérer la récupération.Quick failure detection time helps hastening failure recovery. Pour en savoir plus, consultez Configurer la détection d’envoi bidirectionnel sur ExpressRoute.To learn further, see Configure BFD over ExpressRoute.

Étapes suivantesNext steps

Dans cet article, nous avons abordé la conception pour la haute disponibilité d’une connectivité de circuit ExpressRoute.In this article, we discussed how to design for high availability of an ExpressRoute circuit connectivity. Un point de peering du circuit ExpressRoute est épinglé à un emplacement géographique et par conséquent, peut être affecté par une défaillance grave affectant l’emplacement complet.An ExpressRoute circuit peering point is pinned to a geographical location and therefore could be impacted by catastrophic failure that impacts the entire location.

Pour des considérations relatives à la conception de connectivité de réseau géoredondante de la dorsale principale de Microsoft qui peut résister à des défaillances catastrophiques, impactant une région entière, consultez Conception d’une récupération après sinistre avec le peering privé ExpressRoute.For design considerations to build geo-redundant network connectivity to Microsoft backbone that can withstand catastrophic failures, which impact an entire region, see Designing for disaster recovery with ExpressRoute private peering.