Dela via

Simulera fel under tjänstarbetsbelastningar

Testbarhetsscenarierna i Azure Service Fabric gör det möjligt för utvecklare att inte oroa sig för att hantera enskilda fel. Det finns dock scenarier där en explicit interleaving av klientarbetsbelastning och fel kan behövas. Interleaving av klientens arbetsbelastning och fel säkerställer att tjänsten faktiskt utför en åtgärd när fel inträffar. Med tanke på den kontrollnivå som testbarheten ger kan dessa vara vid exakta tidpunkter för arbetsbelastningskörningen. Den här induktionen av fel i olika tillstånd i programmet kan hitta buggar och förbättra kvaliteten.

Exempel på anpassat scenario

Det här testet visar ett scenario som mellanläser affärsarbetsbelastningen med graciösa och ospårbara fel. Felen ska härledas mitt i tjänståtgärder eller beräkning för bästa resultat.

Nu ska vi gå igenom ett exempel på en tjänst som exponerar fyra arbetsbelastningar: A, B, C och D. Var och en motsvarar en uppsättning arbetsflöden och kan vara beräkning, lagring eller en blandning. För enkelhetens skull abstraherar vi arbetsbelastningarna i vårt exempel. De olika fel som körs i det här exemplet är:

  • RestartNode: Fel som inte går att spåra för att simulera en omstart av datorn.
  • RestartDeployedCodePackage: Felaktigt fel vid simulerande av tjänstvärdprocesskrascher.
  • RemoveReplica: Graceful fault to simulate replica removal (RemoveReplica: Graceful fault to simulate replica removal).
  • MovePrimary: Graceful fault to simulate replica moves triggered by the Service Fabric load balancer (MovePrimary: Graceful fault to simulate replica moves triggered by the Service Fabric load balancer).
// Add a reference to System.Fabric.Testability.dll and System.Fabric.dll.

using System;
using System.Fabric;
using System.Fabric.Testability.Scenario;
using System.Threading;
using System.Threading.Tasks;

class Test
    public static int Main(string[] args)
        // Replace these strings with the actual version for your cluster and application.
        string clusterConnection = "localhost:19000";
        Uri applicationName = new Uri("fabric:/samples/PersistentToDoListApp");
        Uri serviceName = new Uri("fabric:/samples/PersistentToDoListApp/PersistentToDoListService");

        Console.WriteLine("Starting Workload Test...");
            RunTestAsync(clusterConnection, applicationName, serviceName).Wait();
        catch (AggregateException ae)
            Console.WriteLine("Workload Test failed: ");
            foreach (Exception ex in ae.InnerExceptions)
                if (ex is FabricException)
                    Console.WriteLine("HResult: {0} Message: {1}", ex.HResult, ex.Message);
            return -1;

        Console.WriteLine("Workload Test completed successfully.");
        return 0;

    public enum ServiceWorkloads

    public enum ServiceFabricFaults

    public static async Task RunTestAsync(string clusterConnection, Uri applicationName, Uri serviceName)
        // Create FabricClient with connection and security information here.
        FabricClient fabricClient = new FabricClient(clusterConnection);
        // Maximum time to wait for a service to stabilize.
        TimeSpan maxServiceStabilizationTime = TimeSpan.FromSeconds(120);

        // How many loops of faults you want to execute.
        uint testLoopCount = 20;
        Random random = new Random();

        for (var i = 0; i < testLoopCount; ++i)
            var workload = SelectRandomValue<ServiceWorkloads>(random);
            // Start the workload.
            var workloadTask = RunWorkloadAsync(workload);

            // While the task is running, induce faults into the service. They can be ungraceful faults like
            // RestartNode and RestartDeployedCodePackage or graceful faults like RemoveReplica or MovePrimary.
            var fault = SelectRandomValue<ServiceFabricFaults>(random);

            // Create a replica selector, which will select a primary replica from the given service to test.
            var replicaSelector = ReplicaSelector.PrimaryOf(PartitionSelector.RandomOf(serviceName));
            // Run the selected random fault.
            await RunFaultAsync(applicationName, fault, replicaSelector, fabricClient);
            // Validate the health and stability of the service.
            await fabricClient.TestManager.ValidateServiceAsync(serviceName, maxServiceStabilizationTime);

            // Wait for the workload to finish successfully.
            await workloadTask;

    private static async Task RunFaultAsync(Uri applicationName, ServiceFabricFaults fault, ReplicaSelector selector, FabricClient client)
        switch (fault)
            case ServiceFabricFaults.RestartNode:
                await client.FaultManager.RestartNodeAsync(selector, CompletionMode.Verify);
            case ServiceFabricFaults.RestartCodePackage:
                await client.FaultManager.RestartDeployedCodePackageAsync(applicationName, selector, CompletionMode.Verify);
            case ServiceFabricFaults.RemoveReplica:
                await client.FaultManager.RemoveReplicaAsync(selector, CompletionMode.Verify, false);
            case ServiceFabricFaults.MovePrimary:
                await client.FaultManager.MovePrimaryAsync(selector.PartitionSelector);

    private static Task RunWorkloadAsync(ServiceWorkloads workload)
        throw new NotImplementedException();
        // This is where you trigger and complete your service workload.
        // Note that the faults induced while your service workload is running will
        // fault the primary service. Hence, you will need to reconnect to complete or check
        // the status of the workload.

    private static T SelectRandomValue<T>(Random random)
        Array values = Enum.GetValues(typeof(T));
        T workload = (T)values.GetValue(random.Next(values.Length));
        return workload;