Autoskalning av en onlineslutpunkt

Artikel
04/04/2023

GÄLLER FÖR:Azure CLI ml-tillägg v2 (aktuellt)Python SDK azure-ai-ml v2 (aktuell)

Med autoskalning körs automatiskt rätt mängd resurser för att hantera arbetsbelastningen i appen. Onlineslutpunkter stöder automatisk skalning via integrering med autoskalningsfunktionen i Azure Monitor.

Automatisk skalning i Azure Monitor har stöd för en omfattande uppsättning regler. Du kan konfigurera måttbaserad skalning (till exempel CPU-användning >70 %), schemabaserad skalning (till exempel skalningsregler för tider med hög belastning) eller en kombination. Mer information finns i Översikt över autoskalning i Microsoft Azure.

Diagram för att lägga till/ta bort instans för automatisk skalning efter behov

Idag kan du hantera automatisk skalning med hjälp av antingen Azure CLI, REST, ARM eller webbläsarbaserade Azure Portal. Andra Azure Machine Learning-SDK:er, till exempel Python SDK, lägger till stöd över tid.

Förutsättningar

En distribuerad slutpunkt. Distribuera och poängsätta en maskininlärningsmodell med hjälp av en onlineslutpunkt.
Om du vill använda autoskalning måste rollen microsoft.insights/autoscalesettings/write tilldelas till den identitet som hanterar autoskalning. Du kan använda inbyggda eller anpassade roller som tillåter den här åtgärden. Allmän vägledning om hur du hanterar roller för Azure Machine Learning finns i Hantera användare och roller. Mer information om autoskalningsinställningar från Azure Monitor finns i Microsoft.Insights autoscalesettings.

Definiera en autoskalningsprofil

Om du vill aktivera autoskalning för en slutpunkt definierar du först en autoskalningsprofil. Den här profilen definierar skalningsuppsättningens förvalda, lägsta och högsta kapacitet. I följande exempel anges standard- och minimikapaciteten som två VM-instanser och den maximala kapaciteten som fem:

GÄLLER FÖR:Azure CLI ml-tillägg v2 (aktuellt)

Följande kodfragment anger slutpunkts- och distributionsnamnen:

# set your existing endpoint name
ENDPOINT_NAME=your-endpoint-name
DEPLOYMENT_NAME=blue

Hämta sedan Azure Resource Manager-ID för distributionen och slutpunkten:

# ARM id of the deployment
DEPLOYMENT_RESOURCE_ID=$(az ml online-deployment show -e $ENDPOINT_NAME -n $DEPLOYMENT_NAME -o tsv --query "id")
# ARM id of the deployment. todo: change to --query "id"
ENDPOINT_RESOURCE_ID=$(az ml online-endpoint show -n $ENDPOINT_NAME -o tsv --query "properties.\"azureml.onlineendpointid\"")
# set a unique name for autoscale settings for this deployment. The below will append a random number to make the name unique.
AUTOSCALE_SETTINGS_NAME=autoscale-$ENDPOINT_NAME-$DEPLOYMENT_NAME-`echo $RANDOM`

Följande kodfragment skapar autoskalningsprofilen:

az monitor autoscale create \
  --name $AUTOSCALE_SETTINGS_NAME \
  --resource $DEPLOYMENT_RESOURCE_ID \
  --min-count 2 --max-count 5 --count 2

Anteckning

Mer information finns på referenssidan för autoskalning

GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

Importera moduler:

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
from azure.mgmt.monitor import MonitorManagementClient
from azure.mgmt.monitor.models import AutoscaleProfile, ScaleRule, MetricTrigger, ScaleAction, Recurrence, RecurrentSchedule
import random 
import datetime

Definiera variabler för arbetsytan, slutpunkten och distributionen:

subscription_id = "<YOUR-SUBSCRIPTION-ID>"
resource_group = "<YOUR-RESOURCE-GROUP>"
workspace = "<YOUR-WORKSPACE>"

endpoint_name = "<YOUR-ENDPOINT-NAME>"
deployment_name = "blue"

Hämta Azure Machine Learning- och Azure Monitor-klienter:

credential = DefaultAzureCredential()
ml_client = MLClient(
    credential, subscription_id, resource_group, workspace
)

mon_client = MonitorManagementClient(
    credential, subscription_id
)

Hämta slutpunkts- och distributionsobjekten:

deployment = ml_client.online_deployments.get(
    deployment_name, endpoint_name
)

endpoint = ml_client.online_endpoints.get(
    endpoint_name
)

Skapa en autoskalningsprofil:

# Set a unique name for autoscale settings for this deployment. The below will append a random number to make the name unique.
autoscale_settings_name = f"autoscale-{endpoint_name}-{deployment_name}-{random.randint(0,1000)}"

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="my-scale-settings",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 5,
                    "default" : 2
                },
                rules = []
            )
        ]
    }
)

Skapa en regel för att skala ut med hjälp av mått

En vanlig utskalningsregel är en regel som ökar antalet virtuella datorinstanser när den genomsnittliga CPU-belastningen är hög. I följande exempel allokeras ytterligare två noder (upp till maxvärdet) om processorn i genomsnitt har en belastning på mer än 70 % i fem minuter::

GÄLLER FÖR:Azure CLI ml-tillägg v2 (aktuellt)

az monitor autoscale rule create \
  --autoscale-name $AUTOSCALE_SETTINGS_NAME \
  --condition "CpuUtilizationPercentage > 70 avg 5m" \
  --scale out 2

Regeln är en del av profilen my-scale-settings (autoscale-name matchar name profilen). Värdet för argumentet condition säger att regeln ska utlösas när "Den genomsnittliga CPU-förbrukningen bland de virtuella datorinstanserna överstiger 70 % i fem minuter". När villkoret är uppfyllt allokeras ytterligare två VM-instanser.

Anteckning

Mer information om CLI-syntaxen finns i az monitor autoscale.

GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

Skapa regeldefinitionen:

rule_scale_out = ScaleRule(
    metric_trigger = MetricTrigger(
        metric_name="CpuUtilizationPercentage",
        metric_resource_uri = deployment.id, 
        time_grain = datetime.timedelta(minutes = 1),
        statistic = "Average",
        operator = "GreaterThan", 
        time_aggregation = "Last",
        time_window = datetime.timedelta(minutes = 5), 
        threshold = 70
    ), 
    scale_action = ScaleAction(
        direction = "Increase", 
        type = "ChangeCount", 
        value = 2, 
        cooldown = datetime.timedelta(hours = 1)
    )
)

Den här regeln refererar till medelvärdet för de sista 5 minuterna från CPUUtilizationpercentage argumenten metric_name, time_window och time_aggregation. När värdet för måttet är större än threshold för 70 allokeras ytterligare två VM-instanser.

Uppdatera profilen my-scale-settings så att den inkluderar den här regeln:

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="my-scale-settings",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 5,
                    "default" : 2
                },
                rules = [
                    rule_scale_out
                ]
            )
        ]
    }
)

Skapa en regel för att skala in med hjälp av mått

När belastningen är lätt kan en skalningsregel minska antalet VM-instanser. I följande exempel släpps en enskild nod, ned till minst 2, om CPU-belastningen är mindre än 30 % i 5 minuter:

GÄLLER FÖR:Azure CLI ml-tillägg v2 (aktuellt)

az monitor autoscale rule create \
  --autoscale-name $AUTOSCALE_SETTINGS_NAME \
  --condition "CpuUtilizationPercentage < 25 avg 5m" \
  --scale in 1

GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

Skapa regeldefinitionen:

rule_scale_in = ScaleRule(
    metric_trigger = MetricTrigger(
        metric_name="CpuUtilizationPercentage",
        metric_resource_uri = deployment.id, 
        time_grain = datetime.timedelta(minutes = 1),
        statistic = "Average",
        operator = "LessThan", 
        time_aggregation = "Last",
        time_window = datetime.timedelta(minutes = 5), 
        threshold = 30
    ), 
    scale_action = ScaleAction(
        direction = "Increase", 
        type = "ChangeCount", 
        value = 1, 
        cooldown = datetime.timedelta(hours = 1)
    )
)

Uppdatera profilen my-scale-settings så att den inkluderar den här regeln:

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="my-scale-settings",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 5,
                    "default" : 2
                },
                rules = [
                    rule_scale_out, 
                    rule_scale_in
                ]
            )
        ]
    }
)

Skapa en skalningsregel baserat på slutpunktsmått

De tidigare reglerna som tillämpades på distributionen. Lägg nu till en regel som gäller för slutpunkten. Om svarstiden för begäran i det här exemplet är större än i genomsnitt 70 millisekunder i 5 minuter allokerar du en annan nod.

GÄLLER FÖR:Azure CLI ml extension v2 (aktuell)

az monitor autoscale rule create \
 --autoscale-name $AUTOSCALE_SETTINGS_NAME \
 --condition "RequestLatency > 70 avg 5m" \
 --scale out 1 \
 --resource $ENDPOINT_RESOURCE_ID

GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

Skapa regeldefinitionen:

rule_scale_out_endpoint = ScaleRule(
    metric_trigger = MetricTrigger(
        metric_name="RequestLatency",
        metric_resource_uri = endpoint.id, 
        time_grain = datetime.timedelta(minutes = 1),
        statistic = "Average",
        operator = "GreaterThan", 
        time_aggregation = "Last",
        time_window = datetime.timedelta(minutes = 5), 
        threshold = 70
    ), 
    scale_action = ScaleAction(
        direction = "Increase", 
        type = "ChangeCount", 
        value = 1, 
        cooldown = datetime.timedelta(hours = 1)
    )
)

Den här regelns metric_resource_uri fält refererar nu till slutpunkten i stället för distributionen.

Uppdatera profilen så att den my-scale-settings innehåller den här regeln:

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="my-scale-settings",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 5,
                    "default" : 2
                },
                rules = [
                    rule_scale_out, 
                    rule_scale_in,
                    rule_scale_out_endpoint
                ]
            )
        ]
    }
)

Skapa skalningsregler baserat på ett schema

Du kan också skapa regler som endast gäller vissa dagar eller vid vissa tidpunkter. I det här exemplet anges antalet noder till 2 under helgen.

GÄLLER FÖR:Azure CLI ml extension v2 (aktuell)

az monitor autoscale profile create \
  --name weekend-profile \
  --autoscale-name $AUTOSCALE_SETTINGS_NAME \
  --min-count 2 --count 2 --max-count 2 \
  --recurrence week sat sun --timezone "Pacific Standard Time"

GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="Default",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 2,
                    "default" : 2
                },
                recurrence = Recurrence(
                    frequency = "Week", 
                    schedule = RecurrentSchedule(
                        time_zone = "Pacific Standard Time", 
                        days = ["Saturday", "Sunday"], 
                        hours = [], 
                        minutes = []
                    )
                )
            )
        ]
    }
)

Ta bort resurser

Om du inte kommer att använda dina distributioner tar du bort dem:

GÄLLER FÖR:Azure CLI ml extension v2 (aktuell)

# delete the autoscaling profile
az monitor autoscale delete -n "$AUTOSCALE_SETTINGS_NAME"

# delete the endpoint
az ml online-endpoint delete --name $ENDPOINT_NAME --yes --no-wait

GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

mon_client.autoscale_settings.delete(
    resource_group, 
    autoscale_settings_name
)

ml_client.online_endpoints.begin_delete(endpoint_name)

Nästa steg

Mer information om autoskalning med Azure Monitor finns i följande artiklar:

Autoskalning av en onlineslutpunkt

Förutsättningar

Definiera en autoskalningsprofil

Skapa en regel för att skala ut med hjälp av mått

Skapa en regel för att skala in med hjälp av mått

Skapa en skalningsregel baserat på slutpunktsmått

Skapa skalningsregler baserat på ett schema

Ta bort resurser

Nästa steg

Ytterligare resurser