Menskalakan titik akhir online secara otomatis

Artikel
04/04/2023

BERLAKU UNTUK:Ekstensi ml Azure CLI v2 (saat ini)Python SDK azure-ai-ml v2 (saat ini)

Skala otomatis secara otomatis menjalankan jumlah sumber daya yang tepat untuk menangani beban pada aplikasi Anda. Titik akhir online mendukung penyekalaan otomatis melalui integrasi dengan fitur penyekalaan otomatis Azure Monitor.

Penskalaan otomatis Azure Monitor mendukung serangkaian aturan yang kaya. Anda dapat mengonfigurasi penskalaan berbasis metrik (misalnya, pemanfaatan CPU >70%), penskalaan berbasis jadwal (misalnya, aturan penskalaan untuk jam kerja puncak), atau kombinasi. Untuk informasi selengkapnya, lihat Gambaran umum skala otomatis di Microsoft Azure.

Diagram untuk instans penambahan/penghapusan skala otomatis sesuai kebutuhan

Hari ini, Anda dapat mengelola penskalaan otomatis menggunakan Azure CLI, REST, ARM, atau portal Microsoft Azure berbasis browser. SDK Azure Machine Learning lainnya, seperti Python SDK, akan menambahkan dukungan dari waktu ke waktu.

Prasyarat

Titik akhir yang disebarkan. Menyebarkan dan menilai model pembelajaran mesin menggunakan titik akhir online.
Untuk menggunakan skala otomatis, peran microsoft.insights/autoscalesettings/write harus ditetapkan ke identitas yang mengelola skala otomatis. Anda dapat menggunakan peran bawaan atau kustom apa pun yang memungkinkan tindakan ini. Untuk panduan umum tentang mengelola peran untuk Azure Machine Learning, lihat Mengelola pengguna dan peran. Untuk informasi selengkapnya tentang pengaturan skala otomatis dari Azure Monitor, lihat Penskalaan otomatis Microsoft.Insights.

Menentukan profil skala otomatis

Guna mengaktifkan skala otomatis untuk titik akhir, Anda terlebih dahulu menentukan profil skala otomatis. Profil ini menentukan kapasitas set skala default, minimum, dan maksimum. Contoh berikut mengatur kapasitas default dan minimum sebagai dua instans mesin virtual, dan kapasitas maksimum sebagai lima:

BERLAKU UNTUK:Ekstensi ml Azure CLI v2 (saat ini)

Cuplikan berikut mengatur titik akhir dan nama penyebaran:

# set your existing endpoint name
ENDPOINT_NAME=your-endpoint-name
DEPLOYMENT_NAME=blue

Selanjutnya, dapatkan ID Azure Resource Manager dari penyebaran dan titik akhir:

# ARM id of the deployment
DEPLOYMENT_RESOURCE_ID=$(az ml online-deployment show -e $ENDPOINT_NAME -n $DEPLOYMENT_NAME -o tsv --query "id")
# ARM id of the deployment. todo: change to --query "id"
ENDPOINT_RESOURCE_ID=$(az ml online-endpoint show -n $ENDPOINT_NAME -o tsv --query "properties.\"azureml.onlineendpointid\"")
# set a unique name for autoscale settings for this deployment. The below will append a random number to make the name unique.
AUTOSCALE_SETTINGS_NAME=autoscale-$ENDPOINT_NAME-$DEPLOYMENT_NAME-`echo $RANDOM`

Cuplikan berikut membuat profil skala otomatis:

az monitor autoscale create \
  --name $AUTOSCALE_SETTINGS_NAME \
  --resource $DEPLOYMENT_RESOURCE_ID \
  --min-count 2 --max-count 5 --count 2

Catatan

Untuk selengkapnya, lihat halaman referensi untuk skala otomatis

BERLAKU UNTUK: Python SDK azure-ai-ml v2 (saat ini)

Mengimpor modul:

from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
from azure.mgmt.monitor import MonitorManagementClient
from azure.mgmt.monitor.models import AutoscaleProfile, ScaleRule, MetricTrigger, ScaleAction, Recurrence, RecurrentSchedule
import random 
import datetime

Menentukan variabel untuk ruang kerja, titik akhir, dan penyebaran:

subscription_id = "<YOUR-SUBSCRIPTION-ID>"
resource_group = "<YOUR-RESOURCE-GROUP>"
workspace = "<YOUR-WORKSPACE>"

endpoint_name = "<YOUR-ENDPOINT-NAME>"
deployment_name = "blue"

Dapatkan klien Azure Machine Learning dan Azure Monitor:

credential = DefaultAzureCredential()
ml_client = MLClient(
    credential, subscription_id, resource_group, workspace
)

mon_client = MonitorManagementClient(
    credential, subscription_id
)

Mendapatkan titik akhir dan objek penyebaran:

deployment = ml_client.online_deployments.get(
    deployment_name, endpoint_name
)

endpoint = ml_client.online_endpoints.get(
    endpoint_name
)

Menentukan profil skala otomatis:

# Set a unique name for autoscale settings for this deployment. The below will append a random number to make the name unique.
autoscale_settings_name = f"autoscale-{endpoint_name}-{deployment_name}-{random.randint(0,1000)}"

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="my-scale-settings",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 5,
                    "default" : 2
                },
                rules = []
            )
        ]
    }
)

Buat aturan untuk meluaskaan skala menggunakan metrik

Aturan peluasan skala yang umum adalah aturan yang meningkatkan jumlah instans mesin virtual saat beban CPU rata-rata tinggi. Contoh berikut akan mengalokasikan dua node lagi (hingga maksimum) jika CPU rata-rata memuat lebih dari 70% selama lima menit::

BERLAKU UNTUK:Ekstensi ml Azure CLI v2 (saat ini)

az monitor autoscale rule create \
  --autoscale-name $AUTOSCALE_SETTINGS_NAME \
  --condition "CpuUtilizationPercentage > 70 avg 5m" \
  --scale out 2

Aturan adalah bagian dari profil my-scale-settings (autoscale-name cocok dengan name profil). Nilai argumen condition-nya mengatakan bahwa aturan harus dipicu ketika "Konsumsi CPU rata-rata di antara instans VM melebihi 70% selama lima menit." Ketika kondisi itu terpenuhi, dua instans VM lagi dialokasikan.

Catatan

Untuk informasi selengkapnya tentang sintaks CLI, lihat az monitor autoscale.

BERLAKU UNTUK: Python SDK azure-ai-ml v2 (saat ini)

Membuat definisi aturan:

rule_scale_out = ScaleRule(
    metric_trigger = MetricTrigger(
        metric_name="CpuUtilizationPercentage",
        metric_resource_uri = deployment.id, 
        time_grain = datetime.timedelta(minutes = 1),
        statistic = "Average",
        operator = "GreaterThan", 
        time_aggregation = "Last",
        time_window = datetime.timedelta(minutes = 5), 
        threshold = 70
    ), 
    scale_action = ScaleAction(
        direction = "Increase", 
        type = "ChangeCount", 
        value = 2, 
        cooldown = datetime.timedelta(hours = 1)
    )
)

Aturan ini merujuk pada rata-rata 5 menit terakhir CPUUtilizationpercentage dari argumen metric_name, time_window, dan time_aggregation. Ketika nilai metrik lebih besar dari threshold 70, dua lagi instans VM akan dialokasikan.

Perbarui profil my-scale-settings untuk menyertakan aturan ini:

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="my-scale-settings",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 5,
                    "default" : 2
                },
                rules = [
                    rule_scale_out
                ]
            )
        ]
    }
)

Buat aturan untuk menskalakan dalam menggunakan metrik

Saat beban ringan, penskalaan dalam aturan dapat mengurangi jumlah instans mesin virtual. Contoh berikut akan melepaskan satu node, turun ke minimum 2, jika beban CPU kurang dari 30% selama 5 menit:

BERLAKU UNTUK:Ekstensi ml Azure CLI v2 (saat ini)

az monitor autoscale rule create \
  --autoscale-name $AUTOSCALE_SETTINGS_NAME \
  --condition "CpuUtilizationPercentage < 25 avg 5m" \
  --scale in 1

BERLAKU UNTUK: Python SDK azure-ai-ml v2 (saat ini)

Membuat definisi aturan:

rule_scale_in = ScaleRule(
    metric_trigger = MetricTrigger(
        metric_name="CpuUtilizationPercentage",
        metric_resource_uri = deployment.id, 
        time_grain = datetime.timedelta(minutes = 1),
        statistic = "Average",
        operator = "LessThan", 
        time_aggregation = "Last",
        time_window = datetime.timedelta(minutes = 5), 
        threshold = 30
    ), 
    scale_action = ScaleAction(
        direction = "Increase", 
        type = "ChangeCount", 
        value = 1, 
        cooldown = datetime.timedelta(hours = 1)
    )
)

Perbarui profil my-scale-settings untuk menyertakan aturan ini:

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="my-scale-settings",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 5,
                    "default" : 2
                },
                rules = [
                    rule_scale_out, 
                    rule_scale_in
                ]
            )
        ]
    }
)

Buat aturan penskalaan berdasarkan metrik titik akhir

Aturan sebelumnya diterapkan pada penyebaran. Sekarang, tambahkan aturan yang berlaku untuk titik akhir. Dalam contoh ini, jika latensi permintaan lebih besar dari rata-rata 70 milidetik selama 5 menit, alokasikan node lain.

BERLAKU UNTUK:Ekstensi ml Azure CLI v2 (saat ini)

az monitor autoscale rule create \
 --autoscale-name $AUTOSCALE_SETTINGS_NAME \
 --condition "RequestLatency > 70 avg 5m" \
 --scale out 1 \
 --resource $ENDPOINT_RESOURCE_ID

BERLAKU UNTUK: Python SDK azure-ai-ml v2 (saat ini)

Membuat definisi aturan:

rule_scale_out_endpoint = ScaleRule(
    metric_trigger = MetricTrigger(
        metric_name="RequestLatency",
        metric_resource_uri = endpoint.id, 
        time_grain = datetime.timedelta(minutes = 1),
        statistic = "Average",
        operator = "GreaterThan", 
        time_aggregation = "Last",
        time_window = datetime.timedelta(minutes = 5), 
        threshold = 70
    ), 
    scale_action = ScaleAction(
        direction = "Increase", 
        type = "ChangeCount", 
        value = 1, 
        cooldown = datetime.timedelta(hours = 1)
    )
)

Bidang metric_resource_uri aturan ini kini merujuk pada titik akhir dan bukan penyebaran.

Perbarui profil my-scale-settings untuk menyertakan aturan ini:

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="my-scale-settings",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 5,
                    "default" : 2
                },
                rules = [
                    rule_scale_out, 
                    rule_scale_in,
                    rule_scale_out_endpoint
                ]
            )
        ]
    }
)

Buat aturan penskalaan berdasarkan jadwal

Anda juga dapat membuat aturan yang hanya berlaku pada hari-hari tertentu atau pada waktu-waktu tertentu. Dalam contoh ini, jumlah node diatur ke 2 pada akhir pekan.

BERLAKU UNTUK:Ekstensi ml Azure CLI v2 (saat ini)

az monitor autoscale profile create \
  --name weekend-profile \
  --autoscale-name $AUTOSCALE_SETTINGS_NAME \
  --min-count 2 --count 2 --max-count 2 \
  --recurrence week sat sun --timezone "Pacific Standard Time"

BERLAKU UNTUK: Python SDK azure-ai-ml v2 (saat ini)

mon_client.autoscale_settings.create_or_update(
    resource_group, 
    autoscale_settings_name, 
    parameters = {
        "location" : endpoint.location,
        "target_resource_uri" : deployment.id,
        "profiles" : [
            AutoscaleProfile(
                name="Default",
                capacity={
                    "minimum" : 2, 
                    "maximum" : 2,
                    "default" : 2
                },
                recurrence = Recurrence(
                    frequency = "Week", 
                    schedule = RecurrentSchedule(
                        time_zone = "Pacific Standard Time", 
                        days = ["Saturday", "Sunday"], 
                        hours = [], 
                        minutes = []
                    )
                )
            )
        ]
    }
)

Hapus sumber daya

Jika Anda tidak akan menggunakan penyebaran, hapus:

BERLAKU UNTUK:Ekstensi ml Azure CLI v2 (saat ini)

# delete the autoscaling profile
az monitor autoscale delete -n "$AUTOSCALE_SETTINGS_NAME"

# delete the endpoint
az ml online-endpoint delete --name $ENDPOINT_NAME --yes --no-wait

BERLAKU UNTUK: Python SDK azure-ai-ml v2 (saat ini)

mon_client.autoscale_settings.delete(
    resource_group, 
    autoscale_settings_name
)

ml_client.online_endpoints.begin_delete(endpoint_name)

Langkah berikutnya

Untuk mempelajari selengkapnya tentang skala otomatis dengan Azure Monitor, lihat artikel berikut ini:

Menskalakan titik akhir online secara otomatis

Prasyarat

Menentukan profil skala otomatis

Buat aturan untuk meluaskaan skala menggunakan metrik

Buat aturan untuk menskalakan dalam menggunakan metrik

Buat aturan penskalaan berdasarkan metrik titik akhir

Buat aturan penskalaan berdasarkan jadwal

Hapus sumber daya

Langkah berikutnya

Sumber Daya Tambahan: