Använda en anpassad container för att distribuera en modell till en onlineslutpunkt

Artikel
03/26/2024

GÄLLER FÖR:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (aktuell)

Lär dig hur du använder en anpassad container för att distribuera en modell till en onlineslutpunkt i Azure Machine Learning.

Anpassade containerdistributioner kan använda andra webbservrar än den Python Flask-standardserver som används av Azure Machine Learning. Användare av dessa distributioner kan fortfarande dra nytta av Azure Machine Learnings inbyggda övervakning, skalning, aviseringar och autentisering.

I följande tabell visas olika distributionsexempel som använder anpassade containrar, till exempel TensorFlow Serving, TorchServe, Triton Inference Server, Plumber R-paket och Azure Machine Learning Inference Minimal avbildning.

Exempel	Skript (CLI)	beskrivning
minimal/multimodel	deploy-custom-container-minimal-multimodel	Distribuera flera modeller till en enda distribution genom att utöka Azure Machine Learning Inference Minimal avbildning.
minimal/enkel modell	deploy-custom-container-minimal-single-model	Distribuera en enskild modell genom att utöka Azure Machine Learning Inference Minimal avbildning.
mlflow/multideployment-scikit	deploy-custom-container-mlflow-multideployment-scikit	Distribuera två MLFlow-modeller med olika Python-krav till två separata distributioner bakom en enda slutpunkt med azure machine learning-slutsatsdragningen Minimal avbildning.
r/multimodel-plumber	deploy-custom-container-r-multimodel-plumber	Distribuera tre regressionsmodeller till en slutpunkt med hjälp av Plumber R-paketet
tfserving/half-plus-two	deploy-custom-container-tfserving-half-plus-two	Distribuera en Halv plus två-modell med hjälp av en anpassad TensorFlow-serveringscontainer med hjälp av standardmodellregistreringsprocessen.
tfserving/half-plus-two-integrated	deploy-custom-container-tfserving-half-plus-two-integrated	Distribuera en Half Plus Two-modell med en anpassad TensorFlow-serveringscontainer med modellen integrerad i avbildningen.
torchserve/densenet	deploy-custom-container-torchserve-densenet	Distribuera en enskild modell med hjälp av en anpassad TorchServe-container.
torchserve/huggingface-textgen	deploy-custom-container-torchserve-huggingface-textgen	Distribuera Hugging Face-modeller till en onlineslutpunkt och följ med i exemplet Hugging Face Transformers TorchServe.
triton/single-model	deploy-custom-container-triton-single-model	Distribuera en Triton-modell med en anpassad container

Den här artikeln fokuserar på att betjäna en TensorFlow-modell med TensorFlow -servering (TF).

Varning

Microsoft kanske inte kan hjälpa till att felsöka problem som orsakas av en anpassad avbildning. Om du får problem kan du bli ombedd att använda standardbilden eller någon av de bilder som Microsoft tillhandahåller för att se om problemet är specifikt för din bild.

Förutsättningar

Innan du följer stegen i den här artikeln kontrollerar du att du har följande förutsättningar:

En Azure Machine Learning-arbetsyta. Om du inte har någon använder du stegen i artikeln Snabbstart: Skapa arbetsyteresurser för att skapa en.
Azure CLI och ml tillägget eller Azure Machine Learning Python SDK v2:
- Information om hur du installerar Azure CLI och tillägget finns i Installera, konfigurera och använda CLI (v2).
  
  Viktigt!
  
  CLI-exemplen i den här artikeln förutsätter att du använder Bash-gränssnittet (eller det kompatibla). Till exempel från ett Linux-system eller Windows-undersystem för Linux.
- Om du vill installera Python SDK v2 använder du följande kommando:
```
pip install azure-ai-ml azure-identity
```
  Om du vill uppdatera en befintlig installation av SDK:et till den senaste versionen använder du följande kommando:
```
pip install --upgrade azure-ai-ml azure-identity
```
  Mer information finns i Installera Python SDK v2 för Azure Machine Learning.

Du, eller tjänstens huvudnamn som du använder, måste ha deltagaråtkomst till den Azure-resursgrupp som innehåller din arbetsyta. Du har en sådan resursgrupp om du har konfigurerat din arbetsyta med hjälp av snabbstartsartikeln.
Om du vill distribuera lokalt måste Docker-motorn köras lokalt. Det här steget rekommenderas starkt. Det hjälper dig att felsöka problem.

Ladda ned källkod

Om du vill följa med i den här självstudien klonar du källkoden från GitHub.

Azure CLI
Python SDK

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

Se även exempelanteckningsboken, men observera att 3. Test locally avsnittet i notebook-filen förutsätter att den körs under azureml-examples/sdk katalogen.

Initiera miljövariabler

Definiera miljövariabler:

BASE_PATH=endpoints/online/custom-container/tfserving/half-plus-two
AML_MODEL_NAME=tfserving-mounted
MODEL_NAME=half_plus_two
MODEL_BASE_PATH=/var/azureml-app/azureml-models/$AML_MODEL_NAME/1

Ladda ned en TensorFlow-modell

Ladda ned och packa upp en modell som delar indata med två och lägger till 2 i resultatet:

wget https://aka.ms/half_plus_two-model -O $BASE_PATH/half_plus_two.tar.gz
tar -xvf $BASE_PATH/half_plus_two.tar.gz -C $BASE_PATH

Kör en TF-serveringsbild lokalt för att testa att den fungerar

Använd docker för att köra avbildningen lokalt för testning:

docker run --rm -d -v $PWD/$BASE_PATH:$MODEL_BASE_PATH -p 8501:8501 \
 -e MODEL_BASE_PATH=$MODEL_BASE_PATH -e MODEL_NAME=$MODEL_NAME \
 --name="tfserving-test" docker.io/tensorflow/serving:latest
sleep 10

Kontrollera att du kan skicka liveness- och bedömningsbegäranden till bilden

Kontrollera först att containern är aktiv, vilket innebär att processen i containern fortfarande körs. Du bör få ett svar på 200 (OK).

curl -v http://localhost:8501/v1/models/$MODEL_NAME

Kontrollera sedan att du kan få förutsägelser om omärkta data:

curl --header "Content-Type: application/json" \
  --request POST \
  --data @$BASE_PATH/sample_request.json \
  http://localhost:8501/v1/models/$MODEL_NAME:predict

Stoppa avbildningen

Nu när du har testat lokalt stoppar du avbildningen:

docker stop tfserving-test

Distribuera din onlineslutpunkt till Azure

Distribuera sedan din onlineslutpunkt till Azure.

Azure CLI
Python SDK

Skapa en YAML-fil för slutpunkten och distributionen

Du kan konfigurera molndistributionen med YAML. Ta en titt på YAML-exemplet för det här exemplet:

tfserving-endpoint.yml

$schema: https://azuremlsdk2.blob.core.windows.net/latest/managedOnlineEndpoint.schema.json
name: tfserving-endpoint
auth_mode: aml_token

tfserving-deployment.yml

$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: tfserving-deployment
endpoint_name: tfserving-endpoint
model:
  name: tfserving-mounted
  version: {{MODEL_VERSION}}
  path: ./half_plus_two
environment_variables:
  MODEL_BASE_PATH: /var/azureml-app/azureml-models/tfserving-mounted/{{MODEL_VERSION}}
  MODEL_NAME: half_plus_two
environment:
  #name: tfserving
  #version: 1
  image: docker.io/tensorflow/serving:latest
  inference_config:
    liveness_route:
      port: 8501
      path: /v1/models/half_plus_two
    readiness_route:
      port: 8501
      path: /v1/models/half_plus_two
    scoring_route:
      port: 8501
      path: /v1/models/half_plus_two:predict
instance_type: Standard_DS3_v2
instance_count: 1

Anslut till Azure Machine Learning-arbetsytan

Anslut till din Azure Machine Learning-arbetsyta, konfigurera information om arbetsytan och få en referens till arbetsytan på följande sätt:

Importera de bibliotek som krävs:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
   ManagedOnlineEndpoint,
   ManagedOnlineDeployment,
   Model,
   Environment,
   CodeConfiguration,
)
from azure.identity import DefaultAzureCredential

Konfigurera information om arbetsytan och få ett handtag till arbetsytan:

# enter details of your Azure Machine Learning workspace
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace = "<AZUREML_WORKSPACE_NAME>"

# get a handle to the workspace
ml_client = MLClient(
   DefaultAzureCredential(), subscription_id, resource_group, workspace
)

Mer information finns i Distribuera maskininlärningsmodeller till hanterad onlineslutpunkt med Python SDK v2.

Konfigurera onlineslutpunkt

Dricks

name: Namnet på slutpunkten. Den måste vara unik i Azure-regionen. Namnet på en slutpunkt måste börja med en versal eller gemen bokstav och endast bestå av '-'s och alfanumeriska tecken. Mer information om namngivningsreglerna finns i slutpunktsgränser.
auth_mode : Används key för nyckelbaserad autentisering. Används aml_token för tokenbaserad autentisering i Azure Machine Learning. A key upphör inte att gälla, men aml_token upphör att gälla. Mer information om autentisering finns i Autentisera till en onlineslutpunkt.

Du kan också lägga till beskrivning, taggar till slutpunkten.

# Creating a unique endpoint name with current datetime to avoid conflicts
import datetime

online_endpoint_name = "endpoint-" + datetime.datetime.now().strftime("%m%d%H%M%f")

# create an online endpoint
endpoint = ManagedOnlineEndpoint(
    name=online_endpoint_name,
    description="this is a sample online endpoint",
    auth_mode="key",
    tags={"foo": "bar"},
)

Konfigurera onlinedistribution

En distribution är en uppsättning resurser som krävs för att vara värd för den modell som utför den faktiska inferensen. Skapa en distribution för slutpunkten med hjälp av ManagedOnlineDeployment klassen .

Dricks

name - Namnet på distributionen.
endpoint_name – Namnet på slutpunkten som distributionen ska skapas under.
model – Den modell som ska användas för distributionen. Det här värdet kan antingen vara en referens till en befintlig version av modellen på arbetsytan eller en infogad > modellspecifikation.
environment – Den miljö som ska användas för distributionen. Det här värdet kan antingen vara en referens till en befintlig > version av miljön på arbetsytan eller en infogad miljöspecifikation.
code_configuration – konfigurationen för källkoden och bedömningsskriptet
- path– Sökväg till källkodskatalogen för bedömning av modellen
- scoring_script – Relativ sökväg till bedömningsfilen i källkodskatalogen
instance_type – Den VM-storlek som ska användas för distributionen. En lista över storlekar som stöds finns i SKU-listan för slutpunkter.
instance_count – Antalet instanser som ska användas för distributionen

# create a blue deployment
model = Model(name="tfserving-mounted", version="1", path="half_plus_two")

env = Environment(
    image="docker.io/tensorflow/serving:latest",
    inference_config={
        "liveness_route": {"port": 8501, "path": "/v1/models/half_plus_two"},
        "readiness_route": {"port": 8501, "path": "/v1/models/half_plus_two"},
        "scoring_route": {"port": 8501, "path": "/v1/models/half_plus_two:predict"},
    },
)

blue_deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=online_endpoint_name,
    model=model,
    environment=env,
    environment_variables={
        "MODEL_BASE_PATH": "/var/azureml-app/azureml-models/tfserving-mounted/1",
        "MODEL_NAME": "half_plus_two",
    },
    instance_type="Standard_DS2_v2",
    instance_count=1,
)

Det finns några viktiga begrepp att märka i den här YAML/Python-parametern:

Beredskapsväg jämfört med liveness-vägen

En HTTP-server definierar sökvägar för både livskraft och beredskap. En liveness-väg används för att kontrollera om servern körs. En beredskapsväg används för att kontrollera om servern är redo att fungera. I maskininlärningsslutsats kan en server svara 200 OK på en liveness-begäran innan en modell läses in. Servern kunde svara 200 OK på en beredskapsbegäran först när modellen har lästs in i minnet.

Mer information om liveness- och beredskapsavsökningar finns i Kubernetes-dokumentationen.

Observera att den här distributionen använder samma sökväg för både liveness och beredskap, eftersom TF-servering endast definierar en liveness-väg.

Hitta den monterade modellen

När du distribuerar en modell som en onlineslutpunkt monterar Azure Machine Learning din modell till slutpunkten. Med modellmontering kan du distribuera nya versioner av modellen utan att behöva skapa en ny Docker-avbildning. Som standard finns en modell registrerad med namnet foo och version 1 på följande sökväg i den distribuerade containern: /var/azureml-app/azureml-models/foo/1

Om du till exempel har en katalogstruktur med /azureml-examples/cli/endpoints/online/custom-container på den lokala datorn, där modellen heter half_plus_two:

Diagram som visar en trädvy över den lokala katalogstrukturen.

Azure CLI
Python SDK

Och tfserving-deployment.yml innehåller:

model:
    name: tfserving-mounted
    version: 1
    path: ./half_plus_two

Och Model klassen innehåller:

model = Model(name="tfserving-mounted", version="1", path="half_plus_two")

Sedan finns din modell under /var/azureml-app/azureml-models/tfserving-deployment/1 i distributionen:

Diagram som visar en trädvy över distributionskatalogstrukturen.

Du kan också konfigurera .model_mount_path Du kan ändra sökvägen där modellen är monterad.

Viktigt!

model_mount_path Måste vara en giltig absolut sökväg i Linux (operativsystemet för containeravbildningen).

Azure CLI
Python SDK

Du kan till exempel ha model_mount_path parametern i tfserving-deployment.yml:

name: tfserving-deployment
endpoint_name: tfserving-endpoint
model:
  name: tfserving-mounted
  version: 1
  path: ./half_plus_two
model_mount_path: /var/tfserving-model-mount
.....

Du kan till exempel ha model_mount_path parametern i klassen ManagedOnlineDeployment :

blue_deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=online_endpoint_name,
    model=model,
    environment=env,
    model_mount_path="/var/tfserving-model-mount",
    ...
)

Sedan finns din modell på /var/tfserving-model-mount/tfserving-deployment/1 i distributionen. Observera att den inte längre finns under azureml-app/azureml-models, utan under den monteringssökväg som du angav:

Diagram som visar en trädvy över distributionskatalogstrukturen när du använder mount_model_path.

Nu när du förstår hur YAML skapades skapar du slutpunkten.

az ml online-endpoint create --name tfserving-endpoint -f endpoints/online/custom-container/tfserving-endpoint.yml

Det kan ta några minuter att skapa en distribution.

az ml online-deployment create --name tfserving-deployment -f endpoints/online/custom-container/tfserving-deployment.yml --all-traffic

Skapa slutpunkten på arbetsytan med hjälp av den MLClient som skapades tidigare. Det här kommandot startar skapandet av slutpunkten och returnerar ett bekräftelsesvar medan skapandet av slutpunkten fortsätter.

ml_client.begin_create_or_update(endpoint)

Skapa distributionen genom att köra:

ml_client.begin_create_or_update(blue_deployment)

Anropa slutpunkten

När distributionen är klar kan du se om du kan göra en bedömningsbegäran till den distribuerade slutpunkten.

Azure CLI
Python SDK

RESPONSE=$(az ml online-endpoint invoke -n $ENDPOINT_NAME --request-file $BASE_PATH/sample_request.json)

Med hjälp av det som skapades MLClient tidigare får du ett handtag till slutpunkten. Slutpunkten kan anropas med kommandot invoke med följande parametrar:

endpoint_name – Slutpunktens namn
request_file – Fil med begärandedata
deployment_name – Namnet på den specifika distribution som ska testas i en slutpunkt

Skicka en exempelbegäran med hjälp av en JSON-fil. JSON-exemplet finns i exempellagringsplatsen.

# test the blue deployment with some sample data
ml_client.online_endpoints.invoke(
    endpoint_name=online_endpoint_name,
    deployment_name="blue",
    request_file="sample-request.json",
)

Ta bort slutpunkten

Nu när du har gjort mål med slutpunkten kan du ta bort den:

Azure CLI
Python SDK

az ml online-endpoint delete --name tfserving-endpoint

ml_client.online_endpoints.begin_delete(name=online_endpoint_name)