Serviço de alto desempenho com o Triton Inference Server

Artigo
04/07/2024

APLICA-SE A:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (current)

Saiba como usar o NVIDIA Triton Inference Server no Azure Machine Learning com pontos de extremidade online.

Triton é multi-framework, software de código aberto que é otimizado para inferência. Ele suporta estruturas populares de aprendizado de máquina como TensorFlow, ONNX Runtime, PyTorch, NVIDIA TensorRT e muito mais. Ele pode ser usado para suas cargas de trabalho de CPU ou GPU.

Há principalmente duas abordagens que você pode adotar para aproveitar os modelos Triton ao implantá-los no endpoint online: implantação sem código ou implantação de código completo (traga seu próprio contêiner).

A implantação sem código para modelos Triton é uma maneira simples de implantá-los, pois você só precisa trazer modelos Triton para implantar.
A implantação de código completo (Bring your own container) para modelos Triton é uma maneira mais avançada de implantá-los, pois você tem controle total sobre a personalização das configurações disponíveis para o servidor de inferência Triton.

Para ambas as opções, o servidor de inferência Triton executará a inferência com base no modelo Triton, conforme definido pela NVIDIA. Por exemplo, modelos de conjunto podem ser usados para cenários mais avançados.

O Triton é suportado em endpoints online gerenciados e em endpoints online do Kubernetes.

Neste artigo, você aprenderá como implantar um modelo usando a implantação sem código para Triton em um ponto de extremidade online gerenciado. São fornecidas informações sobre como usar a CLI (linha de comando), o Python SDK v2 e o estúdio Azure Machine Learning. Se você quiser personalizar ainda mais diretamente usando a configuração do servidor de inferência Triton, consulte Usar um contêiner personalizado para implantar um modelo e o exemplo BYOC para Triton (definição de implantação e script de ponta a ponta).

Nota

O uso do contêiner NVIDIA Triton Inference Server é regido pelo contrato de licença do NVIDIA AI Enterprise Software e pode ser usado por 90 dias sem uma assinatura de produto empresarial. Para obter mais informações, consulte NVIDIA AI Enterprise no Azure Machine Learning.

Pré-requisitos

Antes de seguir as etapas neste artigo, verifique se você tem os seguintes pré-requisitos:

A CLI do Azure e a ml extensão para a CLI do Azure. Para obter mais informações, consulte Instalar, configurar e usar a CLI (v2).

Importante

Os exemplos de CLI neste artigo pressupõem que você esteja usando o shell Bash (ou compatível). Por exemplo, de um sistema Linux ou Subsistema Windows para Linux.
Uma área de trabalho do Azure Machine Learning. Se você não tiver uma, use as etapas em Instalar, configurar e usar a CLI (v2) para criar uma.

Um ambiente Python 3.8 (ou superior) em funcionamento.
Você deve ter pacotes Python adicionais instalados para pontuação e pode instalá-los com o código abaixo. Estas incluem:
- Numpy - Uma biblioteca de computação numérica e matriz
- Triton Inference Server Client - Facilita solicitações para o Triton Inference Server
- Almofada - Uma biblioteca para operações de imagem
- Gevent - Uma biblioteca de rede usada ao se conectar ao Triton Server

pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent

Acesso a VMs da série NCv3 para sua assinatura do Azure.

Importante

Talvez seja necessário solicitar um aumento de cota para sua assinatura antes de poder usar essa série de VMs. Para obter mais informações, consulte NCv3-series.

O NVIDIA Triton Inference Server requer uma estrutura de repositório de modelo específica, onde há um diretório para cada modelo e subdiretórios para a versão do modelo. O conteúdo de cada subdiretório de versão do modelo é determinado pelo tipo do modelo e pelos requisitos do back-end que suporta o modelo. Para ver toda a estrutura do repositório de modelos https://github.com/triton-inference-server/server/blob/main/docs/user_guide/model_repository.md#model-files

As informações neste documento são baseadas no uso de um modelo armazenado no formato ONNX, portanto, a estrutura de diretórios do repositório de modelos é <model-repository>/<model-name>/1/model.onnx. Especificamente, este modelo realiza a identificação de imagens.

As informações neste artigo são baseadas em exemplos de código contidos no repositório azureml-examples . Para executar os comandos localmente sem ter que copiar/colar YAML e outros arquivos, clone o repositório e, em seguida, altere os diretórios para o cli diretório no repositório:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples
cd cli

Se você ainda não definiu os padrões para a CLI do Azure, salve suas configurações padrão. Para evitar passar os valores da sua assinatura, espaço de trabalho e grupo de recursos várias vezes, use os comandos a seguir. Substitua os seguintes parâmetros por valores para sua configuração específica:

Substitua <subscription> pelo seu ID da subscrição do Azure.
Substitua <workspace> pelo nome do espaço de trabalho do Azure Machine Learning.
Substitua <resource-group> pelo grupo de recursos do Azure que contém seu espaço de trabalho.
Substitua <location> pela região do Azure que contém seu espaço de trabalho.

Gorjeta

Você pode ver quais são seus padrões atuais usando o az configure -l comando.

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

APLICA-SE A: Python SDK azure-ai-ml v2 (atual)

Antes de seguir as etapas neste artigo, verifique se você tem os seguintes pré-requisitos:

Uma área de trabalho do Azure Machine Learning. Se você não tiver um, use as etapas no artigo Guia de início rápido: criar recursos do espaço de trabalho para criar um.
Para instalar o Python SDK v2, use o seguinte comando:
```
pip install azure-ai-ml azure-identity
```
Para atualizar uma instalação existente do SDK para a versão mais recente, use o seguinte comando:
```
pip install --upgrade azure-ai-ml azure-identity
```
Para obter mais informações, consulte Instalar o Python SDK v2 para Azure Machine Learning.

Um ambiente Python 3.8 (ou superior) em funcionamento.
Você deve ter pacotes Python adicionais instalados para pontuação e pode instalá-los com o código abaixo. Estas incluem:
- Numpy - Uma biblioteca de computação numérica e matriz
- Triton Inference Server Client - Facilita solicitações para o Triton Inference Server
- Almofada - Uma biblioteca para operações de imagem
- Gevent - Uma biblioteca de rede usada ao se conectar ao Triton Server
```
pip install numpy
pip install tritonclient[http]
pip install pillow
pip install gevent
```
Acesso a VMs da série NCv3 para sua assinatura do Azure.

Importante

Talvez seja necessário solicitar um aumento de cota para sua assinatura antes de poder usar essa série de VMs. Para obter mais informações, consulte NCv3-series.

As informações neste artigo são baseadas no bloco de anotações online-endpoints-triton.ipynb contido no repositório azureml-examples . Para executar os comandos localmente sem ter que copiar/colar arquivos, clone o repositório e, em seguida, altere os diretórios para o sdk/endpoints/online/triton/single-model/ diretório no repositório:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python/endpoints/online/triton/single-model/

Definir a configuração de implantação

APLICA-SE A:Extensão ml da CLI do Azure v2 (atual)

Esta seção mostra como você pode implantar em um ponto de extremidade online gerenciado usando a CLI do Azure com a extensão de Aprendizado de Máquina (v2).

Importante

Para Triton no-code-deployment, o teste via endpoints locais não é suportado no momento.

Para evitar digitar um caminho para vários comandos, use o seguinte comando para definir uma variável de BASE_PATH ambiente. Esta variável aponta para o diretório onde o modelo e os arquivos de configuração YAML associados estão localizados:
```
BASE_PATH=endpoints/online/triton/single-model
```
Use o comando a seguir para definir o nome do ponto de extremidade que será criado. Neste exemplo, um nome aleatório é criado para o ponto de extremidade:
```
export ENDPOINT_NAME=triton-single-endpt-`echo $RANDOM`
```
Crie um arquivo de configuração YAML para seu endpoint. O exemplo a seguir configura o nome e o modo de autenticação do ponto de extremidade. O usado nos comandos a seguir está localizado no /cli/endpoints/online/triton/single-model/create-managed-endpoint.yml repositório azureml-examples clonado anteriormente:

create-managed-endpoint.yaml
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineEndpoint.schema.json
name: my-endpoint
auth_mode: aml_token
```
Crie um arquivo de configuração YAML para a implantação. O exemplo a seguir configura uma implantação chamada azul para o ponto de extremidade definido na etapa anterior. O usado nos comandos a seguir está localizado no /cli/endpoints/online/triton/single-model/create-managed-deployment.yml repositório azureml-examples clonado anteriormente:

Importante

Para que o Triton no-code-deployment (NCD) funcione, é necessário type: triton_modeldefinir type como triton_model . Para obter mais informações, consulte Esquema YAML modelo CLI (v2).

Essa implantação usa uma VM Standard_NC6s_v3. Talvez seja necessário solicitar um aumento de cota para sua assinatura antes de poder usar essa VM. Para obter mais informações, consulte NCv3-series.
```
$schema: https://azuremlschemas.azureedge.net/latest/managedOnlineDeployment.schema.json
name: blue
endpoint_name: my-endpoint
model:
  name: sample-densenet-onnx-model
  version: 1
  path: ./models
  type: triton_model
instance_count: 1
instance_type: Standard_NC6s_v3
```

APLICA-SE A: Python SDK azure-ai-ml v2 (atual)

Esta seção mostra como você pode definir uma implantação Triton para implantar em um ponto de extremidade online gerenciado usando o SDK Python do Azure Machine Learning (v2).

Importante

Para Triton no-code-deployment, o teste via endpoints locais não é suportado no momento.

Para nos conectarmos a um espaço de trabalho, precisamos de parâmetros de identificador - uma assinatura, um grupo de recursos e um nome do espaço de trabalho.
```
subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
```
Use o comando a seguir para definir o nome do ponto de extremidade que será criado. Neste exemplo, um nome aleatório é criado para o ponto de extremidade:
```
import random

endpoint_name = f"endpoint-{random.randint(0, 10000)}"
```
Usamos esses detalhes acima no MLClient de para obter um identificador para o espaço de azure.ai.ml trabalho necessário do Azure Machine Learning. Verifique o bloco de anotações de configuração para obter mais detalhes sobre como configurar credenciais e conectar-se a um espaço de trabalho.
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient(
    DefaultAzureCredential(),
    subscription_id,
    resource_group,
    workspace_name,
)
```
Crie um ManagedOnlineEndpoint objeto para configurar o ponto de extremidade. O exemplo a seguir configura o nome e o modo de autenticação do ponto de extremidade.
```
from azure.ai.ml.entities import ManagedOnlineEndpoint

endpoint = ManagedOnlineEndpoint(name=endpoint_name, auth_mode="key")
```

Crie um ManagedOnlineDeployment objeto para configurar a implantação. O exemplo a seguir configura uma implantação chamada azul para o ponto de extremidade definido na etapa anterior e define um modelo local embutido.

from azure.ai.ml.entities import ManagedOnlineDeployment, Model

model_name = "densenet-onnx-model"
model_version = 1

deployment = ManagedOnlineDeployment(
    name="blue",
    endpoint_name=endpoint_name,
    model=Model(
        name=model_name, 
        version=model_version,
        path="./models",
        type="triton_model"
    ),
    instance_type="Standard_NC6s_v3",
    instance_count=1,
)

Esta seção mostra como você pode definir uma implantação do Triton em um ponto de extremidade online gerenciado usando o estúdio do Azure Machine Learning.

Registe o seu modelo no formato Triton utilizando o seguinte comando YAML e CLI. O YAML usa um modelo densenet-onnx de https://github.com/Azure/azureml-examples/tree/main/cli/endpoints/online/triton/single-model

criar-triton-model.yaml
```
name: densenet-onnx-model
version: 1
path: ./models
type: triton_model
description: Registering my Triton format model.
```
```
az ml model create -f create-triton-model.yaml
```
A captura de tela a seguir mostra a aparência do seu modelo registrado na página Modelos do estúdio do Azure Machine Learning.
No estúdio, selecione seu espaço de trabalho e use a página de pontos de extremidade ou modelos para criar a implantação do ponto de extremidade:
- Página de pontos finais
- Página de modelos
1. Na página Pontos de extremidade, selecione Criar.
2. Forneça um nome e um tipo de autenticação para o ponto de extremidade e selecione Avançar.
3. Ao selecionar um modelo, selecione o modelo Triton registrado anteriormente. Selecione Seguinte para continuar.
4. Quando você seleciona um modelo registrado no formato Triton, na etapa Ambiente do assistente, não é necessário marcar script e ambiente.
1. Selecione o modelo Triton e, em seguida, selecione Implantar. Quando solicitado, selecione Implantar no ponto de extremidade em tempo real.

Implementar no Azure

APLICA-SE A:Extensão ml da CLI do Azure v2 (atual)

Para criar um novo ponto de extremidade usando a configuração YAML, use o seguinte comando:
```
az ml online-endpoint create -n $ENDPOINT_NAME -f $BASE_PATH/create-managed-endpoint.yaml
```

Para criar a implantação usando a configuração YAML, use o seguinte comando:

az ml online-deployment create --name blue --endpoint $ENDPOINT_NAME -f $BASE_PATH/create-managed-deployment.yaml --all-traffic

APLICA-SE A: Python SDK azure-ai-ml v2 (atual)

Para criar um novo ponto de extremidade usando o ManagedOnlineEndpoint objeto, use o seguinte comando:
```
endpoint = ml_client.online_endpoints.begin_create_or_update(endpoint)
```
Para criar a implantação usando o ManagedOnlineDeployment objeto, use o seguinte comando:
```
ml_client.online_deployments.begin_create_or_update(deployment)
```
Quando a implantação for concluída, seu valor de tráfego será definido como 0%. Atualize o tráfego para 100%.
```
endpoint.traffic = {"blue": 100}
ml_client.online_endpoints.begin_create_or_update(endpoint)
```

Testar o parâmetro de avaliação

APLICA-SE A:Extensão ml da CLI do Azure v2 (atual)

Quando a implantação for concluída, use o comando a seguir para fazer uma solicitação de pontuação para o ponto de extremidade implantado.

Gorjeta

O arquivo /cli/endpoints/online/triton/single-model/triton_densenet_scoring.py no repositório azureml-examples é usado para pontuação. A imagem passada para o ponto de extremidade precisa de pré-processamento para atender aos requisitos de tamanho, tipo e formato, e pós-processamento para mostrar o rótulo previsto. O triton_densenet_scoring.py usa a tritonclient.http biblioteca para se comunicar com o servidor de inferência Triton. Este arquivo é executado no lado do cliente.

Para obter o uri de pontuação do ponto de extremidade, use o seguinte comando:

scoring_uri=$(az ml online-endpoint show -n $ENDPOINT_NAME --query scoring_uri -o tsv)
scoring_uri=${scoring_uri%/*}

Para obter uma chave de autenticação, use o seguinte comando:

auth_token=$(az ml online-endpoint get-credentials -n $ENDPOINT_NAME --query accessToken -o tsv)

Para pontuar dados com o ponto de extremidade, use o seguinte comando. Submete a imagem de um pavão (https://aka.ms/peacock-pic) ao ponto final:

python $BASE_PATH/triton_densenet_scoring.py --base_url=$scoring_uri --token=$auth_token --image_path $BASE_PATH/data/peacock.jpg

A resposta do script é semelhante ao seguinte texto:

Is server ready - True
Is model ready - True
/azureml-examples/cli/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

APLICA-SE A: Python SDK azure-ai-ml v2 (atual)

Para obter o uri de pontuação do ponto de extremidade, use o seguinte comando:

endpoint = ml_client.online_endpoints.get(endpoint_name)
scoring_uri = endpoint.scoring_uri

Para obter uma chave de autenticação, use o seguinte comando: keys = ml_client.online_endpoints.list_keys(endpoint_name) auth_key = keys.primary_key

O código de pontuação a seguir usa o Triton Inference Server Client para enviar a imagem de um pavão para o ponto de extremidade. Este script está disponível no bloco de anotações complementar a este exemplo - Implantar um modelo em pontos de extremidade online usando Triton.

# Test the blue deployment with some sample data
import requests
import gevent.ssl
import numpy as np
import tritonclient.http as tritonhttpclient
from pathlib import Path
import prepost

img_uri = "http://aka.ms/peacock-pic"

# We remove the scheme from the url
url = scoring_uri[8:]

# Initialize client handler
triton_client = tritonhttpclient.InferenceServerClient(
    url=url,
    ssl=True,
    ssl_context_factory=gevent.ssl._create_default_https_context,
)

# Create headers
headers = {}
headers["Authorization"] = f"Bearer {auth_key}"

# Check status of triton server
health_ctx = triton_client.is_server_ready(headers=headers)
print("Is server ready - {}".format(health_ctx))

# Check status of model
model_name = "model_1"
status_ctx = triton_client.is_model_ready(model_name, "1", headers)
print("Is model ready - {}".format(status_ctx))

if Path(img_uri).exists():
    img_content = open(img_uri, "rb").read()
else:
    agent = f"Python Requests/{requests.__version__} (https://github.com/Azure/azureml-examples)"
    img_content = requests.get(img_uri, headers={"User-Agent": agent}).content

img_data = prepost.preprocess(img_content)

# Populate inputs and outputs
input = tritonhttpclient.InferInput("data_0", img_data.shape, "FP32")
input.set_data_from_numpy(img_data)
inputs = [input]
output = tritonhttpclient.InferRequestedOutput("fc6_1")
outputs = [output]

result = triton_client.infer(model_name, inputs, outputs=outputs, headers=headers)
max_label = np.argmax(result.as_numpy("fc6_1"))
label_name = prepost.postprocess(max_label)
print(label_name)

A resposta do script é semelhante ao seguinte texto:

Is server ready - True
Is model ready - True
/azureml-examples/sdk/endpoints/online/triton/single-model/densenet_labels.txt
84 : PEACOCK

Excluir o ponto de extremidade e o modelo

APLICA-SE A:Extensão ml da CLI do Azure v2 (atual)

Quando terminar o ponto de extremidade, use o seguinte comando para excluí-lo:
```
az ml online-endpoint delete -n $ENDPOINT_NAME --yes
```

Use o seguinte comando para arquivar seu modelo:

az ml model archive --name $MODEL_NAME --version $MODEL_VERSION

APLICA-SE A: Python SDK azure-ai-ml v2 (atual)

Exclua o ponto de extremidade. A exclusão do ponto de extremidade também exclui todas as implantações filhas, no entanto, não arquivará Ambientes ou Modelos associados.
```
ml_client.online_endpoints.begin_delete(name=endpoint_name)
```

Arquive o modelo com o código a seguir.

ml_client.models.archive(name=model_name, version=model_version)

Próximos passos

Para saber mais, leia estes artigos:

Serviço de alto desempenho com o Triton Inference Server

Pré-requisitos

Definir a configuração de implantação

Implementar no Azure

Testar o parâmetro de avaliação

Excluir o ponto de extremidade e o modelo

Próximos passos

Recursos adicionais