Uitvoer in batchimplementaties aanpassen

Artikel
04/07/2024

VAN TOEPASSING OP:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (current)

In deze handleiding wordt uitgelegd hoe u implementaties maakt waarmee aangepaste uitvoer en bestanden worden gegenereerd. Soms hebt u meer controle over wat is geschreven als uitvoer van batchdeductietaken. Deze gevallen omvatten de volgende situaties:

U moet bepalen hoe voorspellingen in de uitvoer worden geschreven. U wilt bijvoorbeeld de voorspelling toevoegen aan de oorspronkelijke gegevens als de gegevens in tabelvorm zijn.
U moet uw voorspellingen schrijven in een andere bestandsindeling dan de bestandsindeling die standaard wordt ondersteund door batchimplementaties.
Uw model is een generatief model dat de uitvoer niet in tabelvorm kan schrijven. Modellen die bijvoorbeeld afbeeldingen produceren als uitvoer.
Uw model produceert meerdere tabellaire bestanden in plaats van één bestand. Bijvoorbeeld modellen die prognoses uitvoeren door meerdere scenario's te overwegen.

Met Batch-implementaties kunt u de controle over de uitvoer van de taken overnemen door u rechtstreeks naar de uitvoer van de batch-implementatietaak te laten schrijven. In deze zelfstudie leert u hoe u een model implementeert om batchdeductie uit te voeren en de uitvoer in parquet-indeling te schrijven door de voorspellingen toe te voegen aan de oorspronkelijke invoergegevens.

Over dit voorbeeld

In dit voorbeeld ziet u hoe u een model kunt implementeren om batchdeductie uit te voeren en hoe uw voorspellingen in de uitvoer worden geschreven. Het model is gebaseerd op de UCI Heart Disease-gegevensset. De database bevat 76 kenmerken, maar in dit voorbeeld wordt een subset van 14 kenmerken gebruikt. Het model probeert de aanwezigheid van hart- en vaatziekten bij een patiënt te voorspellen. Het is een geheel getal van 0 (geen aanwezigheid) tot 1 (aanwezigheid).

Het model is getraind met behulp van een XGBBoost classificatie en alle vereiste voorverwerking is verpakt als pijplijn scikit-learn , waardoor dit model een end-to-end-pijplijn is die van onbewerkte gegevens naar voorspellingen gaat.

Het voorbeeld in dit artikel is gebaseerd op codevoorbeelden in de opslagplaats azureml-examples . Als u de opdrachten lokaal wilt uitvoeren zonder YAML en andere bestanden te hoeven kopiëren/plakken, kloont u eerst de opslagplaats en wijzigt u vervolgens mappen in de map:

Azure-CLI
Python

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/sdk/python

De bestanden voor dit voorbeeld bevinden zich in:

cd endpoints/batch/deploy-models/custom-outputs-parquet

Volgen in een Jupyter-notebook

Er is een Jupyter-notebook waarmee u dit voorbeeld kunt volgen. Open in de gekloonde opslagplaats het notebook met de naam custom-output-batch.ipynb.

Vereisten

Voordat u de stappen in dit artikel volgt, moet u ervoor zorgen dat u over de volgende vereisten beschikt:

Een Azure-abonnement. Als u nog geen abonnement op Azure hebt, maak dan een gratis account aan voordat u begint. Probeer de gratis of betaalde versie van Azure Machine Learning.
Een Azure Machine Learning-werkruimte. Als u nog geen werkruimte hebt, gebruikt u de stappen in het artikel Azure Machine Learning-werkruimten beheren om er een te maken.
Zorg ervoor dat u over de volgende machtigingen in de werkruimte beschikt:
- Batch-eindpunten en -implementaties maken of beheren: gebruik een eigenaar, inzender of aangepaste rol die dit toestaat Microsoft.MachineLearningServices/workspaces/batchEndpoints/*.
- ARM-implementaties maken in de resourcegroep van de werkruimte: gebruik een eigenaar, inzender of aangepaste rol die het mogelijk maakt Microsoft.Resources/deployments/write in de resourcegroep waarin de werkruimte wordt geïmplementeerd.
U moet de volgende software installeren om te kunnen werken met Azure Machine Learning:
- Azure-CLI
- Python
De Azure CLI en de mlextensie voor Azure Machine Learning.
```
az extension add -n ml
```
Notitie

Implementaties van pijplijnonderdelen voor Batch-eindpunten zijn geïntroduceerd in versie 2.7 van de ml extensie voor Azure CLI. Gebruik az extension update --name ml deze om de laatste versie ervan op te halen.
De Azure Machine Learning SDK voor Python.
```
pip install azure-ai-ml
```
Notitie

ModelBatchDeployment Klassen en PipelineComponentBatchDeployment zijn geïntroduceerd in versie 1.7.0 van de SDK. Gebruik pip install -U azure-ai-ml deze om de laatste versie ervan op te halen.

Verbinding maken met uw werkruimte

De werkruimte is de resource op het hoogste niveau voor Azure Machine Learning en biedt een gecentraliseerde werkplek met alle artefacten die u maakt in Azure Machine Learning. In deze sectie maken we verbinding met de werkruimte waarin u implementatietaken uitvoert.

Azure-CLI
Python

Geef de waarden voor uw abonnements-id, werkruimte, locatie en resourcegroep door in de volgende code:

az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>

Importeer de vereiste bibliotheken:

from azure.ai.ml import MLClient, Input, load_component
from azure.ai.ml.entities import BatchEndpoint, ModelBatchDeployment, ModelBatchDeploymentSettings, PipelineComponentBatchDeployment, Model, AmlCompute, Data, BatchRetrySettings, CodeConfiguration, Environment, Data
from azure.ai.ml.constants import AssetTypes, BatchDeploymentOutputAction
from azure.ai.ml.dsl import pipeline
from azure.identity import DefaultAzureCredential

Configureer de details van de werkruimte en haal een ingang op voor de werkruimte:

Geef de waarden voor uw abonnements-id, werkruimte en resourcegroep door in de volgende code:

subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)

Een batchimplementatie maken met een aangepaste uitvoer

In dit voorbeeld maakt u een implementatie die rechtstreeks naar de uitvoermap van de batch-implementatietaak kan schrijven. De implementatie gebruikt deze functie om aangepaste Parquet-bestanden te schrijven.

Het model registreren

U kunt geregistreerde modellen alleen implementeren met behulp van een batch-eindpunt. In dit geval hebt u al een lokale kopie van het model in de opslagplaats, dus u hoeft het model alleen in het register in de werkruimte te publiceren. U kunt deze stap overslaan als het model dat u probeert te implementeren al is geregistreerd.

Azure-CLI
Python

MODEL_NAME='heart-classifier-sklpipe'
az ml model create --name $MODEL_NAME --type "custom_model" --path "model"

model_name = "heart-classifier-sklpipe"
model_description = "A heart condition classifier trained with XGBoosts and Scikit-Learn for feature processing."
model_local_path = "model"

model = ml_client.models.create_or_update(
    Model(
        name=model_name,
        path=model_local_path,
        type=AssetTypes.CUSTOM_MODEL,
        tags={"framework": "scikit-learn", "estimator": "xgboost"},
    )
)

Een scorescript maken

U moet een scorescript maken waarmee de invoergegevens van de batchimplementatie kunnen worden gelezen en de scores van het model kunnen worden geretourneerd. U gaat ook rechtstreeks naar de uitvoermap van de taak schrijven. Kortom, het voorgestelde scorescript doet het volgende:

Leest de invoergegevens als CSV-bestanden.
Voert een MLflow-modelfunctie predict uit op de invoergegevens.
Voegt de voorspellingen toe aan een pandas.DataFrame samen met de invoergegevens.
Hiermee schrijft u de gegevens in een bestand met de naam het invoerbestand, maar in parquet indeling.

code/batch_driver.py

import os
import pickle
import glob
import pandas as pd
from pathlib import Path
from typing import List


def init():
    global model
    global output_path

    # AZUREML_MODEL_DIR is an environment variable created during deployment
    # It is the path to the model folder
    # Please provide your model's folder name if there's one:
    output_path = os.environ["AZUREML_BI_OUTPUT_PATH"]
    model_path = os.environ["AZUREML_MODEL_DIR"]
    model_file = glob.glob(f"{model_path}/*/*.pkl")[-1]

    with open(model_file, "rb") as file:
        model = pickle.load(file)


def run(mini_batch: List[str]):
    for file_path in mini_batch:
        data = pd.read_csv(file_path)
        pred = model.predict(data)

        data["prediction"] = pred

        output_file_name = Path(file_path).stem
        output_file_path = os.path.join(output_path, output_file_name + ".parquet")
        data.to_parquet(output_file_path)

    return mini_batch

Opmerkingen:

U ziet hoe de omgevingsvariabele AZUREML_BI_OUTPUT_PATH wordt gebruikt om toegang te krijgen tot het uitvoerpad van de implementatietaak.
De init() functie vult een globale variabele output_path in die later kan worden gebruikt om te weten waar u moet schrijven.
De run methode retourneert een lijst met de verwerkte bestanden. Het is vereist dat de run functie een list of een pandas.DataFrame object retourneert.

Waarschuwing

Houd er rekening mee dat alle batchexecutors tegelijkertijd schrijftoegang tot dit pad hebben. Dit betekent dat u rekening moet houden met gelijktijdigheid. Zorg er in dit geval voor dat elke uitvoerder een eigen bestand schrijft met behulp van de naam van het invoerbestand als de naam van de uitvoermap.

Het eindpunt maken

U maakt nu een batch-eindpunt met de naam heart-classifier-batch waar het model is geïmplementeerd.

Bepaal de naam van het eindpunt. De naam van het eindpunt wordt weergegeven in de URI die is gekoppeld aan uw eindpunt, zodat namen van batcheindpunten uniek moeten zijn binnen een Azure-regio. Er kan bijvoorbeeld slechts één batcheindpunt zijn met de naam mybatchendpoint in westus2.
- Azure-CLI
- Python
In dit geval plaatst u de naam van het eindpunt in een variabele, zodat u er later eenvoudig naar kunt verwijzen.
```
ENDPOINT_NAME="heart-classifier-custom"
```
In dit geval plaatst u de naam van het eindpunt in een variabele, zodat u er later eenvoudig naar kunt verwijzen.
```
endpoint_name = "heart-classifier-custom"
```

Configureer uw batch-eindpunt.

Azure-CLI
Python

Het volgende YAML-bestand definieert een batch-eindpunt:

endpoint.yml

$schema: https://azuremlschemas.azureedge.net/latest/batchEndpoint.schema.json
name: heart-classifier-batch
description: A heart condition classifier for batch inference
auth_mode: aad_token

endpoint = BatchEndpoint(
    name=endpoint_name,
    description="A heart condition classifier for batch inference",
)

Maak het eindpunt:

Azure-CLI
Python

az ml batch-endpoint create -n $ENDPOINT_NAME -f endpoint.yml

ml_client.batch_endpoints.begin_create_or_update(endpoint).result()

De implementatie maken

Volg de volgende stappen om een implementatie te maken met behulp van het vorige scorescript:

Maak eerst een omgeving waarin het scorescript kan worden uitgevoerd:

Azure-CLI
Python

Er is geen extra stap vereist voor de Azure Machine Learning CLI. De omgevingsdefinitie is opgenomen in het implementatiebestand.

environment:
  name: batch-mlflow-xgboost
  image: mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04:latest
  conda_file: environment/conda.yaml

Haal een verwijzing naar de omgeving op:

environment = Environment(
    name="batch-mlflow-xgboost",
    conda_file="environment/conda.yaml",
    image="mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04:latest",
)

Maak de implementatie. U ziet dat output_action nu is ingesteld op SUMMARY_ONLY.

Notitie

In dit voorbeeld wordt ervan uitgegaan dat u een rekencluster met de naam batch-clusterhebt. Wijzig die naam dienovereenkomstig.

Azure-CLI
Python

Als u een nieuwe implementatie wilt maken onder het gemaakte eindpunt, maakt u een YAML-configuratie zoals hieronder. U kunt het YAML-schema voor het volledige batcheindpunt controleren op extra eigenschappen.

$schema: https://azuremlschemas.azureedge.net/latest/modelBatchDeployment.schema.json
endpoint_name: heart-classifier-batch
name: classifier-xgboost-custom
description: A heart condition classifier based on XGBoost and Scikit-Learn pipelines that append predictions on parquet files.
type: model
model: azureml:heart-classifier-sklpipe@latest
environment:
  name: batch-mlflow-xgboost
  image: mcr.microsoft.com/azureml/openmpi4.1.0-ubuntu20.04:latest
  conda_file: environment/conda.yaml
code_configuration:
  code: code
  scoring_script: batch_driver.py
compute: azureml:batch-cluster
resources:
  instance_count: 2
settings:
  max_concurrency_per_instance: 2
  mini_batch_size: 2
  output_action: summary_only
  retry_settings:
    max_retries: 3
    timeout: 300
  error_threshold: -1
  logging_level: info

Maak vervolgens de implementatie met de volgende opdracht:

az ml batch-deployment create --file deployment.yml --endpoint-name $ENDPOINT_NAME --set-default

Gebruik het volgende script om een nieuwe implementatie te maken onder het gemaakte eindpunt:

deployment = ModelBatchDeployment(
    name="classifier-xgboost-custom",
    description="A heart condition classifier based on XGBoost which writes outputs in parquet format.",
    endpoint_name=endpoint.name,
    model=model,
    environment=environment,
    code_configuration=CodeConfiguration(
        code="code",
        scoring_script="batch_driver.py",
    ),
    compute=compute_name,
    settings=ModelBatchDeploymentSettings(
        mini_batch_size=2,
        instance_count=2,
        max_concurrency_per_instance=2,
        output_action=BatchDeploymentOutputAction.SUMMARY_ONLY,
        retry_settings=BatchRetrySettings(max_retries=3, timeout=300),
        logging_level="info",
    ),
)

Maak vervolgens de implementatie met de volgende opdracht:

ml_client.batch_deployments.begin_create_or_update(deployment).result()

Op dit moment is ons batcheindpunt gereed om te worden gebruikt.

De implementatie testen

Als u uw eindpunt wilt testen, gebruikt u een voorbeeld van niet-gelabelde gegevens in deze opslagplaats, die met het model kunnen worden gebruikt. Batch-eindpunten kunnen alleen gegevens verwerken die zich in de cloud bevinden en toegankelijk zijn vanuit de Azure Machine Learning-werkruimte. In dit voorbeeld uploadt u deze naar een Azure Machine Learning-gegevensarchief. U gaat een gegevensasset maken die kan worden gebruikt om het eindpunt aan te roepen voor scoren. U ziet echter dat batcheindpunten gegevens accepteren die op meerdere typen locaties kunnen worden geplaatst.

Roep het eindpunt aan met gegevens uit een opslagaccount:
- Azure-CLI
- Python
```
JOB_NAME = $(az ml batch-endpoint invoke --name $ENDPOINT_NAME --input https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data --query name -o tsv)
```
Notitie

Het hulpprogramma jq is mogelijk niet geïnstalleerd bij elke installatie. U kunt instructies op GitHub krijgen.
Tip

Wat is het verschil tussen inputs en input wanneer u een eindpunt aanroept?

Over het algemeen kunt u een woordenlijst inputs = {} met de invoke methode gebruiken om een willekeurig aantal vereiste invoer op te geven aan een batch-eindpunt dat een modelimplementatie of een pijplijnimplementatie bevat.

Voor een modelimplementatie kunt u een kortere manier gebruiken input om de locatie van de invoergegevens voor de implementatie op te geven, omdat voor een modelimplementatie altijd slechts één gegevensinvoer nodig is.

Configureer de invoer:
```
input = Input(
    type=AssetTypes.URI_FOLDER,
    path="https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data",
)
```
Een taak maken:
```
job = ml_client.batch_endpoints.invoke(
    endpoint_name=endpoint.name, deployment_name=deployment.name, input=input
)
```
Er wordt een batchtaak gestart zodra de opdracht wordt geretourneerd. U kunt de status van de taak controleren totdat deze is voltooid:
- Azure-CLI
- Python
```
az ml job show -n $JOB_NAME --web
```
```
ml_client.jobs.get(job.name)
```

De uitvoer analyseren

De taak genereert een benoemde uitvoer die wordt aangeroepen score waar alle gegenereerde bestanden worden geplaatst. Omdat u rechtstreeks in de map hebt geschreven, één bestand per invoerbestand, kunt u verwachten dat u hetzelfde aantal bestanden hebt. Geef in dit specifieke voorbeeld de uitvoerbestanden dezelfde naam als de invoer, maar ze hebben een Parquet-extensie.

Notitie

U ziet dat een bestand predictions.csv ook is opgenomen in de uitvoermap. Dit bestand bevat de samenvatting van de verwerkte bestanden.

U kunt de resultaten van de taak downloaden met behulp van de taaknaam:

Azure-CLI
Python

Gebruik de volgende opdracht om de voorspellingen te downloaden:

az ml job download --name $JOB_NAME --output-name score --download-path ./

ml_client.jobs.download(name=scoring_job.name, download_path=".", output_name="score")

Zodra het bestand is gedownload, kunt u het openen met uw favoriete hulpprogramma. In het volgende voorbeeld worden de voorspellingen geladen met behulp van Pandas dataframe.

import pandas as pd
import glob

output_files = glob.glob("named-outputs/score/*.parquet")
score = pd.concat((pd.read_parquet(f) for f in output_files))
score

De uitvoer ziet er als volgt uit:

leeftijd	Sex	...	Thal	Voorspelling
63	1	...	Vaste	0
67	1	...	Normale	1
67	1	...	Omkeerbare	0
37	1	...	Normale	0

Voer de volgende code uit om het batch-eindpunt en alle onderliggende implementaties te verwijderen. Batchscoretaken worden niet verwijderd.

az ml batch-endpoint delete --name $ENDPOINT_NAME --yes

Voer de volgende code uit om het batch-eindpunt en alle onderliggende implementaties te verwijderen. Batchscoretaken worden niet verwijderd.

ml_client.batch_endpoints.begin_delete(endpoint_name).result()

Delen via

Uitvoer in batchimplementaties aanpassen

Over dit voorbeeld

Volgen in een Jupyter-notebook

Vereisten

Verbinding maken met uw werkruimte

Een batchimplementatie maken met een aangepaste uitvoer

Het model registreren

Een scorescript maken

Het eindpunt maken

De implementatie maken

De implementatie testen

De uitvoer analyseren

Resources opschonen

Aanvullende resources

Delen via

Uitvoer in batchimplementaties aanpassen

Over dit voorbeeld

Volgen in een Jupyter-notebook

Vereisten

Verbinding maken met uw werkruimte

Een batchimplementatie maken met een aangepaste uitvoer

Het model registreren

Een scorescript maken

Het eindpunt maken

De implementatie maken

De implementatie testen

De uitvoer analyseren

Resources opschonen

Gerelateerde inhoud

Aanvullende resources