MLflow-modellek üzembe helyezése és futtatása Spark-feladatokban

Cikk
02/16/2024

Ebből a cikkből megtudhatja, hogyan helyezheti üzembe és futtathatja az MLflow-modellt Spark-feladatokban, hogy következtetéseket hajthat végre nagy mennyiségű adat vagy adatátrendező feladatok részeként.

A példa ismertetése

Ez a példa bemutatja, hogyan helyezhet üzembe egy Azure Machine-Tanulás regisztrált MLflow-modellt felügyelt Spark-fürtökben (előzetes verzió), Azure Databricksben vagy Azure Synapse Analyticsben futó Spark-feladatokra, hogy nagy mennyiségű adatra következtethessenek.

A modell az UCI szívbetegségek adatkészletén alapul. Az adatbázis 76 attribútumot tartalmaz, de 14 részhalmazt használunk. A modell megpróbálja megjósolni a szívbetegség jelenlétét egy betegben. Az egész szám értéke 0 (nincs jelenlét) és 1 (jelenlét). A betanítás egy XGBBoost osztályozóval történt, és az összes szükséges előfeldolgozás folyamatként scikit-learn lett csomagolva, így ez a modell egy teljes körű folyamat, amely a nyers adatoktól az előrejelzésekig tart.

A cikkben szereplő információk az azureml-examples adattárban található kódmintákon alapulnak . Ha helyileg szeretné futtatni a parancsokat fájlok másolása/beillesztése nélkül, klónozza az adattárat, majd módosítsa a könyvtárakat a következőre sdk/using-mlflow/deploy: .

git clone https://github.com/Azure/azureml-examples --depth 1
cd sdk/python/using-mlflow/deploy

Előfeltételek

A cikkben ismertetett lépések végrehajtása előtt győződjön meg arról, hogy rendelkezik a következő előfeltételekkel:

Telepítse az MLflow SDK-csomagot mlflow és az Azure Machine Tanulás beépülő modult az MLflow-hozazureml-mlflow.
```
pip install mlflow azureml-mlflow
```
Tipp.

Használhatja a mlflow-skinny csomagot, amely egy egyszerű MLflow-csomag SQL Storage, kiszolgáló, felhasználói felület vagy adatelemzési függőségek nélkül. mlflow-skinny Azoknak a felhasználóknak ajánlott, akiknek elsősorban az MLflow nyomkövetési és naplózási képességeire van szükségük anélkül, hogy importálni kellene a teljes szolgáltatáscsomagot, beleértve az üzembe helyezéseket is.
Egy Azure Machine Learning-munkaterület. Létrehozhat egyet a Gépi tanulási erőforrások létrehozása oktatóanyagot követve.
- Megtekintheti, hogy milyen hozzáférési engedélyekre van szüksége az MLflow-műveletek munkaterületen való végrehajtásához.
Ha távoli nyomkövetést végez (vagyis az Azure Machine Tanulás kívül futó nyomkövetési kísérleteket), az MLflow konfigurálása az Azure Machine Tanulás-munkaterület nyomon követésére mutató URI-jára mutat. További információ az MLflow munkaterülethez való csatlakoztatásáról: MLflow konfigurálása az Azure Machine Tanulás.

A munkaterületen MLflow-modellnek kell lennie. Ez a példa különösen a Diabetes-adatkészlethez betanított modellt fogja regisztrálni.

Csatlakozás a munkaterülethez

Először csatlakozzunk az Azure Machine Tanulás munkaterülethez, ahol a modell regisztrálva van.

Azure Machine Tanulás számítás
Távoli számítás

A nyomkövetés már konfigurálva van. Az alapértelmezett hitelesítő adatok az MLflow használatakor is használhatók.

Nyomkövetési URI konfigurálása

Kérje le a munkaterület nyomkövetési URI-ját:
- Azure CLI
- Python
- Studio
- Manuálisan
ÉRVÉNYES:Azure CLI ml-bővítmény 2-es verzió (aktuális)
1. Jelentkezzen be és konfigurálja a munkaterületet:
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location> 
```
2. A nyomkövetési URI-t a következő paranccsal szerezheti az ml workspace be:
```
az ml workspace show --query mlflow_tracking_uri
```
A KÖVETKEZŐKRE VONATKOZIK: Python SDK azure-ai-ml v2 (aktuális)

Az Azure ML MLflow nyomkövetési URI-t az Azure Machine Tanulás SDK v2 for Python használatával szerezheti be. Győződjön meg arról, hogy telepítve van a kódtár azure-ai-ml a használt számításban. Az alábbi minta lekéri a munkaterülethez társított egyedi MLFLow nyomkövetési URI-t.
1. Jelentkezzen be a munkaterületre a MLClient. Ennek egyszerűbb módja a munkaterület konfigurációs fájljának használata:
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())
```
  Tipp.
  
  A munkaterület konfigurációs fájlját a következővel töltheti le:
  
  Navigálás az Azure ML Studióba
  
  Kattintson a lap jobb felső sarkára –> Konfigurációs fájl letöltése.
  
  Mentse a fájlt config.json ugyanabban a könyvtárban, amelyen dolgozik.
2. Másik lehetőségként használhatja az előfizetés azonosítóját, az erőforráscsoport nevét és a munkaterület nevét is:
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

#Enter details of your AzureML workspace
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace_name = '<WORKSPACE_NAME>'

ml_client = MLClient(credential=DefaultAzureCredential(),
                        subscription_id=subscription_id, 
                        resource_group_name=resource_group,
                        workspace_name=workspace_name)
```
  Fontos
  
  DefaultAzureCredential megpróbálja lekérni a hitelesítő adatokat a rendelkezésre álló környezetből. Ha más módon szeretné megadni a hitelesítő adatokat, például a webböngésző interaktív módon való használatát, használhatja InteractiveBrowserCredential vagy bármilyen más, csomagban azure.identity elérhető módszert.
3. Szerezze be az Azure Machine Tanulás Tracking URI-t:
```
mlflow_tracking_uri = ml_client.workspaces.get(ml_client.workspace_name).mlflow_tracking_uri
```
A nyomkövetési URI lekéréséhez használja az Azure Machine Tanulás portált:
1. Nyissa meg az Azure Machine Tanulás studio portált, és jelentkezzen be a hitelesítő adataival.
2. A jobb felső sarokban kattintson a munkaterület nevére a Címtár + Előfizetés + Munkaterület panel megjelenítéséhez.
3. Kattintson az Összes tulajdonság megtekintése az Azure Portalon elemre.
4. Az Essentials szakaszban megtalálja az MLflow tracking URI tulajdonságot.
Az Azure Machine Tanulás Tracking URI az előfizetés azonosítójával, az erőforrás üzembe helyezésének régiójával, az erőforráscsoport nevével és a munkaterület nevével hozható létre. A következő kódminta bemutatja, hogyan:

Figyelmeztetés

Ha privát kapcsolattal kompatibilis munkaterületen dolgozik, az MLflow-végpont egy privát hivatkozást is használ az Azure Machine Tanulás való kommunikációhoz. Ennek következtében a nyomkövetési URI az itt javasolt módon fog kinézni. Ezekben az esetekben le kell kérnie a nyomkövetési URI-t az Azure ML SDK vagy a CLI v2 használatával.
```
region = "<LOCATION>"
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace_name = '<AML_WORKSPACE_NAME>'

mlflow_tracking_uri = f"azureml://{region}.api.azureml.ms/mlflow/v1.0/subscriptions/{subscription_id}/resourceGroups/{resource_group}/providers/Microsoft.MachineLearningServices/workspaces/{workspace_name}"
```
A nyomkövetési URI konfigurálása:
- Az MLflow SDK használata
- Környezeti változók használata
Ezután a metódus set_tracking_uri() az MLflow-követési URI-t az adott URI-ra pontokat jelölő URI-ra mutatja.
```
import mlflow

mlflow.set_tracking_uri(mlflow_tracking_uri)
```
Beállíthatja a számításban MLFLOW_TRACKING_URI MLflow környezeti változókat, hogy az adott számítás MLflow-jával való interakció alapértelmezés szerint az Azure Machine Tanulás legyen.
```
MLFLOW_TRACKING_URI=$(az ml workspace show --query mlflow_tracking_uri | sed 's/"//g') 
```
Tipp.

Megosztott környezeteken, például Azure Databricks-fürtön, Azure Synapse Analytics-fürtön vagy hasonlókon végzett munka során hasznos, ha a környezeti változót MLFLOW_TRACKING_URI a fürt szintjén úgy állítja be, hogy automatikusan konfigurálja az MLflow-követési URI-t úgy, hogy a fürtben futó összes munkamenethez az Azure Machine Tanulás mutasson, és ne munkamenetenkénti alapon végezze el.

Hitelesítés konfigurálása

A nyomkövetés konfigurálása után azt is konfigurálnia kell, hogy a hitelesítés hogyan történjen a társított munkaterületen. Alapértelmezés szerint az MLflow Azure Machine Tanulás beépülő modulja interaktív hitelesítést végez az alapértelmezett böngésző megnyitásával, hogy hitelesítő adatokat kérjen. Tekintse meg az MLflow konfigurálását az Azure Machine-Tanulás: Hitelesítés konfigurálása az MLflow hitelesítésének további módjaihoz az Azure Machine Tanulás-munkaterületeken.

Az olyan interaktív feladatok esetében, ahol egy felhasználó csatlakozik a munkamenethez, interaktív hitelesítésre támaszkodhat, ezért nincs szükség további műveletekre.

Figyelmeztetés

Az interaktív böngészőhitelesítés letiltja a kódvégrehajtást, amikor hitelesítő adatokat kér. Ez nem alkalmas hitelesítésre felügyelet nélküli környezetekben, például betanítási feladatokban. Javasoljuk, hogy más hitelesítési módot is konfiguráljon.

Azokban az esetekben, amikor felügyelet nélküli végrehajtásra van szükség, konfigurálnia kell egy szolgáltatásnevet az Azure Machine Tanulás való kommunikációhoz.

MLflow SDK
Környezeti változók használata

import os

os.environ["AZURE_TENANT_ID"] = "<AZURE_TENANT_ID>"
os.environ["AZURE_CLIENT_ID"] = "<AZURE_CLIENT_ID>"
os.environ["AZURE_CLIENT_SECRET"] = "<AZURE_CLIENT_SECRET>"

export AZURE_TENANT_ID="<AZURE_TENANT_ID>"
export AZURE_CLIENT_ID="<AZURE_CLIENT_ID>"
export AZURE_CLIENT_SECRET="<AZURE_CLIENT_SECRET>"

Tipp.

A megosztott környezeteken való munka során célszerű ezeket a környezeti változókat a számításnál konfigurálni. Ajánlott eljárásként titkos kulcsként kezelni őket az Azure Key Vault egy példányában, amikor csak lehetséges. Az Azure Databricksben például a fürtkonfigurációban az alábbiak szerint használhat titkos kulcsokat a környezeti változókban: AZURE_CLIENT_SECRET={{secrets/<scope-name>/<secret-name>}}. Az Azure Databricksben való műveletet egy környezeti változóban található titkos kódra hivatkozva, vagy a platform hasonló dokumentációjában találja.

A modell regisztrálása

A következtetés végrehajtásához egy, az Azure Machine Tanulás beállításjegyzékében regisztrált modellre van szükségünk. Ebben az esetben már van egy helyi példánya a modellnek az adattárban, ezért csak a munkaterületen lévő beállításjegyzékben kell közzétenni a modellt. Ezt a lépést kihagyhatja, ha az üzembe helyezni kívánt modell már regisztrálva van.

model_name = 'heart-classifier'
model_local_path = "model"

registered_model = mlflow_client.create_model_version(
    name=model_name, source=f"file://{model_local_path}"
)
version = registered_model.version

Ha a modellt futtatás közben naplózták, közvetlenül is regisztrálhatja.

Tipp.

A modell regisztrálásához ismernie kell a modell tárolási helyét. Ha az MLflow szolgáltatást használja autolog , az elérési út a használt modell típusától és keretrendszerétől függ. Javasoljuk, hogy ellenőrizze a feladatok kimenetét, hogy azonosítsa a mappa nevét. Megkeresheti azt a mappát, amely egy nevű MLModelfájlt tartalmaz. Ha manuálisan log_modelnaplózja a modelleket, akkor az elérési út az az argumentum, amelyet az ilyen metódusnak ad át. Ha például naplózza a modellt a használatával mlflow.sklearn.log_model(my_model, "classifier"), akkor a rendszer a modell tárolási útvonalát használja classifier.

model_name = 'heart-classifier'

registered_model = mlflow_client.create_model_version(
    name=model_name, source=f"runs://{RUN_ID}/{MODEL_PATH}"
)
version = registered_model.version

Feljegyzés

Az elérési út MODEL_PATH az a hely, ahol a modellt futtatáskor tárolták.

Bemeneti adatok lekérése pontszámhoz

Szükségünk lesz néhány bemeneti adatra a futtatáshoz vagy a feladatok futtatásához. Ebben a példában letöltjük a mintaadatokat az internetről, és a Spark-fürt által használt megosztott tárolóba helyezzük.

import urllib

urllib.request.urlretrieve("https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data/heart.csv", "/tmp/data")

Helyezze át az adatokat egy csatlakoztatott tárfiókba, amely a teljes fürt számára elérhető.

dbutils.fs.mv("file:/tmp/data", "dbfs:/")

Fontos

Az előző kód az Azure Databricks-fürtben elérhető eszközt használja dbutils. A használt platformtól függően használja a megfelelő eszközt.

A bemeneti adatok ezután a következő mappába kerülnek:

input_data_path = "dbfs:/data"

A modell futtatása Spark-fürtökben

A következő szakasz bemutatja, hogyan futtathat Azure Machine-Tanulás Spark-feladatokban regisztrált MLflow-modelleket.

Győződjön meg arról, hogy a következő kódtárak vannak telepítve a fürtben:
```
- mlflow<3,>=2.1
- cloudpickle==2.2.0
- scikit-learn==1.2.0
- xgboost==1.7.2
```
Egy jegyzetfüzet segítségével bemutatjuk, hogyan hozhat létre pontozási rutint egy Azure Machine-Tanulás regisztrált MLflow-modellel. Hozzon létre egy jegyzetfüzetet, és használja a PySparkot alapértelmezett nyelvként.

Importálja a szükséges névtereket:

import mlflow
import pyspark.sql.functions as f

Konfigurálja a modell URI-t. Az alábbi URI egy, a legújabb verzióban elnevezett heart-classifier modellt hoz létre.
```
model_uri = "models:/heart-classifier/latest"
```
Töltse be a modellt UDF-függvényként. A felhasználó által definiált függvény (UDF) egy felhasználó által definiált függvény, amely lehetővé teszi az egyéni logika újbóli használatát a felhasználói környezetben.
```
predict_function = mlflow.pyfunc.spark_udf(spark, model_uri, result_type='double') 
```
Tipp.

Az argumentum result_type segítségével szabályozhatja a függvény által visszaadott típust predict() .
Olvassa el a pontozáshoz használni kívánt adatokat:
```
df = spark.read.option("header", "true").option("inferSchema", "true").csv(input_data_path).drop("target")
```
Esetünkben a bemeneti adatok formátuma CSV és a mappába dbfs:/data/kerül. Az oszlopot target is elvetjük, mivel ez az adatkészlet tartalmazza az előrejelezendő célváltozót. Éles helyzetekben az adatok nem rendelkeznek ezzel az oszloppal.
Futtassa a függvényt predict_function , és helyezze az előrejelzéseket egy új oszlopra. Ebben az esetben az előrejelzéseket az oszlopba predictionshelyezzük.
```
df.withColumn("predictions", score_function(*df.columns))
```
Tipp.

A predict_function fogadás argumentumként a szükséges oszlopokat foglalja össze. Esetünkben az adatkeret összes oszlopát a modell elvárja, ezért df.columns használja. Ha a modellnek szüksége van az oszlopok egy részhalmazára, manuálisan is bevezetheti őket. Ha a modell rendelkezik aláírással, a típusoknak kompatibilisnek kell lenniük a bemenetek és a várt típusok között.

Az előrejelzéseket visszaírhatja a tárolóba:

scored_data_path = "dbfs:/scored-data"
scored_data.to_csv(scored_data_path)

A modell futtatása önálló Spark-feladatban az Azure Machine Tanulás

Az Azure Machine Tanulás támogatja az önálló Spark-feladat létrehozását, valamint az Azure Machine Tanulás folyamatokban használható újrafelhasználható Spark-összetevő létrehozását. Ebben a példában üzembe helyezünk egy hatókörkezelési feladatot, amely az Azure Machine Tanulás önálló Spark-feladatban fut, és egy MLflow-modellt futtat a következtetés végrehajtásához.

Feljegyzés

Az Azure Machine-Tanulás Spark-feladatokról az Azure Machine Tanulás Spark-feladatok elküldése (előzetes verzió) című témakörben olvashat bővebben.

A Spark-feladatokhoz argumentumokat tartalmazó Python-szkript szükséges. Pontozószkript létrehozása:

score.py
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--model")
parser.add_argument("--input_data")
parser.add_argument("--scored_data")

args = parser.parse_args()
print(args.model)
print(args.input_data)

# Load the model as an UDF function
predict_function = mlflow.pyfunc.spark_udf(spark, args.model, env_manager="conda")

# Read the data you want to score
df = spark.read.option("header", "true").option("inferSchema", "true").csv(input_data).drop("target")

# Run the function `predict_function` and place the predictions on a new column
scored_data = df.withColumn("predictions", score_function(*df.columns))

# Save the predictions
scored_data.to_csv(args.scored_data)
```
A fenti szkript három argumentumot --model--input_data--scored_dataés . Az első kettő bemenet, és a futtatni kívánt modellt és a bemeneti adatokat jelöli, az utolsó egy kimenet, és ez az a kimeneti mappa, ahol az előrejelzések lesznek elhelyezve.

Tipp.

Python-csomagok telepítése: Az előző pontozó szkript betölti az MLflow-modellt egy UDF-függvénybe, de a paramétert env_manager="conda"jelzi. Ha ez a paraméter be van állítva, az MLflow visszaállítja a modelldefinícióban megadott szükséges csomagokat egy elszigetelt környezetben, ahol csak az UDF-függvény fut. További részletekért lásd a dokumentációt mlflow.pyfunc.spark_udf .

Feladatdefiníció létrehozása:

mlflow-score-spark-job.yml

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./src
entry:
  file: score.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  model:
    type: mlflow_model
    path: azureml:heart-classifier@latest
  input_data:
    type: uri_file
    path: https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data/heart.csv
    mode: direct

outputs:
  scored_data:
    type: uri_folder

args: >-
  --model ${{inputs.model}}
  --input_data ${{inputs.input_data}}
  --scored_data ${{outputs.scored_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.2"

Tipp.

Csatolt Synapse Spark-készlet használatához tulajdonság helyett resources a fenti YAML-specifikációs mintafájlban definiáljon compute tulajdonságot.

A fent látható YAML-fájlok a az ml job create paraméterrel --file együtt használhatók önálló Spark-feladat létrehozásához a következő módon:
```
az ml job create -f mlflow-score-spark-job.yml
```

Share via

MLflow-modellek üzembe helyezése és futtatása Spark-feladatokban

A példa ismertetése

Előfeltételek

Csatlakozás a munkaterülethez

A modell regisztrálása

Bemeneti adatok lekérése pontszámhoz

A modell futtatása Spark-fürtökben

A modell futtatása önálló Spark-feladatban az Azure Machine Tanulás

Következő lépések

További források