Spark 작업에서 MLflow 모델 배포 및 실행

아티클
04/04/2023

이 문서에서는 Spark 작업에서 MLflow 모델을 배포하고 실행하여 대량의 데이터 또는 데이터 랭글링 작업의 일부로 유추를 수행하는 방법을 알아봅니다.

이 예에 대해

이 예제에서는 Azure Machine Learning에 등록된 MLflow 모델을 관리형 Spark 클러스터(미리 보기), Azure Databricks 또는 Azure Synapse Analytics에서 실행되는 Spark 작업에 배포하여 많은 양의 데이터에 대한 유추를 수행하는 방법을 보여 줍니다.

이 모델은 UCI 심장 질환 데이터 집합을 기반으로 합니다. 데이터베이스에는 76개의 특성이 포함되어 있지만, 여기서는 그 중 14개만 사용합니다. 이 모델은 환자의 심장병 유무를 예측하려고 시도합니다. 값은 0(심장병 없음)에서 1(심장병 있음) 사이의 정수입니다. 분류자를 사용하여 XGBBoost 학습되었으며 필요한 모든 전처리가 파이프라인으로 scikit-learn 패키지되어 이 모델을 원시 데이터에서 예측으로 가는 엔드 투 엔드 파이프라인으로 만듭니다.

이 문서의 정보는 azureml-examples 리포지토리에 포함된 코드 샘플을 기반으로 합니다. 파일을 복사/붙여넣지 않고 로컬로 명령을 실행하려면 리포지토리를 복제한 다음 디렉터리를 로 변경합니다 sdk/using-mlflow/deploy.

git clone https://github.com/Azure/azureml-examples --depth 1
cd sdk/python/using-mlflow/deploy

필수 조건

이 문서의 단계를 수행하기 전에 다음과 같은 필수 구성 요소가 있는지 확인합니다.

MLflow SDK 패키지 mlflow 및 MLflow azureml-mlflow용 Azure Machine Learning 플러그 인을 설치합니다.
```
pip install mlflow azureml-mlflow
```
팁

SQL Storage, 서버, UI 또는 데이터 과학 종속성이 없는 경량 MLflow 패키지인 패키지를 사용할 mlflow-skinny 수 있습니다. mlflow-skinny 는 배포를 비롯한 전체 기능 모음을 가져오지 않고 MLflow의 추적 및 로깅 기능이 주로 필요한 사용자에게 권장됩니다.
Azure Machine Learning 작업 영역 기계 학습 리소스 만들기 자습서에 따라 만들 수 있습니다.
- 작업 영역에서 MLflow 작업을 수행하는 데 필요한 액세스 권한을 확인합니다.
원격 추적(즉, Azure Machine Learning 외부에서 실행되는 실험 추적)을 수행하는 경우 Azure Machine Learning 작업 영역의 추적 URI를 가리키도록 MLflow를 구성합니다. MLflow를 작업 영역에 연결하는 방법에 대한 자세한 내용은 Azure Machine Learning용 MLflow 구성을 참조하세요.

작업 영역에 MLflow 모델이 등록되어 있어야 합니다. 특히 이 예제에서는 당뇨병 데이터 세트에 대해 학습된 모델을 등록합니다.

작업 영역에 연결

먼저 모델이 등록된 Azure Machine Learning 작업 영역에 연결해 보겠습니다.

Azure Machine Learning 컴퓨팅
원격 컴퓨팅

추적이 이미 구성되어 있습니다. MLflow로 작업할 때도 기본 자격 증명이 사용됩니다.

추적 URI 구성

작업 영역에 대한 추적 URI를 가져옵니다.
- Azure CLI
- Python
- Studio
- 수동…
적용 대상:Azure CLI ml 확장 v2(현재)
1. 작업 영역에 로그인하고 구성합니다.
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location> 
```
2. 다음 명령을 사용하여 추적 URI를 가져올 수 있습니다.az ml workspace
```
az ml workspace show --query mlflow_tracking_uri
```
적용 대상: Python SDK azure-ai-ml v2(현재)

Python용 Azure Machine Learning SDK v2를 사용하여 Azure ML MLflow 추적 URI를 가져올 수 있습니다. 사용 중인 컴퓨팅에 라이브러리 azure-ai-ml 가 설치되어 있는지 확인합니다. 다음 샘플에서는 작업 영역과 연결된 고유한 MLFLow 추적 URI를 가져옵니다.
1. 를 사용하여 작업 영역에 로그인합니다 MLClient. 이 작업을 수행하는 더 쉬운 방법은 작업 영역 구성 파일을 사용하는 것입니다.
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

ml_client = MLClient.from_config(credential=DefaultAzureCredential())
```
  팁
  
  작업 영역 구성 파일은 다음을 수행하여 다운로드할 수 있습니다.
  
  Azure ML 스튜디오로 이동합니다.
  
  페이지의> 오른쪽 위 모서리를 클릭합니다. 구성 파일 다운로드
  
  config.json 파일을 작업 중인 동일한 디렉터리에 저장합니다.
2. 또는 구독 ID, 리소스 그룹 이름 및 작업 영역 이름을 사용하여 가져올 수 있습니다.
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential

#Enter details of your AzureML workspace
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace_name = '<WORKSPACE_NAME>'

ml_client = MLClient(credential=DefaultAzureCredential(),
                        subscription_id=subscription_id, 
                        resource_group_name=resource_group,
                        workspace_name=workspace_name)
```
  Important
  
  DefaultAzureCredential은 사용 가능한 컨텍스트에서 자격 증명을 끌어오려고 시도합니다. 다른 방법으로 자격 증명을 지정하려는 경우(예: 대화형 방식으로 웹 브라우저를 사용) InteractiveBrowserCredential 또는 azure.identity 패키지에서 사용 가능한 다른 방법을 사용할 수 있습니다.
3. Azure Machine Learning 추적 URI를 가져옵니다.
```
mlflow_tracking_uri = ml_client.workspaces.get(ml_client.workspace_name).mlflow_tracking_uri
```
Azure Machine Learning 포털을 사용하여 추적 URI를 가져옵니다.
1. Azure Machine Learning 스튜디오 포털을 열고 자격 증명을 사용하여 로그인합니다.
2. 오른쪽 위 모서리에서 작업 영역의 이름을 클릭하여 디렉터리 + 구독 + 작업 영역 블레이드를 표시합니다.
3. Azure Portal에서 모든 속성 보기를 클릭합니다.
4. Essentials 섹션에서 MLflow 추적 URI 속성을 찾을 수 있습니다.
Azure Machine Learning 추적 URI는 구독 ID, 리소스가 배포된 지역, 리소스 그룹 이름 및 작업 영역 이름을 사용하여 생성할 수 있습니다. 다음 코드 샘플은 방법을 보여줍니다.

Warning

프라이빗 링크 사용 작업 영역에서 작업하는 경우 MLflow 엔드포인트는 프라이빗 링크를 사용하여 Azure Machine Learning과 통신합니다. 결과적으로 추적 URI는 여기에 제안된 대로 다르게 표시됩니다. 이러한 경우 Azure ML SDK 또는 CLI v2를 사용하여 추적 URI를 가져와야 합니다.
```
region = "<LOCATION>"
subscription_id = '<SUBSCRIPTION_ID>'
resource_group = '<RESOURCE_GROUP>'
workspace_name = '<AML_WORKSPACE_NAME>'

mlflow_tracking_uri = f"azureml://{region}.api.azureml.ms/mlflow/v1.0/subscriptions/{subscription_id}/resourceGroups/{resource_group}/providers/Microsoft.MachineLearningServices/workspaces/{workspace_name}"
```
추적 URI 구성:
- MLflow SDK 사용
- 환경 변수 사용
그런 다음, 메서드 set_tracking_uri()는 MLflow 추적 URI로 해당 URI를 가리킵니다.
```
import mlflow

mlflow.set_tracking_uri(mlflow_tracking_uri)
```
컴퓨팅에서 MLFLOW_TRACKING_URI MLflow 환경 변수를 설정하여 기본적으로 Azure Machine Learning을 가리키도록 해당 컴퓨팅의 MLflow와 상호 작용할 수 있습니다.
```
MLFLOW_TRACKING_URI=$(az ml workspace show --query mlflow_tracking_uri | sed 's/"//g') 
```
팁

Azure Databricks 클러스터, Azure Synapse Analytics 클러스터 등과 같은 공유 환경에서 작업하는 경우 클러스터 수준에서 환경 변수 MLFLOW_TRACKING_URI 를 설정하여 세션별로 수행하지 않고 클러스터에서 실행되는 모든 세션에 대해 Azure Machine Learning을 가리키도록 MLflow 추적 URI를 자동으로 구성하는 것이 유용합니다.

인증 구성

추적이 구성되면 연결된 작업 영역에서 인증이 수행되어야 하는 방법도 구성해야 합니다. 기본적으로 MLflow용 Azure Machine Learning 플러그 인은 자격 증명을 요청하는 기본 브라우저를 열어 대화형 인증을 수행합니다. Azure Machine Learning용 MLflow 구성: Azure Machine Learning 작업 영역에서 MLflow에 대한 인증을 구성하는 추가 방법으로 인증 구성을 참조하세요.

세션에 연결된 사용자가 있는 대화형 작업의 경우 대화형 인증을 사용할 수 있으므로 추가 작업이 필요하지 않습니다.

Warning

대화형 브라우저 인증은 자격 증명을 묻는 메시지가 표시될 때 코드 실행을 차단합니다. 학습 작업과 같은 무인 환경에서 인증에 적합한 옵션이 아닙니다. 다른 인증 모드를 구성하는 것이 좋습니다.

무인 실행이 필요한 시나리오의 경우 Azure Machine Learning과 통신하도록 서비스 주체를 구성해야 합니다.

MLflow SDK
환경 변수 사용

import os

os.environ["AZURE_TENANT_ID"] = "<AZURE_TENANT_ID>"
os.environ["AZURE_CLIENT_ID"] = "<AZURE_CLIENT_ID>"
os.environ["AZURE_CLIENT_SECRET"] = "<AZURE_CLIENT_SECRET>"

export AZURE_TENANT_ID="<AZURE_TENANT_ID>"
export AZURE_CLIENT_ID="<AZURE_CLIENT_ID>"
export AZURE_CLIENT_SECRET="<AZURE_CLIENT_SECRET>"

팁

공유 환경에서 작업할 때 컴퓨팅에서 이러한 환경 변수를 구성하는 것이 좋습니다. 가능한 경우 Azure Key Vault 인스턴스에서 비밀로 관리하는 것이 가장 좋습니다. 예를 들어 Azure Databricks에서는 클러스터 구성 AZURE_CLIENT_SECRET={{secrets/<scope-name>/<secret-name>}}에서 다음과 같이 환경 변수에서 비밀을 사용할 수 있습니다. Azure Databricks에서 수행하는 방법에 대한 환경 변수의 비밀 참조를 참조하거나 플랫폼에서 유사한 설명서를 참조하세요.

모델 등록

유추를 수행하려면 Azure Machine Learning 레지스트리에 등록된 모델이 필요합니다. 이 예제의 경우 리포지토리에 모델의 로컬 복사본이 이미 있으므로 작업 영역의 레지스트리에만 모델을 게시하면 됩니다. 배포하려는 모델이 이미 등록된 경우 이 단계를 건너뛸 수 있습니다.

model_name = 'heart-classifier'
model_local_path = "model"

registered_model = mlflow_client.create_model_version(
    name=model_name, source=f"file://{model_local_path}"
)
version = registered_model.version

또는 모델이 실행 내부에 기록된 경우 직접 등록할 수 있습니다.

팁

모델을 등록하려면 모델이 저장된 위치를 알아야 합니다. MLflow의 autolog 기능을 사용하는 경우 경로는 사용 중인 모델의 형식 및 프레임워크에 따라 달라집니다. 작업 출력을 검사 이 폴더의 이름을 식별하는 것이 좋습니다. MLModel이라는 파일이 포함된 폴더를 찾을 수 있습니다. log_model을 사용하여 모델을 수동으로 로깅하는 경우 경로는 해당 메서드에 전달하는 인수입니다. 예를 들어 모델을 사용하여 mlflow.sklearn.log_model(my_model, "classifier")로그하는 경우 모델이 저장되는 경로는 다음과 같습니다 classifier.

model_name = 'heart-classifier'

registered_model = mlflow_client.create_model_version(
    name=model_name, source=f"runs://{RUN_ID}/{MODEL_PATH}"
)
version = registered_model.version

참고 항목

경로 MODEL_PATH는 모델이 실행에 저장된 위치입니다.

점수를 매기기 위한 입력 데이터 가져오기

실행하거나 작업을 실행하려면 몇 가지 입력 데이터가 필요합니다. 이 예제에서는 인터넷에서 샘플 데이터를 다운로드하여 Spark 클러스터에서 사용하는 공유 스토리지에 배치합니다.

import urllib

urllib.request.urlretrieve("https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data/heart.csv", "/tmp/data")

데이터를 전체 클러스터에서 사용할 수 있는 탑재된 스토리지 계정으로 이동합니다.

dbutils.fs.mv("file:/tmp/data", "dbfs:/")

Important

이전 코드에서는 Azure Databricks 클러스터에서 사용할 수 있는 도구인 이 도구를 사용합니다 dbutils. 사용 중인 플랫폼에 따라 적절한 도구를 사용합니다.

그런 다음 입력 데이터가 다음 폴더에 배치됩니다.

input_data_path = "dbfs:/data"

Spark 클러스터에서 모델 실행

다음 섹션에서는 Spark 작업의 Azure Machine Learning에 등록된 MLflow 모델을 실행하는 방법을 설명합니다.

클러스터에 다음 라이브러리가 설치되어 있는지 확인합니다.
```
- mlflow<3,>=2.1
- cloudpickle==2.2.0
- scikit-learn==1.2.0
- xgboost==1.7.2
```
Notebook을 사용하여 Azure Machine Learning에 등록된 MLflow 모델을 사용하여 점수 매기기 루틴을 만드는 방법을 보여 줍니다. Notebook을 만들고 PySpark를 기본 언어로 사용합니다.

필요한 네임스페이스를 가져옵니다.

import mlflow
import pyspark.sql.functions as f

모델 URI를 구성합니다. 다음 URI는 최신 버전에서 명명된 heart-classifier 모델을 제공합니다.
```
model_uri = "models:/heart-classifier/latest"
```
모델을 UDF 함수로 로드합니다. UDF(사용자 정의 함수)는 사용자 환경에서 사용자 지정 논리를 다시 사용할 수 있도록 사용자가 정의한 함수입니다.
```
predict_function = mlflow.pyfunc.spark_udf(spark, model_uri, result_type='double') 
```
팁

인수 result_type 를 사용하여 함수에서 반환된 형식을 제어합니다 predict() .
채점할 데이터를 읽습니다.
```
df = spark.read.option("header", "true").option("inferSchema", "true").csv(input_data_path).drop("target")
```
이 경우 입력 데이터는 형식이며 CSV 폴더 dbfs:/data/에 배치됩니다. 또한 이 데이터 세트에 예측할 대상 변수가 포함되어 있으므로 열을 target 삭제합니다. 프로덕션 시나리오에서는 데이터에 이 열이 없습니다.
함수 predict_function 를 실행하고 새 열에 예측을 배치합니다. 이 경우 열 predictions에 예측을 배치합니다.
```
df.withColumn("predictions", score_function(*df.columns))
```
팁

predict_function 필요한 열을 인수로 받습니다. 이 경우 데이터 프레임의 모든 열이 모델에 df.columns 의해 예상되므로 사용됩니다. 모델에 열의 하위 집합이 필요한 경우 수동으로 도입할 수 있습니다. 모델에 서명이 있는 경우 형식은 입력과 예상 형식 간에 호환되어야 합니다.

예측을 스토리지에 다시 쓸 수 있습니다.

scored_data_path = "dbfs:/scored-data"
scored_data.to_csv(scored_data_path)

Azure Machine Learning에서 독립 실행형 Spark 작업에서 모델 실행

Azure Machine Learning은 독립 실행형 Spark 작업 만들기 및 Azure Machine Learning 파이프라인에서 사용할 수 있는 재사용 가능한 Spark 구성 요소 만들기를 지원합니다. 이 예제에서는 Azure Machine Learning 독립 실행형 Spark 작업에서 실행되고 MLflow 모델을 실행하여 유추를 수행하는 채점 작업을 배포합니다.

참고 항목

Azure Machine Learning의 Spark 작업에 대한 자세한 내용은 Azure Machine Learning에서 Spark 작업 제출(미리 보기)을 참조하세요.

Spark 작업에는 인수를 사용하는 Python 스크립트가 필요합니다. 다음 채점 스크립트를 만듭니다.

score.py
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--model")
parser.add_argument("--input_data")
parser.add_argument("--scored_data")

args = parser.parse_args()
print(args.model)
print(args.input_data)

# Load the model as an UDF function
predict_function = mlflow.pyfunc.spark_udf(spark, args.model, env_manager="conda")

# Read the data you want to score
df = spark.read.option("header", "true").option("inferSchema", "true").csv(input_data).drop("target")

# Run the function `predict_function` and place the predictions on a new column
scored_data = df.withColumn("predictions", score_function(*df.columns))

# Save the predictions
scored_data.to_csv(args.scored_data)
```
위의 스크립트는 세 개의 인수 --model--input_data 를 --scored_data사용합니다. 처음 두 가지는 입력이며 실행하려는 모델과 입력 데이터를 나타내며, 마지막 입력은 출력이며 예측이 배치되는 출력 폴더입니다.

팁

Python 패키지 설치: 이전 점수 매기기 스크립트는 MLflow 모델을 UDF 함수에 로드하지만 매개 변수 env_manager="conda"를 나타냅니다. 이 매개 변수가 설정되면 MLflow는 UDF 함수만 실행되는 격리된 환경에서 모델 정의에 지정된 대로 필요한 패키지를 복원합니다. 자세한 내용은 설명서를 참조 mlflow.pyfunc.spark_udf 하세요.

작업 정의를 만듭니다.

mlflow-score-spark-job.yml

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./src
entry:
  file: score.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  model:
    type: mlflow_model
    path: azureml:heart-classifier@latest
  input_data:
    type: uri_file
    path: https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data/heart.csv
    mode: direct

outputs:
  scored_data:
    type: uri_folder

args: >-
  --model ${{inputs.model}}
  --input_data ${{inputs.input_data}}
  --scored_data ${{outputs.scored_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.2"

팁

연결된 Synapse Spark 풀을 사용하려면 속성 대신 위에 표시된 샘플 YAML 사양 파일에서 resources 속성을 정의 compute 합니다.

위에 표시된 YAML 파일을 az ml job create 명령에 --file 매개 변수와 함께 사용하여 다음과 같이 독립 실행형 Spark 작업을 만들 수 있습니다.
```
az ml job create -f mlflow-score-spark-job.yml
```

Share via