Modellek üzembe helyezése kötegelt következtetéshez és előrejelzéshez

Cikk
03/01/2024

Ez a cikk azt ismerteti, hogyan helyezhet üzembe MLflow-modelleket offline (kötegelt és streamelési) következtetéshez. A Databricks azt javasolja, hogy az MLflow használatával helyezzen üzembe gépi tanulási modelleket kötegelt vagy streamelési következtetéshez. Az MLflow-modellek használatával kapcsolatos általános információkért tekintse meg az MLflow-modellek naplózását, betöltését, regisztrálását és üzembe helyezését.

Az Azure Databricksben való valós idejű modellel kapcsolatos információkért tekintse meg az Azure Databricks szolgáltatásmodellje című témakört.

MLflow használata modellkövetkeztetéshez

Az MLflow segítségével kódokat hozhat létre kötegelt vagy streamelési következtetéshez.

Az MLflow modellregisztrációs adatbázisában automatikusan létrehozhat egy jegyzetfüzetet kötegelt vagy streamelési következtetéshez a Delta Live Tables használatával.
A modell MLflow-futtatási lapján másolhatja a létrehozott kódrészletet a pandasra vagy az Apache Spark DataFrame-ekre való következtetéshez.

A fenti beállítások bármelyike által létrehozott kódot testre is szabhatja. Példákért tekintse meg a következő jegyzetfüzeteket:

A modellkövetkeztetési példa egy scikit-learn-be betanított és korábban az MLflow-ba naplózott modellt használ, amely bemutatja, hogyan tölthet be egy modellt, és hogyan használhatja azt különböző formátumú adatokra vonatkozó előrejelzések készítésére. A jegyzetfüzet bemutatja, hogyan alkalmazhatja a modellt scikit-learn modellként egy pandas DataFrame-re, és hogyan alkalmazhatja a modellt PySpark UDF-ként egy Spark DataFrame-re.
Az MLflow Modellregisztrációs adatbázis példája bemutatja, hogyan hozhat létre, kezelhet és helyezhet üzembe modelleket a Modellregisztrációs adatbázissal. Ezen a lapon megkeresheti .predict az offline (kötegelt) előrejelzések példáit.

Azure Databricks-feladat létrehozása

Kötegelt vagy streamelési előrejelzések feladatként való futtatásához hozzon létre egy jegyzetfüzetet vagy JAR-t, amely tartalmazza az előrejelzések végrehajtásához használt kódot. Ezután hajtsa végre a jegyzetfüzetet vagy a JAR-t Azure Databricks-feladatként. A feladatok azonnal vagy ütemezés szerint futtathatók.

Streamelési következtetés

Az MLflow modellregisztrációs adatbázisából automatikusan létrehozhat egy jegyzetfüzetet, amely integrálja az MLflow PySpark következtetési UDF-et a Delta Live Tables használatával.

A létrehozott következtetési jegyzetfüzetet is módosíthatja az Apache Spark Strukturált Stream API használatára. Tekintse meg az Apache Spark MLlib-folyamatokra és strukturált streamelésre vonatkozó példáját.

Következtetés mélytanulási modellekkel

Az Azure Databricks mélytanulási modelljeinek következtetésével kapcsolatos információkért és példákért tekintse meg az alábbi cikkeket:

Következtetés MLlib- és XGBoost4J-modellekkel

Az MLlib- és XGBoost4J-modellekkel végzett méretezhető modellkövetkeztetéshez használja a natív transform metódusokat a következtetés közvetlenül a Spark DataFrame-eken való végrehajtásához. Az MLlib-példajegyzetfüzetek következtetési lépéseket tartalmaznak.

Modellkövetkeztetés testreszabása és optimalizálása

Ha az MLflow API-kkal következtetést futtat a Spark DataFrame-eken, betöltheti a modellt Spark UDF-ként, és elosztott számítástechnika használatával nagy léptékben alkalmazhatja.

Testre szabhatja a modellt, hogy előfeldolgozást vagy utófeldolgozást adjon hozzá, és optimalizálja a számítási teljesítményt a nagy modellekhez. A modellek testreszabásához jó megoldás az MLflow pyfunc API, amely lehetővé teszi a modellek egyéni logikával való burkolását.

Ha további testreszabásra van szüksége, manuálisan csomagolhatja be a gépi tanulási modellt egy Pandas UDF-be vagy egy pandas Iterator UDF-be. Tekintse meg a mélytanulási példákat.

Kisebb adathalmazok esetén használhatja a kódtár által biztosított natív modellkövető rutinokat is.

Share via