Förstå Spark-ML

Slutförd

Azure Databricks har stöd för flera bibliotek för maskininlärning. Det finns ett nyckelbibliotek som har två metoder som är inbyggda i Apache Spark: MLLib och Spark ML.

MLLib

MLLib är en äldre metod för maskininlärning på Apache Spark. Den bygger på Sparks RDD-datastruktur (Resilient Distributed Dataset). Den här datastrukturen utgör grunden för Apache Spark, men ytterligare datastrukturer ovanpå RDD:en, till exempel DataFrames, har minskat behovet av att arbeta direkt med RDD:er.

Från och Apache Spark 2.0 gick biblioteket över i underhållsläge. Det innebär att MLLib fortfarande är tillgängligt och inte är inaktuellt, men att inga nya funktioner läggs till i biblioteket. I stället rekommenderas kunder att flytta till org.apache.spark.ml biblioteket, vilket ofta kallas Spark-ML.

Spark ML

Spark ML är det primära biblioteket för maskininlärningsutveckling i Apache Spark. Den stöder DataFrames i dess API, jämfört med den klassiska RDD-metoden. Detta gör Spark ML ett enklare bibliotek att arbeta med för dataforskare, eftersom Spark DataFrames delar många vanliga idéer med de DataFrames som används i Pandas och R.

Det mest förvirrande med MLLib jämfört med Spark ML är att de båda är samma bibliotek. Skillnaden är att det "klassiska" MLLib-namnområdet org.apache.spark.mllib är medan Spark-ML är org.apache.spark.ml . När det är möjligt använder du Spark ML namnrymden när du utför nya datavetenskapsaktiviteter.