Spark ML

Tamamlandı

Azure Databricks makine öğrenmesi için çeşitli kitaplıkları destekler. Bir anahtar kitaplığı vardır ve bu kitaplıkta yerel olan iki yaklaşım vardır: MLLib Apache Spark Spark ML.

MLLib

MLLib, makine öğrenmesi için eski bir yaklaşım Apache Spark. Spark'ın Resilient Distributed Dataset (RDD) veri yapısını temel almaktadır. Bu veri yapısı, Apache Spark temelini oluşturur ancak DataFrame'ler gibi RDD'nin üzerinde yer alan ek veri yapıları, RDD'lerle doğrudan çalışma ihtiyacının azalmasını sağlar.

2 Apache Spark 2.0'dan sonra kitaplık bir bakım moduna girdi. Bu, MLLib'in hala kullanılabilir olduğu ve kullanım dışı olduğu, ancak kitapliğe yeni bir işlevsellik eklenmeyecek olduğu anlamına gelir. Bunun yerine, müşterilerin genellikle Spark kitaplığı olarak org.apache.spark.ml adlandırılan kitapla ML.

Spark ML

Spark ML, Apache Spark'de makine öğrenmesi geliştirme için birincil Apache Spark. Api'sinde DataFrame'leri destekler ve klasik RDD yaklaşımını destekler. Spark DataFrames ML Pandas ve R'de kullanılan DataFrame'lerle birçok yaygın fikri paylaştığı için bu, Spark'ın veri bilimcileri için daha kolay bir kitaplık oluşturması sağlar.

MLLib ve Spark ML en kafa karıştırıcı kısmı, her ikisinin de aynı kitaplık olmasıdır. Fark, "klasik" MLLib ad alanının ise Spark ML org.apache.spark.mllib ad alanı org.apache.spark.ml olduğudur. Mümkün olduğunda, yeni veri bilimi ML Spark veri bilimi ad alanını kullanın.