Spark'ta Azure Machine Learning Not Defteri'ni kullanma

Makale
04/16/2024

Önemli

Bu özellik şu anda önizlemededir. Microsoft Azure Önizlemeleri için Ek Kullanım Koşulları, beta, önizleme aşamasında olan veya henüz genel kullanıma sunulmamış Azure özellikleri için geçerli olan daha fazla yasal hüküm içerir. Bu belirli önizleme hakkında bilgi için bkz . AKS üzerinde Azure HDInsight önizleme bilgileri. Sorular veya özellik önerileri için lütfen AskHDInsight'ta ayrıntıları içeren bir istek gönderin ve Azure HDInsight Topluluğu hakkında daha fazla güncelleştirme için bizi takip edin.

Makine öğrenmesi, bilgisayarların geçmiş verilerden otomatik olarak öğrenmesini sağlayan, büyüyen bir teknolojidir. Makine öğrenmesi, matematiksel modeller oluşturmak ve tahminlerde geçmiş verileri veya bilgileri kullanmak için çeşitli algoritmalar kullanır. Bazı parametrelere kadar tanımlanmış bir modelimiz var ve öğrenme, eğitim verilerini veya deneyimini kullanarak modelin parametrelerini iyileştirmek için bir bilgisayar programının yürütülmesidir. Model, gelecekte tahminde bulunmak için tahminde bulunabilir veya verilerden bilgi edinmek için açıklayıcı olabilir.

Aşağıdaki öğretici not defterinde tablo verileri üzerinde makine öğrenmesi modellerini eğiten bir örnek gösterilmektedir. Bu not defterini içeri aktarabilir ve kendiniz çalıştırabilirsiniz.

CSV'yi depolama alanınıza yükleme

Portal JSON görünümünde depolama alanınızı ve kapsayıcı adınızı bulma
Csv dosyasını karşıya yükleyerek birincil HDI depolama>kapsayıcısı>temel klasörünüzde>gezinme
Kümenizde oturum açın ve Jupyter Not Defteri'ni açın

İşlem hattını oluşturmak için Spark MLlib Kitaplıklarını içeri aktarma

import pyspark
from pyspark.ml import Pipeline, PipelineModel
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import VectorAssembler, StringIndexer, IndexToString

Spark uygulamasını başlatmayı gösteren ekran görüntüsü.

CSV'yi Spark veri çerçevesine okuma

df = spark.read.("abfss:///iris_csv.csv",inferSchema=True,header=True)
Eğitim ve test için verileri bölme

iris_train, iris_test = df.randomSplit([0.7, 0.3], seed=123)

İşlem hattını oluşturma ve modeli eğitma

assembler = VectorAssembler(inputCols=['sepallength', 'sepalwidth', 'petallength', 'petalwidth'],outputCol="features",handleInvalid="skip")
indexer = StringIndexer(inputCol="class", outputCol="classIndex", handleInvalid="skip")
classifier = LogisticRegression(featuresCol="features",
                                labelCol="classIndex",
                                maxIter=10,
                                regParam=0.01)

pipeline = Pipeline(stages=[assembler,indexer,classifier])
model = pipeline.fit(iris_train)

# Create a test `dataframe` with predictions from the trained model

test_model = model.transform(iris_test)

# Taking an output from the test dataframe with predictions

test_model.take(1)

Test modelini çalıştırmayı gösteren ekran görüntüsü.

Model doğruluğunu değerlendirme

import pyspark.ml.evaluation as ev
evaluator = ev.MulticlassClassificationEvaluator(labelCol='classIndex')

print(evaluator.evaluate(test_model,{evaluator.metricName: 'accuracy'}))

Çıkışın nasıl yazdırılacağını gösteren ekran görüntüsü.

Aracılığıyla paylaş

Spark'ta Azure Machine Learning Not Defteri'ni kullanma

CSV'yi depolama alanınıza yükleme

Geri Bildirim

Geri Bildirim

Ek kaynaklar