Spark'ta Azure Machine Learning Not Defteri'ni kullanma
Önemli
Bu özellik şu anda önizlemededir. Microsoft Azure Önizlemeleri için Ek Kullanım Koşulları, beta, önizleme aşamasında olan veya henüz genel kullanıma sunulmamış Azure özellikleri için geçerli olan daha fazla yasal hüküm içerir. Bu belirli önizleme hakkında bilgi için bkz . AKS üzerinde Azure HDInsight önizleme bilgileri. Sorular veya özellik önerileri için lütfen AskHDInsight'ta ayrıntıları içeren bir istek gönderin ve Azure HDInsight Topluluğu hakkında daha fazla güncelleştirme için bizi takip edin.
Makine öğrenmesi, bilgisayarların geçmiş verilerden otomatik olarak öğrenmesini sağlayan, büyüyen bir teknolojidir. Makine öğrenmesi, matematiksel modeller oluşturmak ve tahminlerde geçmiş verileri veya bilgileri kullanmak için çeşitli algoritmalar kullanır. Bazı parametrelere kadar tanımlanmış bir modelimiz var ve öğrenme, eğitim verilerini veya deneyimini kullanarak modelin parametrelerini iyileştirmek için bir bilgisayar programının yürütülmesidir. Model, gelecekte tahminde bulunmak için tahminde bulunabilir veya verilerden bilgi edinmek için açıklayıcı olabilir.
Aşağıdaki öğretici not defterinde tablo verileri üzerinde makine öğrenmesi modellerini eğiten bir örnek gösterilmektedir. Bu not defterini içeri aktarabilir ve kendiniz çalıştırabilirsiniz.
CSV'yi depolama alanınıza yükleme
Portal JSON görünümünde depolama alanınızı ve kapsayıcı adınızı bulma
Csv dosyasını karşıya yükleyerek birincil HDI depolama>kapsayıcısı>temel klasörünüzde>gezinme
Kümenizde oturum açın ve Jupyter Not Defteri'ni açın
İşlem hattını oluşturmak için Spark MLlib Kitaplıklarını içeri aktarma
import pyspark from pyspark.ml import Pipeline, PipelineModel from pyspark.ml.classification import LogisticRegression from pyspark.ml.feature import VectorAssembler, StringIndexer, IndexToString
CSV'yi Spark veri çerçevesine okuma
df = spark.read.("abfss:///iris_csv.csv",inferSchema=True,header=True)
Eğitim ve test için verileri bölme
iris_train, iris_test = df.randomSplit([0.7, 0.3], seed=123)
İşlem hattını oluşturma ve modeli eğitma
assembler = VectorAssembler(inputCols=['sepallength', 'sepalwidth', 'petallength', 'petalwidth'],outputCol="features",handleInvalid="skip") indexer = StringIndexer(inputCol="class", outputCol="classIndex", handleInvalid="skip") classifier = LogisticRegression(featuresCol="features", labelCol="classIndex", maxIter=10, regParam=0.01) pipeline = Pipeline(stages=[assembler,indexer,classifier]) model = pipeline.fit(iris_train) # Create a test `dataframe` with predictions from the trained model test_model = model.transform(iris_test) # Taking an output from the test dataframe with predictions test_model.take(1)
Model doğruluğunu değerlendirme
import pyspark.ml.evaluation as ev evaluator = ev.MulticlassClassificationEvaluator(labelCol='classIndex') print(evaluator.evaluate(test_model,{evaluator.metricName: 'accuracy'}))
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin