Aracılığıyla paylaş


Spark'ta Azure Machine Learning Not Defteri'ni kullanma

Önemli

Bu özellik şu anda önizlemededir. Microsoft Azure Önizlemeleri için Ek Kullanım Koşulları, beta, önizleme aşamasında olan veya henüz genel kullanıma sunulmamış Azure özellikleri için geçerli olan daha fazla yasal hüküm içerir. Bu belirli önizleme hakkında bilgi için bkz . AKS üzerinde Azure HDInsight önizleme bilgileri. Sorular veya özellik önerileri için lütfen AskHDInsight'ta ayrıntıları içeren bir istek gönderin ve Azure HDInsight Topluluğu hakkında daha fazla güncelleştirme için bizi takip edin.

Makine öğrenmesi, bilgisayarların geçmiş verilerden otomatik olarak öğrenmesini sağlayan, büyüyen bir teknolojidir. Makine öğrenmesi, matematiksel modeller oluşturmak ve tahminlerde geçmiş verileri veya bilgileri kullanmak için çeşitli algoritmalar kullanır. Bazı parametrelere kadar tanımlanmış bir modelimiz var ve öğrenme, eğitim verilerini veya deneyimini kullanarak modelin parametrelerini iyileştirmek için bir bilgisayar programının yürütülmesidir. Model, gelecekte tahminde bulunmak için tahminde bulunabilir veya verilerden bilgi edinmek için açıklayıcı olabilir.

Aşağıdaki öğretici not defterinde tablo verileri üzerinde makine öğrenmesi modellerini eğiten bir örnek gösterilmektedir. Bu not defterini içeri aktarabilir ve kendiniz çalıştırabilirsiniz.

CSV'yi depolama alanınıza yükleme

  1. Portal JSON görünümünde depolama alanınızı ve kapsayıcı adınızı bulma

    JSON görünümünü gösteren ekran görüntüsü.

    Kaynak JSON görünümünü gösteren ekran görüntüsü.

  2. Csv dosyasını karşıya yükleyerek birincil HDI depolama>kapsayıcısı>temel klasörünüzde>gezinme

    Depolama ve kapsayıcıya nasıl gidiliyor gösteren ekran görüntüsü.

    CSV dosyasının nasıl karşıya yüklendiğini gösteren ekran görüntüsü.

  3. Kümenizde oturum açın ve Jupyter Not Defteri'ni açın

    Jupyter Not Defteri'ni gösteren ekran görüntüsü.

  4. İşlem hattını oluşturmak için Spark MLlib Kitaplıklarını içeri aktarma

    import pyspark
    from pyspark.ml import Pipeline, PipelineModel
    from pyspark.ml.classification import LogisticRegression
    from pyspark.ml.feature import VectorAssembler, StringIndexer, IndexToString
    

    Spark uygulamasını başlatmayı gösteren ekran görüntüsü.

  5. CSV'yi Spark veri çerçevesine okuma

    df = spark.read.("abfss:///iris_csv.csv",inferSchema=True,header=True)

  6. Eğitim ve test için verileri bölme

    iris_train, iris_test = df.randomSplit([0.7, 0.3], seed=123)

  7. İşlem hattını oluşturma ve modeli eğitma

    assembler = VectorAssembler(inputCols=['sepallength', 'sepalwidth', 'petallength', 'petalwidth'],outputCol="features",handleInvalid="skip")
    indexer = StringIndexer(inputCol="class", outputCol="classIndex", handleInvalid="skip")
    classifier = LogisticRegression(featuresCol="features",
                                    labelCol="classIndex",
                                    maxIter=10,
                                    regParam=0.01)
    
    pipeline = Pipeline(stages=[assembler,indexer,classifier])
    model = pipeline.fit(iris_train)
    
    # Create a test `dataframe` with predictions from the trained model
    
    test_model = model.transform(iris_test)
    
    # Taking an output from the test dataframe with predictions
    
    test_model.take(1)
    

    Test modelini çalıştırmayı gösteren ekran görüntüsü.

  8. Model doğruluğunu değerlendirme

    import pyspark.ml.evaluation as ev
    evaluator = ev.MulticlassClassificationEvaluator(labelCol='classIndex')
    
    print(evaluator.evaluate(test_model,{evaluator.metricName: 'accuracy'}))
    

    Çıkışın nasıl yazdırılacağını gösteren ekran görüntüsü.