كيفية استخدام دفتر ملاحظات Azure التعلم الآلي على Spark

هام

هذه الميزة في وضع المعاينة حاليًا. تتضمن شروط الاستخدام التكميلية لمعاينات Microsoft Azure المزيد من الشروط القانونية التي تنطبق على ميزات Azure الموجودة في الإصدار التجريبي أو قيد المعاينة أو التي لم يتم إصدارها بعد في التوفر العام. للحصول على معلومات حول هذه المعاينة المحددة، راجع معلومات معاينة Azure HDInsight على AKS. للأسئلة أو اقتراحات الميزات، يرجى إرسال طلب على AskHDInsight مع التفاصيل ومتابعتنا لمزيد من التحديثات على مجتمع Azure HDInsight.

التعلم الآلي هو تقنية متنامية، والتي تمكن أجهزة الكمبيوتر من التعلم تلقائيا من البيانات السابقة. يستخدم التعلم الآلي خوارزميات مختلفة لبناء نماذج رياضية وجعل التنبؤات تستخدم البيانات أو المعلومات التاريخية. لدينا نموذج محدد لبعض المعلمات، والتعلم هو تنفيذ برنامج كمبيوتر لتحسين معلمات النموذج باستخدام بيانات التدريب أو التجربة. قد يكون النموذج تنبؤيا لإجراء تنبؤات في المستقبل، أو وصفيا لاكتساب المعرفة من البيانات.

يعرض دفتر الملاحظات التعليمي التالي مثالا على تدريب نماذج التعلم الآلي على البيانات الجدولية. يمكنك استيراد دفتر الملاحظات هذا وتشغيله بنفسك.

تحميل CSV إلى التخزين الخاص بك

  1. ابحث عن اسم التخزين والحاوية في طريقة عرض JSON للمدخل

    لقطة شاشة تعرض طريقة عرض JSON.

    لقطة شاشة تعرض طريقة عرض JSON الخاصة بالموارد.

  2. انتقل إلى المجلد>الأساسي لحاوية>تخزين>HDI تحميل CSV

    لقطة شاشة توضح كيفية الانتقال إلى التخزين والحاوية.

    لقطة شاشة توضح كيفية تحميل ملف CSV.

  3. سجل الدخول إلى نظام المجموعة وافتح Jupyter Notebook

    لقطة شاشة تعرض Jupyter Notebook.

  4. استيراد مكتبات Spark MLlib لإنشاء البنية الأساسية لبرنامج ربط العمليات التجارية

    import pyspark
    from pyspark.ml import Pipeline, PipelineModel
    from pyspark.ml.classification import LogisticRegression
    from pyspark.ml.feature import VectorAssembler, StringIndexer, IndexToString
    

    لقطة شاشة توضح كيفية بدء تشغيل تطبيق spark.

  5. قراءة CSV في إطار بيانات Spark

    df = spark.read.("abfss:///iris_csv.csv",inferSchema=True,header=True)

  6. تقسيم البيانات للتدريب والاختبار

    iris_train, iris_test = df.randomSplit([0.7, 0.3], seed=123)

  7. إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية وتدريب النموذج

    assembler = VectorAssembler(inputCols=['sepallength', 'sepalwidth', 'petallength', 'petalwidth'],outputCol="features",handleInvalid="skip")
    indexer = StringIndexer(inputCol="class", outputCol="classIndex", handleInvalid="skip")
    classifier = LogisticRegression(featuresCol="features",
                                    labelCol="classIndex",
                                    maxIter=10,
                                    regParam=0.01)
    
    pipeline = Pipeline(stages=[assembler,indexer,classifier])
    model = pipeline.fit(iris_train)
    
    # Create a test `dataframe` with predictions from the trained model
    
    test_model = model.transform(iris_test)
    
    # Taking an output from the test dataframe with predictions
    
    test_model.take(1)
    

    لقطة شاشة توضح كيفية تشغيل نموذج الاختبار.

  8. تقييم دقة النموذج

    import pyspark.ml.evaluation as ev
    evaluator = ev.MulticlassClassificationEvaluator(labelCol='classIndex')
    
    print(evaluator.evaluate(test_model,{evaluator.metricName: 'accuracy'}))
    

    لقطة شاشة توضح كيفية طباعة الإخراج.