Κοινή χρήση μέσω


Εκπαίδευση μοντέλων εκμάθησης μηχανής

Το Apache Spark στο Microsoft Fabric επιτρέπει την εκμάθηση μηχανής με μεγάλα δεδομένα, παρέχοντας τη δυνατότητα λήψης πολύτιμων πληροφοριών από μεγάλες ποσότητες δομημένων, μη δομημένων και ταχέως κινούμενων δεδομένων. Υπάρχουν διάφορες επιλογές κατά την εκπαίδευση μοντέλων εκμάθησης μηχανής με χρήση του Apache Spark στο Microsoft Fabric: Apache Spark MLlib, SynapseML και διάφορες άλλες βιβλιοθήκες ανοιχτού κώδικα.

Apache SparkML και MLlib

Το Apache Spark στο Microsoft Fabric παρέχει ένα ενοποιημένο, παράλληλο πλαίσιο επεξεργασίας δεδομένων ανοιχτού κώδικα που υποστηρίζει την επεξεργασία στη μνήμη για την ενίσχυση της ανάλυσης δεδομένων μεγάλου όγκου. Η μηχανή επεξεργασίας Spark είναι κατασκευασμένη για ταχύτητα, ευκολία χρήσης και εξελιγμένες αναλύσεις. Οι κατανεμημένες δυνατότητες υπολογισμού στη μνήμη του Spark το καθιστούν μια καλή επιλογή για τους επαναληπτικούς αλγόριθμους που χρησιμοποιούνται στην εκμάθηση μηχανής και τους υπολογισμούς γραφημάτων.

Υπάρχουν δύο βιβλιοθήκες εκμάθησης μηχανής με δυνατότητα κλιμάκωσης που μεταφέρουν δυνατότητες αλγοριθμικής μοντελοποίησης σε αυτό το κατανεμημένο περιβάλλον: MLlib και SparkML. Το MLlib περιέχει το αρχικό API που βασίζεται σε RDD. Το SparkML είναι ένα νεότερο πακέτο που παρέχει ένα API υψηλότερου επιπέδου που έχει δημιουργηθεί με βάση τα DataFrames για την κατασκευή διοχετεύσεων εκμάθησης μηχανής. Το SparkML δεν υποστηρίζει ακόμα όλες τις δυνατότητες του MLlib, αλλά αντικαθιστά το MLlib ως την τυπική βιβλιοθήκη εκμάθησης μηχανής του Spark.

Σημείωμα

Μπορείτε να μάθετε περισσότερα σχετικά με τη δημιουργία ενός μοντέλου SparkML στο άρθρο Εκπαίδευση μοντέλων με apache Spark MLlib.

Ο χρόνος εκτέλεσης Microsoft Fabric για το Apache Spark περιλαμβάνει πολλά δημοφιλή πακέτα ανοιχτού κώδικα για εκπαιδευτικά μοντέλα εκμάθησης μηχανής. Αυτές οι βιβλιοθήκες παρέχουν επαναχρησιμοποιήσιμο κώδικα που μπορεί να θέλετε να συμπεριλάβετε στα προγράμματα ή τα έργα σας. Ορισμένες από τις σχετικές βιβλιοθήκες εκμάθησης μηχανής που περιλαμβάνονται από προεπιλογή περιλαμβάνουν:

  • Το Scikit-learn είναι μία από τις πιο δημοφιλείς βιβλιοθήκες εκμάθησης μηχανής ενός κόμβου για κλασικούς αλγόριθμους εκμάθησης μηχανής. Το Scikit-learn υποστηρίζει τους περισσότερους εποπτευόμενους και χωρίς εποπτεία αλγόριθμους εκμάθησης και μπορεί επίσης να χρησιμοποιηθεί για εξόρυξη δεδομένων και ανάλυση δεδομένων.

  • Το XGBoost είναι μια δημοφιλής βιβλιοθήκη εκμάθησης μηχανής που περιέχει βελτιστοποιημένους αλγόριθμους για δένδρα αποφάσεων εκπαίδευσης και τυχαία δάση.

  • Οι PyTorch & Tensorflow είναι ισχυρές βιβλιοθήκες βαθιάς εκμάθησης Python. Μπορείτε να χρησιμοποιήσετε αυτές τις βιβλιοθήκες για να δημιουργήσετε μοντέλα μίας μηχανής, ορίζοντας τον αριθμό των εκτελέσεων στον χώρο συγκέντρωσης σας σε μηδέν. Παρόλο που το Apache Spark δεν είναι λειτουργικό σε αυτή τη ρύθμιση παραμέτρων, είναι ένας απλός και οικονομικά αποδοτικός τρόπος για τη δημιουργία μοντέλων μίας μηχανής.

SynapseML

Το SynapseML (γνωστό προηγουμένως ως MMLSpark), είναι μια βιβλιοθήκη ανοιχτού κώδικα που απλοποιεί τη δημιουργία διοχετεύσεων εκμάθησης μηχανής (ML) με μαζική δυνατότητα κλιμάκωσης. Αυτή η βιβλιοθήκη έχει σχεδιαστεί για να κάνει τους επιστήμονες δεδομένων πιο παραγωγικούς στο Spark, να αυξήσει τον ρυθμό πειραματισμού και να αξιοποιήσει τεχνικές εκμάθησης μηχανής αιχμής, συμπεριλαμβανομένης της βαθιάς εκμάθησης, σε μεγάλα σύνολα δεδομένων.

Το SynapseML παρέχει ένα επίπεδο πάνω από τα API χαμηλού επιπέδου του SparkML κατά τη δημιουργία μοντέλων εκμάθησης μηχανής με δυνατότητα κλιμάκωσης, όπως συμβολοσειρές ευρετηρίου, επιβολή δεδομένων σε μια διάταξη που αναμένεται από αλγόριθμους εκμάθησης μηχανής και συναρμολόγηση διανυσματικών δυνατοτήτων. Η βιβλιοθήκη SynapseML απλοποιεί αυτές και άλλες συνήθεις εργασίες για τη δημιουργία μοντέλων στο PySpark.

Αυτό το άρθρο παρέχει μια επισκόπηση των διαφόρων επιλογών για την εκπαίδευση μοντέλων εκμάθησης μηχανής στο Apache Spark στο Microsoft Fabric. Μπορείτε να μάθετε περισσότερα σχετικά με την εκπαίδευση μοντέλου, ακολουθώντας την παρακάτω εκμάθηση: