Κοινή χρήση μέσω


Χρήση R για Apache Spark

Το Microsoft Fabric παρέχει ενσωματωμένη υποστήριξη R για το Apache Spark. Αυτό περιλαμβάνει υποστήριξη για SparkR και sparklyr, η οποία επιτρέπει στους χρήστες να αλληλεπιδρούν με το Spark χρησιμοποιώντας οικεία περιβάλλοντα Spark ή R. Μπορείτε να αναλύσετε δεδομένα χρησιμοποιώντας την R μέσω ορισμών μαζικής εργασίας Spark ή με αλληλεπιδραστικά σημειωματάρια Microsoft Fabric.

Αυτό το έγγραφο παρέχει μια επισκόπηση της ανάπτυξης εφαρμογών Spark στο Synapse χρησιμοποιώντας τη γλώσσα R.

Προαπαιτούμενα στοιχεία

  • Λάβετε μια συνδρομή Microsoft Fabric. Εναλλακτικά, εγγραφείτε για μια δωρεάν δοκιμαστική έκδοση του Microsoft Fabric.

  • Εισέλθετε στο Microsoft Fabric.

  • Χρησιμοποιήστε την εναλλαγή εμπειρίας στην αριστερή πλευρά της αρχικής σελίδας σας για να μεταβείτε στην εμπειρία Synapse Data Science.

    Screenshot of the experience switcher menu, showing where to select Data Science.

Δημιουργία και εκτέλεση περιόδων λειτουργίας σημειωματάριου

Το σημειωματάριο Microsoft Fabric είναι ένα περιβάλλον εργασίας web για να δημιουργείτε αρχεία που περιέχουν δυναμικό κώδικα, απεικονίσεις και αφηγηματικό κείμενο. Τα σημειωματάρια είναι ένα καλό σημείο για να επικυρώσετε ιδέες και να χρησιμοποιήσετε γρήγορα πειράματα για να λάβετε πληροφορίες από τα δεδομένα σας. Τα σημειωματάρια χρησιμοποιούνται επίσης ευρέως στην προετοιμασία δεδομένων, την απεικόνιση δεδομένων, την εκμάθηση μηχανής και άλλα σενάρια μεγάλου όγκου δεδομένων.

Για να ξεκινήσετε με την R στα σημειωματάρια Microsoft Fabric, αλλάξτε την κύρια γλώσσα στο επάνω μέρος του σημειωματάριού σας, ορίζοντας την επιλογή γλώσσας σε SparkR (R).

Επιπλέον, μπορείτε να χρησιμοποιήσετε πολλές γλώσσες σε ένα σημειωματάριο καθορίζοντας την εντολή μαγείας γλώσσας στην αρχή ενός κελιού.

%%sparkr
# Enter your R code here

Για να μάθετε περισσότερα σχετικά με τα σημειωματάρια στο Microsoft Fabric Analytics, ανατρέξτε στο θέμα Τρόπος χρήσης σημειωματάριων.

Εγκατάσταση πακέτων

Οι βιβλιοθήκες παρέχουν κώδικα που μπορεί να επαναχρησιμοποιείται και μπορεί να θέλετε να συμπεριλάβετε στα προγράμματα ή τα έργα σας. Για να καταστήσετε τον κώδικα τρίτων ή τοπικά δομημένο στις εφαρμογές σας διαθέσιμο, μπορείτε να εγκαταστήσετε μια βιβλιοθήκη σε μία από τις περιόδους λειτουργίας του χώρου εργασίας ή του σημειωματάριου σας.

Για να μάθετε περισσότερα σχετικά με τον τρόπο διαχείρισης βιβλιοθηκών R, ανατρέξτε στο θέμα Διαχείριση βιβλιοθήκης R.

Βοηθητικά προγράμματα σημειωματάριου

Το Microsoft Spark Utilities (MSSparkUtils) είναι ένα ενσωματωμένο πακέτο που σας βοηθά να εκτελείτε εύκολα συνήθεις εργασίες. Μπορείτε να χρησιμοποιήσετε το MSSparkUtils για να εργαστείτε με συστήματα αρχείων, να λάβετε μεταβλητές περιβάλλοντος, να αλληλουχήσετε σημειωματάρια και να εργαστείτε με μυστικά. Το MSSparkUtils υποστηρίζεται για σημειωματάρια R.

Για να ξεκινήσετε, μπορείτε να εκτελέσετε τις ακόλουθες εντολές:

library(notebookutils)
mssparkutils.fs.help()

Μάθετε περισσότερα σχετικά με τις υποστηριζόμενες εντολές MSSparkUtils στο θέμα Χρήση βοηθητικών προγραμμάτων Microsoft Spark.

Χρήση SparkR

Το SparkR είναι ένα πακέτο R που παρέχει ένα ελαφρύ προσκήνιο για τη χρήση του Apache Spark από την R. SparkR παρέχει μια υλοποίηση κατανεμημένων πλαισίων δεδομένων που υποστηρίζει λειτουργίες όπως επιλογή, φιλτράρισμα, συνάθροιση κ.λπ. Το SparkR υποστηρίζει επίσης κατανεμημένη εκμάθηση μηχανής με χρήση MLlib.

Μπορείτε να μάθετε περισσότερα σχετικά με τον τρόπο χρήσης του SparkR, μεταβαίνοντας στην ενότητα Τρόπος χρήσης του SparkR.

Χρήση sparklyr

Sparklyr είναι μια διασύνδεση R με το Apache Spark. Παρέχει έναν μηχανισμό αλληλεπίδρασης με το Spark χρησιμοποιώντας γνώριμες διασυνδέσεις R. Μπορείτε να χρησιμοποιήσετε sparklyr μέσω ορισμών μαζικής εργασίας Spark ή με αλληλεπιδραστικά σημειωματάρια Microsoft Fabric.

Για να μάθετε περισσότερα σχετικά με τον τρόπο χρήσης του sparklyr, ανατρέξτε στην ενότητα Τρόπος χρήσης του sparklyr.

Χρήση Tidyverse

Το Tidyverse είναι μια συλλογή πακέτων R που χρησιμοποιούν συνήθως οι επιστήμονες δεδομένων σε καθημερινές αναλύσεις δεδομένων. Περιλαμβάνει πακέτα για την εισαγωγή δεδομένων (readr), την απεικόνιση δεδομένων (ggplot2), τον χειρισμό δεδομένων (dplyr, ), tidyrτον συναρτησιακό προγραμματισμό (purrr) και τη δημιουργία μοντέλων (tidymodels) κ.λπ. Τα πακέτα στο tidyverse έχουν σχεδιαστεί για να συνεργάζονται απρόσκοπτα και να ακολουθούν ένα συνεπές σύνολο αρχών σχεδίασης. Το Microsoft Fabric διανέμει την πιο πρόσφατη σταθερή έκδοση του tidyverse με κάθε έκδοση χρόνου εκτέλεσης.

Για να μάθετε περισσότερα σχετικά με τον τρόπο χρήσης του Tidyverse, επισκεφθείτε την ενότητα Τρόπος χρήσης του Tidyverse.

Απεικόνιση R

Το οικοσύστημα της R προσφέρει πολλές βιβλιοθήκες γραφημάτων που παρέχονται γεμάτες με πολλές διαφορετικές δυνατότητες. Από προεπιλογή, κάθε παρουσία Spark στο Microsoft Fabric περιέχει ένα σύνολο επιμελημένων και δημοφιλών βιβλιοθηκών ανοιχτού κώδικα. Μπορείτε επίσης να προσθέσετε ή να διαχειριστείτε επιπλέον βιβλιοθήκες ή εκδόσεις χρησιμοποιώντας τις δυνατότητες διαχείρισης βιβλιοθήκης Microsoft Fabric.

Μάθετε περισσότερα σχετικά με τον τρόπο δημιουργίας απεικονίσεων R, μεταβαίνοντας στην απεικόνιση R.