Κοινή χρήση μέσω


Διαχείριση βιβλιοθήκης R

Οι βιβλιοθήκες παρέχουν επαναχρησιμοποιήσιμο κώδικα που μπορεί να θέλετε να συμπεριλάβετε στα προγράμματα ή τα έργα σας για το Microsoft Fabric Spark.

Το Microsoft Fabric υποστηρίζει έναν χρόνο εκτέλεσης R με πολλά δημοφιλή πακέτα R ανοιχτού κώδικα, συμπεριλαμβανομένου του TidyVerse, προεγκατεστημένου. Όταν ξεκινά μια παρουσία Spark, αυτές οι βιβλιοθήκες περιλαμβάνονται αυτόματα και είναι διαθέσιμες για άμεση χρήση σε σημειωματάρια ή ορισμούς εργασίας Spark.

Ίσως χρειαστεί να ενημερώσετε τις βιβλιοθήκες R για διάφορους λόγους. Για παράδειγμα, μία από τις βασικές εξαρτήσεις σας κυκλοφόρησε μια νέα έκδοση ή η ομάδα σας έχει δημιουργήσει ένα προσαρμοσμένο πακέτο που χρειάζεστε διαθέσιμο στα συμπλέγματα Spark.

Υπάρχουν δύο τύποι βιβλιοθηκών που μπορεί να θέλετε να συμπεριλάβετε με βάση το σενάριό σας:

  • Οι βιβλιοθήκες τροφοδοσίας αναφέρονται σε εκείνες που βρίσκονται σε δημόσιες προελεύσεις ή αποθετήρια, όπως CRAN ή GitHub.

  • Οι προσαρμοσμένες βιβλιοθήκες είναι ο κώδικας που έχει δημιουργηθεί από εσάς ή τον οργανισμό σας .tar.gz μπορείτε να διαχειριστείτε μέσω των πυλών διαχείρισης βιβλιοθήκης.

Υπάρχουν δύο επίπεδα πακέτων εγκατεστημένα στο Microsoft Fabric:

  • Περιβάλλον: Διαχειριστείτε βιβλιοθήκες μέσω ενός περιβάλλοντος για να χρησιμοποιήσετε ξανά το ίδιο σύνολο βιβλιοθηκών σε πολλά σημειωματάρια ή εργασίες.

  • Περίοδος λειτουργίας : Μια εγκατάσταση σε επίπεδο περιόδου λειτουργίας δημιουργεί ένα περιβάλλον για μια συγκεκριμένη περίοδο λειτουργίας σημειωματάριου. Η αλλαγή των βιβλιοθηκών σε επίπεδο περιόδου λειτουργίας δεν διατηρείται μεταξύ περιόδων λειτουργίας.

Συνοψίζοντας τις τρέχουσες διαθέσιμες συμπεριφορές διαχείρισης βιβλιοθήκης R:

Τύπος βιβλιοθήκης Εγκατάσταση περιβάλλοντος Εγκατάσταση σε επίπεδο περιόδου λειτουργίας
Τροφοδοσία R (CRAN) Δεν υποστηρίζεται Υποστηρίζεται
Προσαρμογή R Υποστηρίζεται Υποστηρίζεται

Προαπαιτούμενα στοιχεία

  • Λάβετε μια συνδρομή Microsoft Fabric. Εναλλακτικά, εγγραφείτε για μια δωρεάν δοκιμαστική έκδοση του Microsoft Fabric.

  • Εισέλθετε στο Microsoft Fabric.

  • Χρησιμοποιήστε την εναλλαγή εμπειρίας στην αριστερή πλευρά της αρχικής σελίδας σας για να μεταβείτε στην εμπειρία Synapse Data Science.

    Στιγμιότυπο οθόνης του μενού εναλλαγής εμπειρίας, που εμφανίζει πού μπορείτε να επιλέξετε Επιστήμη δεδομένων.

Βιβλιοθήκες R σε επίπεδο περιόδου λειτουργίας

Όταν κάνετε αλληλεπιδραστική ανάλυση δεδομένων ή εκμάθηση μηχανής, μπορεί να δοκιμάσετε νεότερα πακέτα ή μπορεί να χρειαστείτε πακέτα που δεν είναι διαθέσιμα αυτήν τη στιγμή στον χώρο εργασίας σας. Αντί να ενημερώσετε τις ρυθμίσεις χώρου εργασίας, μπορείτε να χρησιμοποιήσετε πακέτα εμβέλειας περιόδου λειτουργίας για να προσθέσετε, να διαχειριστείτε και να ενημερώσετε εξαρτήσεις περιόδου λειτουργίας.

  • Όταν εγκαθιστάτε βιβλιοθήκες εμβέλειας περιόδου λειτουργίας, μόνο το τρέχον σημειωματάριο έχει πρόσβαση στις καθορισμένες βιβλιοθήκες.
  • Αυτές οι βιβλιοθήκες δεν επηρεάζουν άλλες περιόδους λειτουργίας ή εργασίες που χρησιμοποιούν το ίδιο spark pool.
  • Αυτές οι βιβλιοθήκες εγκαθίστανται στη βάση των βιβλιοθηκών βασικού χρόνου εκτέλεσης και επιπέδου ομάδας.
  • Οι βιβλιοθήκες σημειωματάριου έχουν την υψηλότερη προτεραιότητα.
  • Οι βιβλιοθήκες R εμβέλειας περιόδου λειτουργίας δεν διατηρούνται σε περιόδους λειτουργίας. Αυτές οι βιβλιοθήκες εγκαθίστανται στην αρχή κάθε περιόδου λειτουργίας, όταν εκτελούνται οι σχετικές εντολές εγκατάστασης.
  • Οι βιβλιοθήκες R εμβέλειας περιόδου λειτουργίας εγκαθίστανται αυτόματα τόσο στους κόμβους οδηγού όσο και στους κόμβους εργαζομένων.

Σημείωμα

Οι εντολές διαχείρισης βιβλιοθηκών R απενεργοποιούνται κατά την εκτέλεση εργασιών διοχέτευσης. Εάν θέλετε να εγκαταστήσετε ένα πακέτο μέσα σε μια διοχέτευση, πρέπει να χρησιμοποιήσετε τις δυνατότητες διαχείρισης βιβλιοθήκης στο επίπεδο χώρου εργασίας.

Εγκατάσταση πακέτων R από CRAN

Μπορείτε εύκολα να εγκαταστήσετε μια βιβλιοθήκη R από το CRAN.

# install a package from CRAN
install.packages(c("nycflights13", "Lahman"))

Μπορείτε επίσης να χρησιμοποιήσετε στιγμιότυπα CRAN ως αποθετήριο δεδομένων για να διασφαλίσετε ότι κάνετε λήψη της ίδιας έκδοσης πακέτου κάθε φορά.

# install a package from CRAN snapsho
install.packages("highcharter", repos = "https://cran.microsoft.com/snapshot/2021-07-16/")

Εγκατάσταση πακέτων R με χρήση devtools

Η devtools βιβλιοθήκη απλοποιεί την ανάπτυξη πακέτων για την επίσπευση κοινών εργασιών. Αυτή η βιβλιοθήκη εγκαθίσταται εντός του προεπιλεγμένου χρόνου εκτέλεσης Microsoft Fabric.

Μπορείτε να χρησιμοποιήσετε devtools το για να καθορίσετε μια συγκεκριμένη έκδοση μιας βιβλιοθήκης για εγκατάσταση. Αυτές οι βιβλιοθήκες εγκαθίστανται σε όλους τους κόμβους εντός του συμπλέγματος.

# Install a specific version. 
install_version("caesar", version = "1.0.0")

Παρομοίως, μπορείτε να εγκαταστήσετε μια βιβλιοθήκη απευθείας από το GitHub.

# Install a GitHub library. 

install_github("jtilly/matchingR")

Προς το παρόν, οι παρακάτω devtools συναρτήσεις υποστηρίζονται στο Microsoft Fabric:

Εντολή Περιγραφή
install_github() Εγκαθιστά ένα πακέτο R από το GitHub
install_gitlab() Εγκαθιστά ένα πακέτο R από το GitLab
install_bitbucket() Εγκαθιστά ένα πακέτο R από το BitBucket
install_url() Εγκαθιστά ένα πακέτο R από μια αυθαίρετη διεύθυνση URL
install_git() Εγκαταστάσεις από ένα αυθαίρετο αποθετήριο Git
install_local() Εγκατάσταση από τοπικό αρχείο στον δίσκο
install_version() Εγκαθίσταται από μια συγκεκριμένη έκδοση στο CRAN

Εγκατάσταση προσαρμοσμένων βιβλιοθηκών R

Για να χρησιμοποιήσετε μια προσαρμοσμένη βιβλιοθήκη σε επίπεδο περιόδου λειτουργίας, πρέπει πρώτα να την αποστείλετε σε ένα συνημμένο Lakehouse.

  1. Στην αριστερή πλευρά, επιλέξτε Προσθήκη για να προσθέσετε μια υπάρχουσα λίμνη ή να δημιουργήσετε μια λίμνη.

    Στιγμιότυπο οθόνης του τρόπου προσθήκης μιας λίμνης στο σημειωματάριό σας.

  2. Για να προσθέσετε αρχεία σε αυτό το lakehouse, επιλέξτε τον χώρο εργασίας σας και, στη συνέχεια, επιλέξτε το lakehouse.

    Στιγμιότυπο οθόνης του τρόπου περιήγησης στο lakehouse σας για να προσθέσετε αρχεία.

  3. Κάντε δεξί κλικ ή επιλέξτε "..." δίπλα στην ένδειξη Αρχεία για να αποστείλετε το αρχείο .tar.gz σας.

    Στιγμιότυπο οθόνης του τρόπου αποστολής του αρχείου σας στον φάκελο Lakehouse Files.

  4. Μετά την αποστολή, επιστρέψτε στο σημειωματάριό σας. Χρησιμοποιήστε την ακόλουθη εντολή για να εγκαταστήσετε την προσαρμοσμένη βιβλιοθήκη στην περίοδο λειτουργίας σας:

    install.packages("filepath/filename.tar.gz", repos = NULL, type = "source")
    

Προβολή εγκατεστημένων βιβλιοθηκών

Υποβάλετε ερώτημα για όλες τις βιβλιοθήκες που είναι εγκατεστημένες στην περίοδο λειτουργίας σας, χρησιμοποιώντας την library εντολή .

# query all the libraries installed in current session
library()

Χρησιμοποιήστε τη packageVersion συνάρτηση για να ελέγξετε την έκδοση της βιβλιοθήκης:

# check the package version
packageVersion("caesar")

Κατάργηση πακέτου R από μια περίοδο λειτουργίας

Μπορείτε να χρησιμοποιήσετε τη detach συνάρτηση για να καταργήσετε μια βιβλιοθήκη από τον χώρο ονομάτων. Αυτές οι βιβλιοθήκες παραμένουν στον δίσκο μέχρι να φορτωθούν ξανά.

# detach a library

detach("package: caesar")

Για να καταργήσετε ένα πακέτο περιόδου λειτουργίας από ένα σημειωματάριο, χρησιμοποιήστε την remove.packages() εντολή . Αυτή η αλλαγή βιβλιοθήκης δεν έχει καμία επίδραση σε άλλες περιόδους λειτουργίας στο ίδιο σύμπλεγμα. Οι χρήστες δεν μπορούν να καταργήσουν την εγκατάσταση ή να καταργήσουν ενσωματωμένες βιβλιοθήκες από τον προεπιλεγμένο χρόνο εκτέλεσης Microsoft Fabric.

Σημείωμα

Δεν μπορείτε να καταργήσετε βασικά πακέτα όπως το SparkR, το SparklyR ή το R.

remove.packages("caesar")

Βιβλιοθήκες R εμβέλειας περιόδου λειτουργίας και SparkR

Οι βιβλιοθήκες εμβέλειας σημειωματάριου είναι διαθέσιμες στους εργαζόμενους SparkR.

install.packages("stringr")
library(SparkR)

str_length_function <- function(x) {
  library(stringr)
  str_length(x)
}

docs <- c("Wow, I really like the new light sabers!",
               "That book was excellent.",
               "R is a fantastic language.",
               "The service in this restaurant was miserable.",
               "This is neither positive or negative.")

spark.lapply(docs, str_length_function)

Βιβλιοθήκες R εμβέλειας περιόδου λειτουργίας και sparklyr

Με spark_apply() το sparklyr, μπορείτε να χρησιμοποιήσετε οποιαδήποτε πακέτα R μέσα στο Spark. Από προεπιλογή, στο sparklyr::spark_apply(), το όρισμα packages ορίζει την τιμή FALSE. Αυτό αντιγράφει βιβλιοθήκες στις τρέχουσες βιβλιοθήκες για τους εργαζόμενους, επιτρέποντάς σας να τις εισαγάγετε και να τις χρησιμοποιήσετε σε εργαζόμενους. Για παράδειγμα, μπορείτε να εκτελέσετε τα παρακάτω για να δημιουργήσετε ένα μήνυμα με κρυπτογράφηση caesar με sparklyr::spark_apply():

install.packages("caesar", repos = "https://cran.microsoft.com/snapshot/2021-07-16/")

spark_version <- sparkR.version()
config <- spark_config()
sc <- spark_connect(master = "yarn", version = spark_version, spark_home = "/opt/spark", config = config)

apply_cases <- function(x) {
  library(caesar)
  caesar("hello world")
}
sdf_len(sc, 5) %>%
  spark_apply(apply_cases, packages=FALSE)

Μάθετε περισσότερα σχετικά με τις λειτουργίες της R: