Κοινή χρήση μέσω


Ενοποίηση OneLake με το Azure HDInsight

Το Azure HDInsight είναι μια διαχειριζόμενη υπηρεσία που βασίζεται στο cloud για μεγάλες αναλύσεις δεδομένων που βοηθά τους οργανισμούς να επεξεργάζονται δεδομένα μεγάλου όγκου. Αυτή η εκμάθηση δείχνει πώς μπορείτε να συνδεθείτε στο OneLake με ένα σημειωματάριο Jupyter από ένα σύμπλεγμα Azure HDInsight.

Χρήση του Azure HDInsight

Για να συνδεθείτε στο OneLake με ένα σημειωματάριο Jupyter από ένα σύμπλεγμα HDInsight:

  1. Δημιουργήστε ένα σύμπλεγμα HDInsight (HDI). Ακολουθήστε αυτές τις οδηγίες: Ρύθμιση συμπλεγμάτων στο HDInsight.

    1. Παρέχοντας πληροφορίες συμπλέγματος, να θυμάστε το Όνομα χρήστη και τον Κωδικό πρόσβασης σύνδεσης συμπλέγματος καθώς τα χρειάζεστε για να αποκτήσετε πρόσβαση στο σύμπλεγμα αργότερα.

    2. Δημιουργία διαχειριζόμενης ταυτότητας (UAMI) στον χρήστη: Δημιουργία για Azure HDInsight - UAMI και επιλέξτε την ως ταυτότητα στην οθόνη Υπηρεσία αποθήκευσης.

      Στιγμιότυπο οθόνης που δείχνει πού μπορείτε να εισαγάγετε τη διαχειριζόμενη ταυτότητα στον χρήστη στην οθόνη Υπηρεσία αποθήκευσης.

  2. Εκχωρήστε σε αυτό το UAMI πρόσβαση στον χώρο εργασίας Fabric που περιέχει τα στοιχεία σας. Για βοήθεια σχετικά με τον ρόλο που είναι καλύτερος, ανατρέξτε στο θέμα Ρόλοι χώρου εργασίας.

    Στιγμιότυπο οθόνης που εμφανίζει πού μπορείτε να επιλέξετε ένα στοιχείο στον πίνακα Διαχείριση πρόσβασης.

  3. Μεταβείτε στο lakehouse σας και βρείτε το όνομα για τον χώρο εργασίας και το lakehouse σας. Μπορείτε να τις βρείτε στη διεύθυνση URL του lakehouse ή στο τμήμα παραθύρου Ιδιότητες για ένα αρχείο.

  4. Στην πύλη Azure, αναζητήστε το σύμπλεγμα και επιλέξτε το σημειωματάριο.

    Στιγμιότυπο οθόνης που εμφανίζει πού μπορείτε να βρείτε το σύμπλεγμα και το σημειωματάριό σας στην πύλη Azure.

  5. Εισαγάγετε τις πληροφορίες διαπιστευτηρίων που παρείχατε κατά τη δημιουργία του συμπλέγματος.

    Στιγμιότυπο οθόνης που δείχνει πού μπορείτε να εισαγάγετε τις πληροφορίες διαπιστευτηρίων σας.

  6. Δημιουργήστε ένα νέο σημειωματάριο Spark.

  7. Αντιγράψτε τα ονόματα χώρου εργασίας και lakehouse στο σημειωματάριό σας και δημιουργήστε τη διεύθυνση URL OneLake για το lakehouse σας. Τώρα μπορείτε να διαβάσετε οποιοδήποτε αρχείο από αυτή τη διαδρομή αρχείου.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Δοκιμάστε να γράψετε ορισμένα δεδομένα στο lakehouse.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Ελέγξτε ότι τα δεδομένα σας γράφτηκαν με επιτυχία ελέγχοντας το lakehouse ή διαβάζοντας το αρχείο που μόλις φορτώστηκε.

Μπορείτε πλέον να διαβάζετε και να γράφετε δεδομένα στο OneLake χρησιμοποιώντας το σημειωματάριό σας Jupyter σε ένα σύμπλεγμα HDI Spark.