Κοινή χρήση μέσω


Πώς μπορείτε να επιταχύνετε την προετοιμασία δεδομένων με το Data Wrangler στο Microsoft Fabric

Το Data Wrangler είναι ένα εργαλείο που βασίζεται σε σημειωματάριο και παρέχει στους χρήστες ένα συναρπαστικό περιβάλλον εργασίας για διερευνητική ανάλυση δεδομένων. Η δυνατότητα συνδυάζει μια εμφάνιση δεδομένων τύπου πλέγματος με δυναμικά συνοπτικά στατιστικά στοιχεία, ενσωματωμένες απεικονίσεις και μια βιβλιοθήκη συνήθων λειτουργιών καθαρισμού δεδομένων. Κάθε λειτουργία μπορεί να εφαρμοστεί σε λίγα κλικ, ενημερώνοντας την εμφάνιση των δεδομένων σε πραγματικό χρόνο και δημιουργώντας κώδικα σε pandas ή PySpark που μπορεί να αποθηκευτεί στο σημειωματάριο ως λειτουργία που μπορεί να επαναχρησιμοποιηθεί. Αυτό το άρθρο εστιάζει στην εξερεύνηση και τον μετασχηματισμό των pandas DataFrames. Μπορείτε να βρείτε οδηγίες για τη χρήση του Data Wrangler στο Spark DataFrames εδώ.

Προαπαιτούμενα στοιχεία

  • Λάβετε μια συνδρομή Microsoft Fabric. Εναλλακτικά, εγγραφείτε για μια δωρεάν δοκιμαστική έκδοση του Microsoft Fabric.

  • Εισέλθετε στο Microsoft Fabric.

  • Χρησιμοποιήστε την εναλλαγή εμπειρίας στην αριστερή πλευρά της αρχικής σελίδας σας για να μεταβείτε στην εμπειρία Synapse Data Science.

    Screenshot of the experience switcher menu, showing where to select Data Science.

Περιορισμοί

  • Το Data Wrangler υποστηρίζει επί του παρόντος τη δημιουργία κώδικα pandas σε γενική διαθεσιμότητα και τη δημιουργία κώδικα Spark σε δημόσια προεπισκόπηση.
  • Οι λειτουργίες προσαρμοσμένου κώδικα υποστηρίζονται προς το παρόν μόνο για pandas DataFrames.
  • Η εμφάνιση του Data Wrangler λειτουργεί καλύτερα σε μεγάλες οθόνες, παρόλο που διαφορετικά τμήματα της διασύνδεσης μπορούν να ελαχιστοποιηθούν ή να κρυφτούν για να χωρέσουν μικρότερες οθόνες.

Εκκίνηση του Data Wrangler

Μπορείτε να εκκινήσετε το Data Wrangler απευθείας από ένα σημειωματάριο Microsoft Fabric για να εξερευνήσετε και να μετασχηματίζετε οποιαδήποτε pandas ή Spark DataFrame. Για μια επισκόπηση της χρήσης του Data Wrangler με το Spark DataFrames, ανατρέξτε σε αυτό το συνοδευτικό άρθρο. Το παρακάτω τμήμα κώδικα δείχνει πώς μπορείτε να διαβάσετε το δείγμα δεδομένων σε ένα dataFrame pandas:

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

Στην καρτέλα "Δεδομένα" της κορδέλας σημειωματάριου, χρησιμοποιήστε την αναπτυσσόμενη γραμμή εντολών Data Wrangler για να περιηγηθείτε στα ενεργά διαθέσιμα DataFrame για επεξεργασία. Επιλέξτε αυτό που θέλετε να ανοίξετε στο Data Wrangler.

Φιλοδώρημα

Δεν είναι δυνατό το άνοιγμα του Data Wrangler, ενώ ο πυρήνας σημειωματάριου είναι απασχολημένος. Ένα κελί εκτέλεσης πρέπει να ολοκληρώσει την εκτέλεσή του πριν την εκκίνηση του Data Wrangler.

Screenshot showing a Fabric notebook with the Data Wrangler dropdown prompt.

Επιλογή προσαρμοσμένων δειγμάτων

Το Data Wrangler σάς επιτρέπει να ανοίξετε ένα προσαρμοσμένο δείγμα οποιουδήποτε ενεργού DataFrame, επιλέγοντας "Επιλογή προσαρμοσμένου δείγματος" από την αναπτυσσόμενη λίστα. Αυτή η ενέργεια εκκινεί ένα αναδυόμενο παράθυρο με επιλογές για τον καθορισμό του μεγέθους του επιθυμητού δείγματος (αριθμός γραμμών) και της μεθόδου δειγματοληψίας (πρώτες εγγραφές, τελευταίες εγγραφές ή ένα τυχαίο σύνολο).

Screenshot showing the Data Wrangler dropdown prompt with the custom sample option outlined.

Screenshot showing the Data Wrangler custom sample prompt.

Προβολή συνοπτικών στατιστικών στοιχείων

Όταν φορτώνει το Data Wrangler, εμφανίζει μια περιγραφική επισκόπηση του επιλεγμένου DataFrame στον πίνακα Σύνοψη. Αυτή η επισκόπηση περιλαμβάνει πληροφορίες σχετικά με τις διαστάσεις του DataFrame, τις τιμές που λείπουν και πολλά άλλα. Η επιλογή οποιασδήποτε στήλης στο πλέγμα διάταξης δεδομένων ζητά από τον πίνακα Σύνοψη να ενημερώσει και να εμφανίσει περιγραφικά στατιστικά στοιχεία σχετικά με τη συγκεκριμένη στήλη. Οι γρήγορες πληροφορίες για κάθε στήλη είναι επίσης διαθέσιμες στην κεφαλίδα της.

Φιλοδώρημα

Τα στατιστικά στοιχεία και οι απεικονίσεις για συγκεκριμένες στήλες (τόσο στον πίνακα Σύνοψη όσο και στις κεφαλίδες στηλών) εξαρτώνται από τον τύπο δεδομένων στήλης. Για παράδειγμα, ένα ιστόγραμμα σε κάδους μιας αριθμητικής στήλης θα εμφανίζεται στην κεφαλίδα στήλης μόνο εάν η στήλη έχει οριστεί ως αριθμητικός τύπος. Χρησιμοποιήστε τον πίνακα Λειτουργίες για αναδιατύπωση τύπων στήλης για την πιο ακριβή εμφάνιση.

Screenshot showing the Data Wrangler display grid and Summary panel.

Περιήγηση σε λειτουργίες καθαρισμού δεδομένων

Μπορείτε να βρείτε μια λίστα με δυνατότητα αναζήτησης των βημάτων καθαρισμού δεδομένων στον πίνακα Λειτουργίες. (Μια μικρότερη επιλογή των ίδιων λειτουργιών είναι διαθέσιμη στο μενού κάθε κεφαλίδας στήλης.) Από τον πίνακα Λειτουργίες, η επιλογή ενός βήματος εκκαθάρισης δεδομένων σάς ζητά να καταχωρήσετε μια στήλη ή στήλες προορισμού, μαζί με τυχόν απαραίτητες παραμέτρους για την ολοκλήρωση του βήματος. Για παράδειγμα, η προτροπή για την κλιμάκωση μιας στήλης απαιτεί αριθμητικά μια νέα περιοχή τιμών.

Screenshot showing the Data Wrangler Operations panel.

Λειτουργίες προεπισκόπησης και εφαρμογής

Τα αποτελέσματα μιας επιλεγμένης λειτουργίας θα γίνει αυτόματα προεπισκόπηση στο εμφανιζόμενο πλέγμα Data Wrangler και ο αντίστοιχος κώδικας θα εμφανιστεί αυτόματα στον πίνακα κάτω από το πλέγμα. Για να υποβάλετε τον κώδικα προεπισκόπησης, επιλέξτε "Εφαρμογή" σε οποιοδήποτε σημείο. Για να απαλλαγείτε από τον κώδικα προεπισκόπησης και να δοκιμάσετε μια νέα λειτουργία, επιλέξτε "Απόρριψη".

Screenshot showing a Data Wrangler operation in progress.

Όταν εφαρμοστεί μια λειτουργία, το Data Wrangler εμφανίζει το πλέγμα και τα συνοπτικά στατιστικά στοιχεία ενημερώνονται ώστε να αντικατοπτρίζουν τα αποτελέσματα. Ο κώδικας εμφανίζεται στη λίστα εκτέλεσης των δεσμευμένων λειτουργιών, που βρίσκεται στον πίνακα Βήματα εκκαθάρισης.

Screenshot showing an applied Data Wrangler operation.

Φιλοδώρημα

Μπορείτε πάντα να αναιρέσετε το πιο πρόσφατο βήμα με το εικονίδιο κάδου απορριμμάτων δίπλα του, το οποίο εμφανίζεται εάν τοποθετήσετε τον δείκτη του ποντικιού επάνω σε αυτό το βήμα στον πίνακα Βήματα εκκαθάρισης.

Screenshot showing a Data Wrangler operation that can be undone.

Ο παρακάτω πίνακας συνοψίζει τις λειτουργίες που υποστηρίζει αυτήν τη στιγμή το Data Wrangler:

Λειτουργία Περιγραφή
Ταξινόμηση Ταξινόμηση στήλης σε αύξουσα ή φθίνουσα σειρά
Φίλτρο Φιλτράρισμα γραμμών βάσει μίας ή περισσότερων συνθηκών
Κωδικοποιητής μίας πρόσβασης Δημιουργήστε νέες στήλες για κάθε μοναδική τιμή σε μια υπάρχουσα στήλη, υποδεικνύοντας την παρουσία ή την απουσία αυτών των τιμών ανά γραμμή
Κωδικοποιητής μίας πρόσβασης με οριοθέτη Διαίρεση και κωδικοποίηση κατηγορικών δεδομένων μίας πρόσβασης με χρήση οριοθέτη
Αλλαγή τύπου στήλης Αλλαγή του τύπου δεδομένων μιας στήλης
Απόθεση στήλης Διαγραφή μίας ή περισσότερων στηλών
Επιλογή στήλης Επιλέξτε μία ή περισσότερες στήλες για διατήρηση και διαγράψτε τις υπόλοιπες
Μετονομασία στήλης Μετονομασία στήλης
Αποθέστε τις τιμές που λείπουν Κατάργηση γραμμών με τιμές που λείπουν
Κατάργηση διπλότυπων γραμμών Κατάργηση όλων των γραμμών που έχουν διπλότυπες τιμές σε μία ή περισσότερες στήλες
Συμπληρώστε τις τιμές που λείπουν Αντικατάσταση κελιών με τιμές που λείπουν με μια νέα τιμή
Εύρεση και αντικατάσταση Αντικατάσταση κελιών με μοτίβο ακριβούς αντιστοίχισης
Ομαδοποίηση κατά στήλη και συγκεντρωτική τιμή Ομαδοποίηση κατά τιμές στήλης και συγκεντρωτικά αποτελέσματα
Κενό διάστημα λωρίδας Κατάργηση κενών διαστημάτων από την αρχή και το τέλος του κειμένου
Διαίρεση κειμένου Διαίρεση μιας στήλης σε πολλές στήλες με βάση έναν οριοθέτη που ορίζεται από τον χρήστη
Μετατροπή κειμένου σε πεζά Μετατροπή κειμένου σε πεζά
Μετατροπή κειμένου σε κεφαλαία Μετατροπή κειμένου σε ΚΕΦΑΛΑΊΑ
Ελάχιστη/μέγιστη κλίμακα τιμών Αλλαγή κλίμακας μιας αριθμητικής στήλης μεταξύ μιας ελάχιστης και μέγιστης τιμής
Γέμισμα flash Αυτόματη δημιουργία νέας στήλης βάσει παραδειγμάτων που προέρχονται από μια υπάρχουσα στήλη

Αποθήκευση και εξαγωγή κώδικα

Η γραμμή εργαλείων πάνω από το πλέγμα εμφάνισης του Data Wrangler παρέχει επιλογές για την αποθήκευση του κώδικα που δημιουργήθηκε. Μπορείτε να αντιγράψετε τον κώδικα στο πρόχειρο ή να τον εξαγάγετε στο σημειωματάριο ως συνάρτηση. Η εξαγωγή του κώδικα κλείνει το Data Wrangler και προσθέτει τη νέα συνάρτηση σε ένα κελί κώδικα στο σημειωματάριο. Μπορείτε επίσης να κάνετε λήψη του εκκαθαρισμένου DataFrame ως αρχείο csv.

Φιλοδώρημα

Ο κώδικας που δημιουργείται από το Data Wrangler δεν θα εφαρμοστεί μέχρι να εκτελέσετε με μη αυτόματο τρόπο το νέο κελί και δεν θα αντικαταστήσει το αρχικό DataFrame.

Screenshot showing the options to export code in Data Wrangler.

Screenshot showing the code generated by Data Wrangler back in the notebook.