Share via


Δειγματοληψία υψηλής πυκνότητας σε γραφήματα διασποράς του Power BI

Ο αλγόριθμος δειγματοληψίας Power BI βελτιώνει τον τρόπο με τον οποίο τα γραφήματα διασποράς αναπαριστούν δεδομένα υψηλής πυκνότητας.

Για παράδειγμα, μπορείτε να δημιουργήσετε ένα γράφημα διασποράς από τη δραστηριότητα πωλήσεων του οργανισμού σας, με κάθε κατάστημα να έχει δεκάδες χιλιάδες σημεία δεδομένων κάθε χρόνο. Ένα γράφημα διασποράς με αυτές τις πληροφορίες θα έκανε δειγματοληψία από μια χαρακτηριστική αναπαράσταση των δεδομένων, προκειμένου να δείξει πώς πραγματοποιήθηκαν οι πωλήσεις στη διάρκεια του χρόνου. Οι λεπτομέρειες της δειγματοληψίας δεδομένων υψηλής πυκνότητας περιγράφονται σε αυτό το άρθρο.

Screenshot of a scatter chart, showing the high-density sampling data.

Σημείωμα

Ο αλγόριθμος δειγματοληψίας υψηλής πυκνότητας που περιγράφεται σε αυτό το άρθρο είναι διαθέσιμος στα γραφήματα διασποράς τόσο για το Power BI Desktop όσο και για το Υπηρεσία Power BI.

Πώς λειτουργούν τα γραφήματα διασποράς υψηλής πυκνότητας

Στο παρελθόν, το Power BI επέλεξε μια συλλογή δειγμάτων σημείων δεδομένων από όλο το εύρος των υποκείμενων δεδομένων με αιτιοκρατικό τρόπο για να δημιουργήσει ένα γράφημα διασποράς. Συγκεκριμένα, το Power BI επλέγει την πρώτη και την τελευταία γραμμή δεδομένων στη σειρά γραφημάτων διασποράς και, στη συνέχεια, διαιρεί τις υπόλοιπες γραμμές ομοιόμορφα, έτσι ώστε να σχεδιαστούν συνολικά 3.500 σημεία δεδομένων στο γράφημα διασποράς. Για παράδειγμα, εάν το δείγμα είχε 35.000 γραμμές, θα επιλεχθεί η πρώτη και η τελευταία γραμμή για τη σχεδίαση, τότε θα σχεδιάζατε επίσης κάθε δέκατη γραμμή (35.000 / 10 = κάθε δέκατη γραμμή = 3.500 σημεία δεδομένων). Επίσης στο παρελθόν, οι τιμές null ή τα σημεία που δεν ήταν δυνατό να σχεδιαστούν, όπως οι τιμές κειμένου, στις σειρές δεδομένων δεν εμφανίζονταν και έτσι δεν λαμβάνονταν υπόψη κατά τη δημιουργία της απεικόνισης. Με αυτή τη δειγματοληψία, η εκλαμβανόμενη πυκνότητα του γραφήματος διασποράς βασιζόταν επίσης στα αντιπροσωπευτικά σημεία δεδομένων, συνεπώς η υπονοούμενη οπτική πυκνότητα ήταν αποτέλεσμα των σημείων δειγματοληψίας και όχι της πλήρους συλλογής των υποκείμενων δεδομένων.

Όταν ενεργοποιείτε τη δειγματοληψία υψηλής πυκνότητας, το Power BI εφαρμόζει έναν αλγόριθμο που εξαλείφει τα επικαλυπτόμενα σημεία και εξασφαλίζει ότι τα σημεία της απεικόνισης είναι προσβάσιμα κατά την αλληλεπίδραση με την απεικόνιση. Ο αλγόριθμος επίσης εξασφαλίζει ότι όλα τα σημεία του συνόλου δεδομένων απεικονίζονται στην απεικόνιση, παρέχοντας το περιβάλλον για τη σημασία των επιλεγμένων σημείων, αντί να σχεδιάζει απλώς ένα αντιπροσωπευτικό δείγμα.

Εξ ορισμού, η δειγματοληψία δεδομένων υψηλής πυκνότητας γίνεται για τη δημιουργία απεικονίσεων που ανταποκρίνονται στην αλληλεπίδραση. Η ύπαρξη πάρα πολλών σημείων δεδομένων σε μια απεικόνιση μπορεί να την επιβραδύνει και να αποσπά την προσοχή από τις τάσεις. Ο τρόπος δειγματοληψίας των δεδομένων κατευθύνει τη δημιουργία του αλγόριθμου δειγματοληψίας ώστε να παρέχεται η καλύτερη εμπειρία απεικόνισης και να εξασφαλίζεται η αναπαράσταση όλων των δεδομένων. Στο Power BI, ο αλγόριθμος είναι βελτιωμένος για να παρέχει τον καλύτερο συνδυασμό ανταπόκρισης, απεικόνισης και σαφούς διατήρησης των σημαντικών σημείων από όλο το σύνολο δεδομένων.

Σημείωμα

Τα γραφήματα διασποράς που χρησιμοποιούν δειγματοληψία υψηλής πυκνότητας σχεδιάζονται καλύτερα σε τετράγωνες απεικονίσεις, όπως συμβαίνει με όλα τα γραφήματα διασποράς.

Πώς λειτουργεί ο αλγόριθμος δειγματοληψίας γραφήματος διασποράς

Ο αλγόριθμος δειγματοληψίας υψηλής πυκνότητας για γραφήματα διασποράς χρησιμοποιεί μεθόδους που καταγράφουν και αναπαριστούν τα υποκείμενα δεδομένα πιο αποτελεσματικά, αλλά και εξαλείφει τα επικαλυπτόμενα σημεία. Ο αλγόριθμος ξεκινά με μια μικρή ακτίνα για κάθε σημείο δεδομένων, η οποία είναι το μέγεθος του κύκλου απεικόνισης για ένα δεδομένο σημείο της απεικόνισης. Στη συνέχεια, αυξάνει την ακτίνα όλων των σημείων δεδομένων. Όταν δύο ή περισσότερα σημεία δεδομένων επικαλύπτονται, ένας μόνο κύκλος με αυξημένο μέγεθος ακτίνας αντιπροσωπεύει αυτά τα επικαλυπτόμενα σημεία δεδομένων. Ο αλγόριθμος συνεχίζει να αυξάνει την ακτίνα των σημείων δεδομένων μέχρι αυτή η τιμή ακτίνας να έχει ως αποτέλεσμα την εμφάνιση ενός εύλογου αριθμού σημείων δεδομένων (3.500) στο γράφημα διασποράς.

Οι μέθοδοι σε αυτόν τον αλγόριθμο εξασφαλίζουν ότι οι ακραίες τιμές απεικονίζονται στην απεικόνιση που προκύπτει. Ο αλγόριθμος τηρεί επίσης την κλίμακα κατά τον καθορισμό της επικάλυψης, έτσι ώστε οι εκθειακές κλίμακες να απεικονίζονται με πιστότητα στα υποκείμενα απεικονοποιημένα σημεία.

Ο αλγόριθμος διατηρεί επίσης το συνολικό σχήμα του γραφήματος διασποράς.

Σημείωμα

Όταν χρησιμοποιείτε τον αλγόριθμο δειγματοληψίας υψηλής πυκνότητας για γραφήματα διασποράς, στόχος είναι η ακριβής κατανομή των δεδομένων, όχι η υπονοούμενη οπτική πυκνότητα. Για παράδειγμα, μπορεί να δείτε ένα γράφημα διασποράς με πολλούς κύκλους που επικαλύπτονται (πυκνότητα) σε μια συγκεκριμένη περιοχή και να φαντάζεστε ότι πρέπει να είναι πολλά σημεία δεδομένων συγκεντρωμένα εκεί. Δεδομένου ότι ο αλγόριθμος δειγματοληψίας υψηλής πυκνότητας μπορεί να χρησιμοποιήσει έναν κύκλο για την αναπαράσταση πολλών σημείων δεδομένων, δεν θα εμφανίζεται τέτοια υπονοούμενη οπτική πυκνότητα ή "σύμπλεγμα". Για να δείτε περισσότερες λεπτομέρειες σε μια δεδομένη περιοχή, μπορείτε να χρησιμοποιήσετε αναλυτές για μεγέθυνση.

Επιπλέον, τα σημεία δεδομένων που δεν είναι δυνατό να σχεδιαστούν, όπως τιμές null ή τιμές κειμένου, παραβλέπονται, επομένως επιλέγεται μια άλλη τιμή που μπορεί να σχεδιαστεί. Αυτό εξασφαλίζει περαιτέρω ότι διατηρείται το πραγματικό σχήμα του γραφήματος διασποράς.

Πότε χρησιμοποιείται ο τυπικός αλγόριθμος για τα γραφήματα διασποράς

Υπάρχουν περιστάσεις κατά τις οποίες δεν είναι δυνατή η εφαρμογή δειγματοληψίας υψηλής πυκνότητας σε ένα γράφημα διασποράς και χρησιμοποιείται ο αρχικός αλγόριθμος. Οι περιστάσεις αυτές είναι οι εξής:

  • Εάν κάνετε δεξί κλικ σε μια τιμή στην περιοχή Τιμές και την ορίσετε σε Εμφάνιση στοιχείων χωρίς δεδομένα από το μενού, το γράφημα διασποράς θα επιστρέψει στον αρχικό αλγόριθμο.

    Screenshot of the Visualization menu, showing the Values pane with Show items with no data selection.

  • Οποιεσδήποτε τιμές στο πεδίο Άξονας αναπαραγωγής θα έχουν ως αποτέλεσμα το γράφημα διασποράς να επιστρέψει στον αρχικό αλγόριθμο.

  • Εάν λείπουν και οι δύο άξονες X και Y σε ένα γράφημα διασποράς, το γράφημα επανέρχεται στον αρχικό αλγόριθμο.

  • Η χρήση μιας γραμμής αναλογίας στο τμήμα παραθύρου Ανάλυση έχει ως αποτέλεσμα το γράφημα να επιστρέψει στον αρχικό αλγόριθμο.

    Screenshot of the Visualization menu, showing a pointer to the Analytics pane and Ratio line.

Πώς μπορείτε να ενεργοποιήσετε τη δειγματοληψία υψηλής πυκνότητας για ένα γράφημα διασποράς

Για να αλλάξετε τη δειγματοληψία υψηλής πυκνότητας σε Ενεργό, επιλέξτε ένα γράφημα διασποράς, μεταβείτε στο τμήμα παραθύρου Μορφοποίηση απεικόνισης , αναπτύξτε την κάρτα Γενικά και, κοντά στο κάτω μέρος της κάρτας, σύρετε το ρυθμιστικό δειγματοληψίας υψηλής πυκνότητας στη θέση Ενεργό.

Screenshot of the Visualization menu, showing a pointer to the Format visual pane, General card, and High Density Sampling toggle slider.

Σημείωμα

Αφού ενεργοποιηθεί ο διακόπτης, το Power BI θα επιχειρεί να χρησιμοποιήσει τον αλγόριθμο δειγματοληψίας υψηλής πυκνότητας όποτε αυτό είναι εφικτό. Όταν δεν είναι δυνατή η χρήση του αλγόριθμου, όπως όταν τοποθετείτε μια τιμή στον άξονα Αναπαραγωγή , ο διακόπτης παραμένει ενεργός ακόμη και αν το γράφημα έχει επανέλθει στον τυπικό αλγόριθμο. Εάν, στη συνέχεια, καταργήσετε μια τιμή από τον άξονα Αναπαραγωγή ή εάν αλλάξουν οι συνθήκες που επιτρέπουν τη χρήση του αλγόριθμου δειγματοληψίας υψηλής πυκνότητας, το γράφημα θα χρησιμοποιήσει αυτόματα δειγματοληψία υψηλής πυκνότητας για αυτό το γράφημα, επειδή η δυνατότητα είναι ενεργή.

Σημείωμα

Τα σημεία δεδομένων ομαδοποιούνται ή επιλέγονται βάσει του ευρετηρίου. Η ύπαρξη υπομνήματος δεν επηρεάζει τη δειγματοληψία για τον αλγόριθμο. Επηρεάζει μόνο την ταξινόμηση της απεικόνισης.

Ζητήματα προς εξέταση και περιορισμοί

Ο αλγόριθμος δειγματοληψίας υψηλής πυκνότητας αποτελεί σημαντική βελτίωση στο Power BI. Ωστόσο, ο αλγόριθμος δειγματοληψίας υψηλής πυκνότητας λειτουργεί μόνο με δυναμικές συνδέσεις σε μοντέλα που βασίζονται σε Υπηρεσία Power BI, μοντέλα που έχουν εισαχθεί ή DirectQuery.