Échantillonnage à haute densité dans les nuages de points de Power BIHigh density sampling in Power BI scatter charts

Depuis la publication en juin 2017 de Power BI Desktop et des mises à jour du service Power BI, un nouvel algorithme d’échantillonnage est disponible, qui améliore les visuels qui échantillonnent des données à haute densité.Beginning with the September 2017 release of the Power BI Desktop and updates to the Power BI service, a new sampling algorithm is available that improves how scatter charts represent high density data.

Par exemple, vous pouvez créer un nuage de points à partir de l’activité de ventes de votre organisation, chaque magasin ayant des dizaines de milliers de points de données chaque année.For example, you might create a scatter chart from your organization's sales activity, each store having tens of thousands of data points each year. Un nuages de points formé à partir de telles informations constitue un échantillonnage (sélectionnez une représentation explicite de ces données pour illustrer la manière dont les ventes ont évolué au fil du temps) représentatif des données disponibles sous-jacentes.A scatter chart of such information would sample data (select a meaningful representation of that data, to illustrate how sales occurred over time) from the available data, and create a scatter chart that represents the underlying data. Il s’agit d’une pratique courante dans les nuages de points à haute densité, et Power BI Desktop a amélioré son échantillonnage des données à haute densité comme décrit en détail dans cet article.This is common practice in high density scatter charts, and Power BI has improved its sampling of high density data, the details of which are described in this article.

Note

L’algorithme d’échantillonnage à haute densité décrit dans cet article s’applique aux nuages de points de Power BI Desktop et du service Power BI, et est disponible dans les deux.The high density sampling algorithm described in this article applies to, and is available in, scatter charts in both Power BI Desktop and the Power BI service.

Fonctionnement des nuages de points à haute densitéHow high density scatter charts work

Auparavant, Power BI sélectionnait une collection de points de données échantillons dans la plage complète des données sous-jacentes de manière déterministe afin de créer un nuage de points.Previously, Power BI selected a collection of sample data points in the full range of underlying data in a deterministic fashion to create a scatter chart. Plus précisément, Power BI sélectionnait les première et dernière lignes de données dans la série utilisée pour produire le nuage de points, puis divisait uniformément les lignes restantes de façon à ce que 3 500 points de données au total soient représentés sur le nuage de points.Specifically, Power BI would select the first and last rows of data in the scatter chart series, then would divide the remaining rows evenly so that 3,500 data points total would be plotted on the scatter chart. Par exemple, si l’échantillon comptait 35 000 lignes, les première et dernière lignes étaient sélectionnées pour le traçage, puis chaque dixième ligne était également tracée (35 000 / 10 = chaque dixième ligne = 3 500 points de données).For example, if the sample had 35,000 rows, then the first and last rows would be selected for plotting, then every tenth row would also be plotted (35,000 / 10 = every tenth row = 3,500 data points). Toujours auparavant, les valeurs ou points Null qui ne pouvaient pas être tracés (par exemple, les valeurs de texte) dans une série de données n’étaient pas affichés et donc ignorés lors de la génération du visuel.Also previously, null values or points that could not be plotted (such as text values) in data series weren't shown, and thus were not considered when generating the visual. Avec ce type d’échantillonnage, la densité perçue du nuage de points était également basée sur les points de données représentatifs, de sorte que la densité du visuel obtenu dépendait des points échantillonnés, et non de la collection complète des données sous-jacentes.And with such sampling, the perceived density of the scatter chart was also based on the representative data points, and thus the implied visual density was a circumstance of the sampled points, and not the full collection of the underlying data.

Lorsque vous activez l’option Échantillonnage à haute densité, Power BI implémente un algorithme qui élimine les points qui se chevauchent, garantissant ainsi que les points du visuel sont accessibles lors de l’interaction avec celui-ci.When you enable High Density Sampling, Power BI implements an algorithm that eliminates overlapping points, and ensures that the points on the visual can be reached when interacting with the visual. Cela garantit également que tous les points du jeu de données sont représentés dans le visuel, ce qui fournit un contexte pour comprendre la signification des points sélectionnés, plutôt qu’un simple tracé d’un échantillon représentatif.It also ensures that all points in data set are represented in the visual, providing context to the meaning of selected points, rather than just plotting a representative sample.

Par définition, les données à haute densité sont échantillonnées pour permettre une génération rapide de visualisations interactives (un trop grand nombre de points de données sur un visuel pouvant ralentir l’affichage de celui-ci et nuire à la lisibilité des tendances).By definition, high density data is sampled to enable visualizations that can be created reasonably quickly, and are responsive to interactivity (too many data points on a visual can bog it down, and can detract from the visibility of trends). L’algorithme d’échantillonnage dépend de la manière dont ces données sont échantillonnées afin d’offrir une expérience de visualisation optimale et de garantir que toutes les données sont représentées.How such data is sampled, to provide the best visualization experience and ensure all data is represented, is what drives the creation of the sampling algorithm. Dans Power BI, l’algorithme a été amélioré afin de fournir une combinaison optimale de réactivité, de représentation et de préservation claire des points importants du jeu de données.In Power BI, the algorithm has been improved to provide the best combination of responsiveness, representation, and clear preservation of important points in the overall data set.

Note

Les nuages de points basés sur un échantillonnage à haute densité sont tracés de façon optimale sur des visuels carrés, comme c’est le cas de tous les nuages de points.Scatter charts using the high density sampling algorithm are best plotted on square visuals, as with all scatter charts.

Fonctionnement du nouvel algorithme d’échantillonnage de nuage de pointsHow the new scatter chart sampling algorithm works

Le nouvel algorithme d’Échantillonnage à haute densité utilisé pour la génération des nuages de points emploie des méthodes qui capturent et représentent les données sous-jacentes plus efficacement, et éliminent les points qui se chevauchent.The new algorithm for High Density Sampling for scatter charts employs methods that capture and represent the underlying data more effectively, and eliminate overlapping points. Pour cela, il commence par un petit rayon pour chaque point de données (taille de cercle du visuel pour un point donné sur la visualisation).It does this by starting with a small radius for each data point (the visual circle size for a given point on the visualization). Il augmente ensuite le rayon de tous les points de données. En cas de chevauchement de points de données, un cercle unique (de la taille de rayon accrue) représente les points de données qui se chevauchent.It then increases the radius of all data points; when two (or more) data points overlap, a single circle (of the increased radius size) represents those overlapped data points. L’algorithme continue d’augmenter le rayon des points de données, jusqu’à ce que la taille de celui-ci permette d’afficher à un nombre raisonnable de points de données (3 500) dans le nuage de points.The algorithm continues to increase the radius of data points, until that radius value results in a reasonable number of data points - 3,500 - being displayed in the scatter chart.

Les méthodes utilisées dans cet algorithme veillent que les valeurs hors norme soient représentées dans le visuel final.The methods in this algorithm ensure that outliers are represented in the resulting visual. L’algorithme respecte également l’échelle lors de la détermination du chevauchement. Par exemple, les échelles exponentielles reflètent fidèlement les points de données sous-jacents visualisés.The algorithm respects scale when determining overlap, too, such that exponential scales are visualized with fidelity to the underlying visualized points.

L’algorithme conserve également la forme globale du nuage de points.The algorithm also preserves the overall shape of the scatter chart.

Note

Lorsque vous utilisez l’algorithme d’Échantillonnage à haute densité pour des nuages de points, l’objectif est une distribution précise des données, non la densité du visuel obtenu.When using the High Density Sampling algorithm for scatter charts, accurate distribution of the data is the goal, and implied visual density is not the goal. Par exemple, vous pouvez voir un nuage de points contenant un grand nombre de cercles qui se chevauchent (densité importante) dans une certaine zone, et imaginer que de nombreux points de données y sont agglutinés. Étant donné que l’algorithme d’Échantillonnage à haute densité peut utiliser un seul cercle pour représenter de nombreux points de données, une telle densité (ou « agglutination ») de visuel n’apparaît pas.For example, you might see a scatter chart with lots of circles that overlap (density) in a certain area, and imagine many data points must be clustered there; since the High Density Sampling algorithm can use one circle to represent many data points, such implied visual density (or "clustering") will not show up. Pour afficher plus de détails dans une zone donnée, vous pouvez utiliser des segments pour effectuer un zoom avant.To get more detail in a given area, you can use slicers to zoom in.

Par ailleurs, les points de données qui ne peuvent pas être tracés (par exemple, des valeurs Null ou des valeurs de texte) étant ignorés, une autre valeur traçable est sélectionnée, ce qui garantit la conservation de la forme réelle du nuage de points.In addition, data points that cannot be plotted (such as nulls or text values) are ignored, so another value that can be plotted is selected, further ensuring the true shape of the scatter chart is maintained.

Quand l’algorithme standard est utilisé pour les nuages de pointsWhen the standard algorithm for scatter charts is used

Dans certains circonstances, l’algorithme d’Échantillonnage à haute densité ne peut pas être appliqué à un nuage de points, et l’algorithme d’origine est utilisé.There are circumstances under which High Density Sampling cannot be applied to a scatter chart, and the original algorithm is used. Ces circonstances sont les suivantes :Those circumstances are the following:

  • Si vous cliquez avec le bouton droit sur Détails, puis sélectionnez Afficher les éléments sans données dans le menu qui s’affiche, le nuage de points revient à l’algorithme d’origine.If you right-click on Details, then select Show items with no data from the menu that appears, the scatter chart will revert to the original algorithm.

  • Toute valeur sur l’axe de lecture a pour effet que le nuage de points revient à l’algorithme d’origine.Any values in the Play axis will result in the scatter chart reverting to the original algorithm.
  • Si les deux axes, X et Y, sont manquants sur un nuage de points, le graphique revient à l’algorithme d’origine.If both X and Y axes are missing on a scatter chart, the chart reverts to the original algorithm.
  • L’utilisation de l’option Ligne du ratio dans le volet Analytique a pour effet que le graphique revient à l’algorithme d’origine.Using a Ratio line in the Analytics pane results in the chart reverting to the original algorithm.

Activer l’Échantillonnage à haute densité pour un nuage de pointsHow to turn on high density sampling for a scatter chart

Pour activer l’Échantillonnage à haute densité, sélectionnez un nuage de points, accédez au volet Mise en forme, puis développez la carte Général.To turn on High Density Sampling, select a scatter chart and then go to the Formatting pane, and expand the General card. Au bas de celle-ci, un curseur bascule nommé Échantillonnage à haute densité est disponible.Near the bottom of that card, a toggle slider called High Density Sampling is available. Pour activer celui-ci, faites-le glisser en position Activé.To turn it on, slide it to On.

Note

Une fois le curseur activé, Power BI essaie d’utiliser l’algorithme d’Échantillonnage à haute densité chaque fois que c’est possible.Once the slider is turned on, Power BI will attempt to use the High Density Sampling algorithm whenever possible. Quand l’algorithme est inutilisable (par exemple, vous si placez une valeur sur l’axe de Lecture), le curseur reste en position Activé, même si le graphique a été rétabli sur l’algorithme standard.When the algorithm cannot be used (for example, you place a value in the Play axis), the slider stays in the On position even though the chart has reverted to the standard algorithm. Si vous supprimez ensuite une valeur de l’axe de Lecture (ou si les conditions changent pour permettre l’utilisation de l’algorithme d’échantillonnage à haute densité), le curseur étant activé, le graphique utilise automatiquement l’échantillonnage à haute densité pour ce graphique.If you then remove a value from the Play axis (or conditions change to enable use of the high density sampling algorithm), since the slider is on the chart will automatically use high density sampling for that chart.

Note

Les points de données sont groupés et/ou sélectionnés par l’index.Data points are grouped and/or selected by the index. La présence d’une légende n’affecte pas l’échantillonnage pour l’algorithme, mais uniquement l’ordre du visuel.Having a legend does not affect sampling for the algorithm, it only affects the ordering of the visual.

Considérations et limitationsConsiderations and limitations

L’algorithme d’échantillonnage à haute densité constitue une amélioration importante apportée à Power BI, mais vous n’avez que peu de choses à savoir lorsque vous travaillez avec des valeurs à haute densité et des nuage de points.The high density sampling algorithm is an important improvement to Power BI, but there are a few considerations you need to know when working with high density values and scatter charts.

  • L’algorithme d’Échantillonnage à haute densité fonctionne uniquement avec des connexions actives à des modèles basés sur le service Power BI, à des modèles importés ou à DirectQuery.The High Density Sampling algorithm only works with live connections to Power BI service-based models, imported models, or DirectQuery.

Étapes suivantesNext steps

Pour plus d’informations sur l’échantillonnage à haute densité dans d’autres graphiques, voir l’article suivant.For more information about high density sampling in other charts, see the following article.