Muestreo de alta densidad en los gráficos de dispersión de Power BIHigh density sampling in Power BI scatter charts

Desde la versión de septiembre de 2017 de Power BI Desktop y las actualizaciones del servicio Power BI, hay disponible un nuevo algoritmo de muestreo que mejora cómo se representan los datos de alta densidad en los gráficos de dispersión.Beginning with the September 2017 release of the Power BI Desktop and updates to the Power BI service, a new sampling algorithm is available that improves how scatter charts represent high density data.

Por ejemplo, podría crear un gráfico de dispersión de la actividad de ventas de la organización, cada almacén con decenas de miles de puntos de datos de cada año.For example, you might create a scatter chart from your organization's sales activity, each store having tens of thousands of data points each year. Un gráfico de dispersión de dicha información realizará un muestreo de los datos (seleccionando una representación significativa de los datos para ilustrar cómo se producen las ventas a través del tiempo) a partir de los datos disponibles y creará un gráfico de dispersión que representa los datos subyacentes.A scatter chart of such information would sample data (select a meaningful representation of that data, to illustrate how sales occurred over time) from the available data, and create a scatter chart that represents the underlying data. Esta es una práctica común en los gráficos de dispersión de alta densidad y Power BI ha mejorado el muestreo de datos de alta densidad, cuyos detalles se describen en este artículo.This is common practice in high density scatter charts, and Power BI has improved its sampling of high density data, the details of which are described in this article.

Nota

El algoritmo de muestreo de alta densidad que se describe en este artículo se aplica y está disponible en los gráficos de dispersión, tanto en Power BI Desktop como en el servicio Power BI.The high density sampling algorithm described in this article applies to, and is available in, scatter charts in both Power BI Desktop and the Power BI service.

Modo de funcionamiento de los gráficos de dispersión de alta densidadHow high density scatter charts work

Anteriormente, Power BI seleccionaba una colección de puntos de datos de muestra en el intervalo completo de datos subyacentes de manera determinista para crear un gráfico de dispersión.Previously, Power BI selected a collection of sample data points in the full range of underlying data in a deterministic fashion to create a scatter chart. En concreto, Power BI seleccionaría la primera y última fila de datos de la serie del gráfico de dispersión y a continuación dividiría las filas restantes uniformemente para representar un total de 3500 puntos de datos en el gráfico de dispersión.Specifically, Power BI would select the first and last rows of data in the scatter chart series, then would divide the remaining rows evenly so that 3,500 data points total would be plotted on the scatter chart. Por ejemplo, si la muestra tenía 35 000 filas, se seleccionarán la primera y la última fila para trazar, y se trazaría cada décima fila (35 000/10 = cada décima fila = 3500 puntos de datos).For example, if the sample had 35,000 rows, then the first and last rows would be selected for plotting, then every tenth row would also be plotted (35,000 / 10 = every tenth row = 3,500 data points). Anteriormente, los valores NULL o los puntos que no se podían trazar (por ejemplo, los valores de texto) de la serie de datos no se mostraban y, por tanto, no se tenían en cuenta al generar el objeto visual.Also previously, null values or points that could not be plotted (such as text values) in data series weren't shown, and thus were not considered when generating the visual. Con este tipo de muestreo, la densidad percibida del gráfico de dispersión también se basaba en los puntos de datos representativos y, por tanto, la densidad visual implícita era una circunstancia de los puntos de la muestra y no de la colección completa de los datos subyacentes.And with such sampling, the perceived density of the scatter chart was also based on the representative data points, and thus the implied visual density was a circumstance of the sampled points, and not the full collection of the underlying data.

Cuando se habilita el muestreo de alta densidad, Power BI implementa un algoritmo que elimina los puntos que se superponen y se asegura de que se puedan alcanzar los puntos del objeto visual al interactuar con el mismo.When you enable High Density Sampling, Power BI implements an algorithm that eliminates overlapping points, and ensures that the points on the visual can be reached when interacting with the visual. También se asegura de que todos los puntos del conjunto de datos se representan en el objeto visual, lo que proporciona contexto para el significado de los puntos seleccionados, en lugar de simplemente trazar una muestra representativa.It also ensures that all points in data set are represented in the visual, providing context to the meaning of selected points, rather than just plotting a representative sample.

Por definición, los datos de alta densidad se muestrean para crear visualizaciones de forma razonablemente rápida y que respondan a la interactividad (si hay demasiados puntos de datos en un objeto visual, este puede bloquearse y la visibilidad de las tendencias puede quedar limitada).By definition, high density data is sampled to enable visualizations that can be created reasonably quickly, and are responsive to interactivity (too many data points on a visual can bog it down, and can detract from the visibility of trends). La forma en la que se muestrean los datos para proporcionar la mejor experiencia de visualización y asegurarse de que todos los datos están representados es lo que promovió la creación del algoritmo de muestreo.How such data is sampled, to provide the best visualization experience and ensure all data is represented, is what drives the creation of the sampling algorithm. En Power BI, el algoritmo se ha mejorado para proporcionar la mejor combinación de capacidad de respuesta, representación y conservación de los puntos importantes en el conjunto de datos.In Power BI, the algorithm has been improved to provide the best combination of responsiveness, representation, and clear preservation of important points in the overall data set.

Nota

Los gráficos de dispersión que usan el algoritmo de muestreo de alta densidad se trazan mejor en objetos visuales cuadrados, al igual que ocurre con todos los gráficos de dispersión.Scatter charts using the high density sampling algorithm are best plotted on square visuals, as with all scatter charts.

Modo de funcionamiento del nuevo algoritmo de muestreo de gráficos de dispersiónHow the new scatter chart sampling algorithm works

El nuevo algoritmo de muestreo de alta densidad para gráficos de dispersión emplea métodos que capturan y representan los datos subyacentes de forma más eficaz y elimina los puntos que se superponen.The new algorithm for High Density Sampling for scatter charts employs methods that capture and represent the underlying data more effectively, and eliminate overlapping points. Lo hace comenzando con un radio pequeño para cada punto de datos (el tamaño del círculo visual de un punto dado en la visualización).It does this by starting with a small radius for each data point (the visual circle size for a given point on the visualization). A continuación, aumenta el radio de todos los puntos de datos; cuando se superponen dos (o más) puntos de datos, un círculo único (con el tamaño del radio aumentado) representa los puntos de datos superpuestos.It then increases the radius of all data points; when two (or more) data points overlap, a single circle (of the increased radius size) represents those overlapped data points. El algoritmo continúa aumentando el radio de los puntos de datos hasta que dicho valor del radio da como resultado un número razonable de puntos de datos (3500) para mostrar en el gráfico de dispersión.The algorithm continues to increase the radius of data points, until that radius value results in a reasonable number of data points - 3,500 - being displayed in the scatter chart.

Los métodos de este algoritmo garantizan que los valores atípicos se representarán en el objeto visual resultante.The methods in this algorithm ensure that outliers are represented in the resulting visual. El algoritmo también respeta la escala a la hora de determinar la superposición, de modo que se visualicen las escalas exponenciales con fidelidad en los puntos visualizados subyacentes.The algorithm respects scale when determining overlap, too, such that exponential scales are visualized with fidelity to the underlying visualized points.

El algoritmo también conserva la forma general del gráfico de dispersión.The algorithm also preserves the overall shape of the scatter chart.

Nota

Cuando se usa el algoritmo de muestreo de alta densidad para gráficos de dispersión, la distribución precisa de los datos es el objetivo y la densidad visual implícita no es el objetivo.When using the High Density Sampling algorithm for scatter charts, accurate distribution of the data is the goal, and implied visual density is not the goal. Por ejemplo, podría ver un gráfico de dispersión con una gran cantidad de círculos que se superponen (densidad) en un área concreta e imaginar que muchos puntos de datos deben estar agrupados ahí; puesto que el algoritmo de muestreo de alta densidad puede usar un círculo para representar muchos puntos de datos, tal densidad visual implícita (o "agrupación") no se mostrará.For example, you might see a scatter chart with lots of circles that overlap (density) in a certain area, and imagine many data points must be clustered there; since the High Density Sampling algorithm can use one circle to represent many data points, such implied visual density (or "clustering") will not show up. Para obtener más detalles de una zona determinada, puede utilizar controles deslizantes para acercar la vista.To get more detail in a given area, you can use slicers to zoom in.

Además, se omiten los puntos de datos que no se pueden trazar (por ejemplo, los valores NULL o valores de texto), por lo que se selecciona otro valor que se puede trazar para garantizar aún más que la forma real del gráfico de dispersión se mantenga.In addition, data points that cannot be plotted (such as nulls or text values) are ignored, so another value that can be plotted is selected, further ensuring the true shape of the scatter chart is maintained.

Cuándo se usa el algoritmo estándar para los gráficos de dispersiónWhen the standard algorithm for scatter charts is used

Hay circunstancias en las que el muestreo de alta densidad no se puede aplicar a un gráfico de dispersión y se utiliza el algoritmo original.There are circumstances under which High Density Sampling cannot be applied to a scatter chart, and the original algorithm is used. Dichas circunstancias son las siguientes:Those circumstances are the following:

  • Si hace clic con el botón derecho en Detalles y, a continuación, selecciona Mostrar elementos sin datos en el menú que aparece, el gráfico de dispersión volverá al algoritmo original.If you right-click on Details, then select Show items with no data from the menu that appears, the scatter chart will revert to the original algorithm.

  • Cualquier valor en el eje Reproducir dará como resultado que el gráfico de dispersión vuelva al algoritmo original.Any values in the Play axis will result in the scatter chart reverting to the original algorithm.
  • Si faltan los ejes X e Y en un gráfico de dispersión, el gráfico vuelve al algoritmo original.If both X and Y axes are missing on a scatter chart, the chart reverts to the original algorithm.
  • El uso de una línea de relación en el panel Análisis hace que el gráfico se revierte al algoritmo original.Using a Ratio line in the Analytics pane results in the chart reverting to the original algorithm.

Activación del muestreo de alta densidad para un gráfico de dispersiónHow to turn on high density sampling for a scatter chart

Para activar el muestreo de alta densidad, seleccione un gráfico de dispersión y, a continuación, vaya al panel Formato y expanda la tarjeta General.To turn on High Density Sampling, select a scatter chart and then go to the Formatting pane, and expand the General card. En la parte inferior de la tarjeta, hay disponible un control deslizante de alternancia llamado Muestreo de alta densidad.Near the bottom of that card, a toggle slider called High Density Sampling is available. Para activarlo, deslícelo hasta Activado.To turn it on, slide it to On.

Nota

Una vez que el control deslizante está activado, Power BI intentará usar el algoritmo de muestreo de alta densidad siempre que sea posible.Once the slider is turned on, Power BI will attempt to use the High Density Sampling algorithm whenever possible. Cuando el algoritmo no se puede usar (por ejemplo, si se coloca un valor en el eje Reproducir), el control deslizante permanece en la posición Activado aunque el gráfico se haya revertido al algoritmo estándar.When the algorithm cannot be used (for example, you place a value in the Play axis), the slider stays in the On position even though the chart has reverted to the standard algorithm. Si después quita un valor del eje Reproducir (o cambian las condiciones para habilitar el uso del algoritmo de muestreo de alta densidad), como el control deslizante está activado, el gráfico utilizará automáticamente el muestreo de alta densidad para ese gráfico.If you then remove a value from the Play axis (or conditions change to enable use of the high density sampling algorithm), since the slider is on the chart will automatically use high density sampling for that chart.

Nota

Los puntos de datos se agrupan o seleccionan por el índice.Data points are grouped and/or selected by the index. Tener una leyenda no afecta al muestreo para el algoritmo, solo afecta a la ordenación del objeto visual.Having a legend does not affect sampling for the algorithm, it only affects the ordering of the visual.

Consideraciones y limitacionesConsiderations and limitations

El algoritmo de muestreo de alta densidad es una mejora importante en Power BI, pero hay algunas consideraciones que debe conocer a la hora de trabajar con valores de alta densidad y gráficos de dispersión.The high density sampling algorithm is an important improvement to Power BI, but there are a few considerations you need to know when working with high density values and scatter charts.

  • El algoritmo Muestreo de alta densidad solo funciona con conexiones dinámicas a modelos basados en el servicio Power BI, modelos importados o DirectQuery.The High Density Sampling algorithm only works with live connections to Power BI service-based models, imported models, or DirectQuery.

Pasos siguientesNext steps

Para más información sobre el muestreo de alta densidad en otros tipos de gráficos, consulte el artículo siguiente.For more information about high density sampling in other charts, see the following article.