Точечные диаграммы с выборкой с высокой плотностью в Power BIHigh density sampling in Power BI scatter charts

Начиная с выпуска Power BI Desktop за сентябрь 2017 года и обновлений службы Power BI доступен новый алгоритм выборки. Он улучшает презентацию данных с высокой плотностью в точечных диаграммах.Beginning with the September 2017 release of the Power BI Desktop and updates to the Power BI service, a new sampling algorithm is available that improves how scatter charts represent high density data.

Например, вы можете создать точечную диаграмму продаж организации, в которой каждый магазин будет иметь десятки тысяч точек данных за каждый год.For example, you might create a scatter chart from your organization's sales activity, each store having tens of thousands of data points each year. Точечная диаграмма будет выбирать данные (выберите информативное представление данных, чтобы показать, тенденцию продаж со временем) из доступных данных, чтобы создать точечную диаграмму, которая представляет базовые данные.A scatter chart of such information would sample data (select a meaningful representation of that data, to illustrate how sales occurred over time) from the available data, and create a scatter chart that represents the underlying data. Это распространенный подход к созданию точечных диаграмм с высокой плотностью. В Power BI улучшена выборка данных с высокой плотностью. Этому и посвящена статья.This is common practice in high density scatter charts, and Power BI has improved its sampling of high density data, the details of which are described in this article.

Примечание

Алгоритм выборки с высокой плотностью, описанный в этой статье, доступен для точечных диаграмм и в Power BI Desktop, и в службе Power BI.The high density sampling algorithm described in this article applies to, and is available in, scatter charts in both Power BI Desktop and the Power BI service.

Как работают точечные диаграммы с высокой плотностьюHow high density scatter charts work

Ранее в Power BI для создания точечной диаграммы выбиралась коллекция точек данных в полном диапазоне базовых данных. Этот выбор основывался на определенных условиях.Previously, Power BI selected a collection of sample data points in the full range of underlying data in a deterministic fashion to create a scatter chart. Например, в Power BI выбирались первая и последняя строки данных в ряде точечных диаграмм. Затем они равномерно разделялись, чтобы на точечной диаграмме поместилось всего 3500 точек данных.Specifically, Power BI would select the first and last rows of data in the scatter chart series, then would divide the remaining rows evenly so that 3,500 data points total would be plotted on the scatter chart. Например, если образец содержал 35000 строк, для отображения выбирались первая и последняя строки, а затем отображалась каждая десятая строка (35000/10 = каждая 10 строка = 3500 точек данных).For example, if the sample had 35,000 rows, then the first and last rows would be selected for plotting, then every tenth row would also be plotted (35,000 / 10 = every tenth row = 3,500 data points). Также ранее значения NULL или точки, которые не могут отображаться (например, текстовые значения) в ряде данных, не отображались, поэтому они не учитывались при создании визуального элемента.Also previously, null values or points that could not be plotted (such as text values) in data series weren't shown, and thus were not considered when generating the visual. В результате такой выборки предполагаемая плотность точечной диаграммы также основывалась на репрезентативных точках данных. Поэтому подразумеваемая плотность визуального элемента была обусловлена выбранными точками, а не полной коллекцией базовых данных.And with such sampling, the perceived density of the scatter chart was also based on the representative data points, and thus the implied visual density was a circumstance of the sampled points, and not the full collection of the underlying data.

При включении выборки с высокой плотностью Power BI реализует алгоритм, который устраняет перекрывающиеся точки и гарантирует, что точки на визуальном элементе будут доступны при взаимодействии с ним.When you enable High Density Sampling, Power BI implements an algorithm that eliminates overlapping points, and ensures that the points on the visual can be reached when interacting with the visual. Этот алгоритм также гарантирует, что все точки в наборе данных представлены в визуальном элементе. Он обеспечивает контекст для значения выбранных точек, а не просто отображает репрезентативную выборку.It also ensures that all points in data set are represented in the visual, providing context to the meaning of selected points, rather than just plotting a representative sample.

По определению выборка данных с высокой плотностью применяется для достаточно быстрого создания интерактивных визуализаций (слишком большое число точек данных в визуальном элементе может затормозить его работу и помешать отображению тенденций).By definition, high density data is sampled to enable visualizations that can be created reasonably quickly, and are responsive to interactivity (too many data points on a visual can bog it down, and can detract from the visibility of trends). Алгоритм выборки зависит от способа выбора данных для эффективной визуализации и отображения всех данных. Для каждого способа создается свой алгоритм.How such data is sampled, to provide the best visualization experience and ensure all data is represented, is what drives the creation of the sampling algorithm. Алгоритм в Power BI был улучшен, чтобы обеспечить наилучшее сочетание времени отклика, представления и сохранения важных точек во всем наборе данных.In Power BI, the algorithm has been improved to provide the best combination of responsiveness, representation, and clear preservation of important points in the overall data set.

Примечание

Точечные диаграммы, использующие алгоритм выборки с высокой плотностью, лучше всего отображаются на квадратных визуальных элементах, как и все остальные точечные диаграммы.Scatter charts using the high density sampling algorithm are best plotted on square visuals, as with all scatter charts.

Как действует новый алгоритм выборки точечных диаграммHow the new scatter chart sampling algorithm works

Новый алгоритм выборки с высокой плотностью для точечных диаграмм использует методы, которые записывают и представляют базовые данные более эффективно, устраняя перекрывающиеся точки.The new algorithm for High Density Sampling for scatter charts employs methods that capture and represent the underlying data more effectively, and eliminate overlapping points. Алгоритм начинает выборку с небольшого радиуса для каждой точки данных (окружность визуального элемента для заданной точки на визуализации).It does this by starting with a small radius for each data point (the visual circle size for a given point on the visualization). Алгоритм увеличивает радиус всех точек данных. Если две (или более) точки данных перекрываются, одна окружность (с увеличенным радиусом) представляет эти точки перекрывающихся данных.It then increases the radius of all data points; when two (or more) data points overlap, a single circle (of the increased radius size) represents those overlapped data points. Алгоритм постоянно увеличивает радиус точек данных, пока значение радиуса не доходит до приемлемого числа точек данных (3500), которые отображаются на точечной диаграмме.The algorithm continues to increase the radius of data points, until that radius value results in a reasonable number of data points - 3,500 - being displayed in the scatter chart.

Методы этого алгоритма гарантируют, что на итоговом визуальном элементе будут представлены выбросы.The methods in this algorithm ensure that outliers are represented in the resulting visual. Алгоритм учитывает масштаб при определении перекрытия, чтобы экспоненциальные шкалы визуализировались с точностью до базовых визуализированных точек.The algorithm respects scale when determining overlap, too, such that exponential scales are visualized with fidelity to the underlying visualized points.

Алгоритм также сохраняет общую форму точечной диаграммы.The algorithm also preserves the overall shape of the scatter chart.

Примечание

При использовании алгоритма выборки с высокой плотностью для точечных диаграмм основной целью является точное распределение, а не подразумеваемая плотность визуального элемента.When using the High Density Sampling algorithm for scatter charts, accurate distribution of the data is the goal, and implied visual density is not the goal. Например, вы можете увидеть точечную диаграмму с большим числом перекрывающихся окружностей (плотность) в определенной области и подумать, что там собрано много точек данных. Так как алгоритм выборки с высокой плотностью может использовать один круг для представления большого числа точек данных, подразумеваемая плотность визуального элемента (или кластеризация) не будет иметь места.For example, you might see a scatter chart with lots of circles that overlap (density) in a certain area, and imagine many data points must be clustered there; since the High Density Sampling algorithm can use one circle to represent many data points, such implied visual density (or "clustering") will not show up. Чтобы больше узнать о заданной области, вы можете увеличить масштаб с помощью срезов.To get more detail in a given area, you can use slicers to zoom in.

Кроме того, точки данных, которые нельзя отобразить (например, значения NULL или текстовые значения), игнорируются. Выбираются другие значения, которые можно отобразить, чтобы поддерживать актуальную форму точечной диаграммы.In addition, data points that cannot be plotted (such as nulls or text values) are ignored, so another value that can be plotted is selected, further ensuring the true shape of the scatter chart is maintained.

Когда для точечных диаграмм используется стандартный алгоритмWhen the standard algorithm for scatter charts is used

Иногда выборку с высокой плотностью нельзя применить в точечной диаграмме, поэтому используется исходный алгоритм.There are circumstances under which High Density Sampling cannot be applied to a scatter chart, and the original algorithm is used. Этот происходит при следующих обстоятельствах:Those circumstances are the following:

  • Если щелкнуть правой кнопкой мыши панель Сведения, а затем в открывшемся меню выбрать команду Показать элементы без данных, точечная диаграмма вернется к исходному алгоритму.If you right-click on Details, then select Show items with no data from the menu that appears, the scatter chart will revert to the original algorithm.

  • Все значения на оси Воспроизведение появятся на точечной диаграмме с возвратом к исходному алгоритму.Any values in the Play axis will result in the scatter chart reverting to the original algorithm.
  • Если на точечной диаграмме отсутствуют оси X и Y, диаграммы вернутся к исходному алгоритму.If both X and Y axes are missing on a scatter chart, the chart reverts to the original algorithm.
  • Если использовать параметр Линия отношения на панели Аналитика, диаграмма вернется к исходному алгоритму.Using a Ratio line in the Analytics pane results in the chart reverting to the original algorithm.

Как включить выборку с высокой плотностью для точечной диаграммыHow to turn on high density sampling for a scatter chart

Чтобы включить выборку с высокой плотностью, выберите в точечную диаграмму, а затем перейдите к панели Форматирование и разверните карту Общие.To turn on High Density Sampling, select a scatter chart and then go to the Formatting pane, and expand the General card. В нижней части этой карты находится ползунок Выборка высокой плотности.Near the bottom of that card, a toggle slider called High Density Sampling is available. Чтобы включить алгоритм, переведите его в положение Включено.To turn it on, slide it to On.

Примечание

После включения ползунка Power BI будет всегда использовать алгоритм выборки с высокой плотностью, когда это будет возможно.Once the slider is turned on, Power BI will attempt to use the High Density Sampling algorithm whenever possible. Если алгоритм нельзя использовать, (например, если значение находится на оси Воспроизведение), ползунок остается в положении Включено, даже если используется стандартный алгоритм диаграммы.When the algorithm cannot be used (for example, you place a value in the Play axis), the slider stays in the On position even though the chart has reverted to the standard algorithm. Если вы удалили значение с оси Воспроизведение (или изменились условия для включения и использование алгоритма выборки с высокой плотностью стало возможным) после включения ползунка, для диаграммы будет автоматически использоваться выборка с высокой плотностью.If you then remove a value from the Play axis (or conditions change to enable use of the high density sampling algorithm), since the slider is on the chart will automatically use high density sampling for that chart.

Примечание

Точки данных группируются и/или выбираются по индексу.Data points are grouped and/or selected by the index. Наличие условных обозначений не влияет на алгоритм выборки. Оно влияет только на порядок отображения визуального элемента.Having a legend does not affect sampling for the algorithm, it only affects the ordering of the visual.

Рекомендации и ограниченияConsiderations and limitations

Алгоритм выборки с высокой плотностью является важным улучшением Power BI, но вам следует знать о некоторых особенностях работы с точечными диаграммами и значениями высокой плотности.The high density sampling algorithm is an important improvement to Power BI, but there are a few considerations you need to know when working with high density values and scatter charts.

  • Алгоритм выборки с высокой плотностью работает только с динамическими подключениями к моделям на основе службы Power BI, импортированным моделям и DirectQuery.The High Density Sampling algorithm only works with live connections to Power BI service-based models, imported models, or DirectQuery.

Дальнейшие действияNext steps

Дополнительные сведения о выборке с высокой плотностью на других диаграммах см. в следующей статье.For more information about high density sampling in other charts, see the following article.