Power BI 散布図の高密度サンプリングHigh density sampling in Power BI scatter charts

Power BI Desktop の 2017 年 9 月リリースおよび Power BI サービスの更新以降、新しいサンプリング アルゴリズムが使用可能です。これにより、散布図で高密度データを表す方法が改善されます。Beginning with the September 2017 release of the Power BI Desktop and updates to the Power BI service, a new sampling algorithm is available that improves how scatter charts represent high density data.

たとえば、一年あたりの各店舗のデータ ポイントが数万になる組織の営業活動から散布図を作成することがあります。For example, you might create a scatter chart from your organization's sales activity, each store having tens of thousands of data points each year. このような情報の散布図では、使用可能なデータからデータをサンプリングし(そのデータのわかりやすい表現を選択して、時間の経過と共に売上がどのように発生しているかを把握し)、基になるデータを表す散布図を作成します。A scatter chart of such information would sample data (select a meaningful representation of that data, to illustrate how sales occurred over time) from the available data, and create a scatter chart that represents the underlying data. これは高密度散布図の一般的な方法です。Power BI Desktop では高密度データのサンプリングが改善されました。詳細については、この記事で説明します。This is common practice in high density scatter charts, and Power BI has improved its sampling of high density data, the details of which are described in this article.

注意

この記事で説明する高密度サンプリング アルゴリズムは、Power BI DesktopPower BI サービスの両方の散布図に適用され、使用可能です。The high density sampling algorithm described in this article applies to, and is available in, scatter charts in both Power BI Desktop and the Power BI service.

高密度散布図のしくみHow high density scatter charts work

これまで、Power BI では、決定論的な方法で基になるデータ全体のサンプル データ ポイントのコレクションを選択して散布図を作成していました。Previously, Power BI selected a collection of sample data points in the full range of underlying data in a deterministic fashion to create a scatter chart. 具体的には、Power BI では、散布図グラフの系列の最初と最後の行のデータを選択し、次に合計 3,500 のデータ ポイントを散布図グラフにプロットできるように、残りの行を均等に分割します。Specifically, Power BI would select the first and last rows of data in the scatter chart series, then would divide the remaining rows evenly so that 3,500 data points total would be plotted on the scatter chart. たとえば、サンプルに 35,000 行がある場合、プロットする最初と最後の行を選択し、次にすべての 10 番目ごとの行 (35,000/10 = すべての 10 番目ごとの行 = 3,500 データ ポイント) もプロットします。For example, if the sample had 35,000 rows, then the first and last rows would be selected for plotting, then every tenth row would also be plotted (35,000 / 10 = every tenth row = 3,500 data points). 以前は、データ系列内の null 値またはプロットできないポイント (テキスト値など) は表示されませんでした。そのためそれらはビジュアルを生成するときに考慮されませんでした。Also previously, null values or points that could not be plotted (such as text values) in data series weren't shown, and thus were not considered when generating the visual. このようなサンプリングでは、散布図の見かけ上の密度も、表現可能なデータ ポイントに基づいているため、暗黙的な視覚的密度は、サンプリングされたポイントの状況であり、基になるデータの完全なコレクションではありませんでした。And with such sampling, the perceived density of the scatter chart was also based on the representative data points, and thus the implied visual density was a circumstance of the sampled points, and not the full collection of the underlying data.

高密度サンプリングを有効にすると、Power BI は、重複するポイントを排除するアルゴリズムを実装し、ビジュアルを操作するときに、ビジュアル上のポイントに確実に到達できるようにします。When you enable High Density Sampling, Power BI implements an algorithm that eliminates overlapping points, and ensures that the points on the visual can be reached when interacting with the visual. また、データ セット内のすべてのポイントがビジュアルで表現されるので、代表的なサンプルのプロットだけではなく、選択されたポイントの意味を示すコンテキストが提供されます。It also ensures that all points in data set are represented in the visual, providing context to the meaning of selected points, rather than just plotting a representative sample.

定義上、高密度データは視覚エフェクトを有効にするためにサンプリングされます。視覚エフェクトはある程度簡単に作成でき、対話型です (視覚エフェクトのデータ ポイントが多すぎると動作が完全に停止し、傾向の可視性が損なわれる可能性があります)。By definition, high density data is sampled to enable visualizations that can be created reasonably quickly, and are responsive to interactivity (too many data points on a visual can bog it down, and can detract from the visibility of trends). 最適な視覚化エクスペリエンスを提供する、このようなデータのサンプリング方法は、すべてのデータを確実に表現し、サンプリング アルゴリズムの作成を促すものです。How such data is sampled, to provide the best visualization experience and ensure all data is represented, is what drives the creation of the sampling algorithm. Power BI では、アルゴリズムが改善され、全体的なデータ セットの重要なポイントの応答性、表記、および明確な保存の最適な組み合わせが提供されます。In Power BI, the algorithm has been improved to provide the best combination of responsiveness, representation, and clear preservation of important points in the overall data set.

注意

高密度サンプリング アルゴリズムの使用する散布図は、すべての散布図と同じように、正方形のビジュアルにプロットするのが最も効果的です。Scatter charts using the high density sampling algorithm are best plotted on square visuals, as with all scatter charts.

新しい散布図サンプリング アルゴリズムのしくみHow the new scatter chart sampling algorithm works

高密度サンプリング用の新しいアルゴリズムでは、基になるデータをより効果的に取得して表現する方法を採用し、重複するポイントを排除しています。The new algorithm for High Density Sampling for scatter charts employs methods that capture and represent the underlying data more effectively, and eliminate overlapping points. これは、各データ ポイントの小さな半径 (視覚化された特定のポイントの視覚的な円のサイズ) から操作を開始します。It does this by starting with a small radius for each data point (the visual circle size for a given point on the visualization). その後すべてのデータ ポイントの半径を増加させ、2 つ (またはそれ以上) のデータ ポイントが重複すると、1 つの円 (増加した半径サイズ) が、それらの重複したデータ ポイントを表します。It then increases the radius of all data points; when two (or more) data points overlap, a single circle (of the increased radius size) represents those overlapped data points. このアルゴリズムで、半径値の結果として適切な数のデータ ポイント(3,500) が散布図に表示されるようになるまで、データ ポイントの半径を増加し続けます。The algorithm continues to increase the radius of data points, until that radius value results in a reasonable number of data points - 3,500 - being displayed in the scatter chart.

このアルゴリズムのメソッドでは、外れ値が確実に結果のビジュアルで表現されます。The methods in this algorithm ensure that outliers are represented in the resulting visual. アルゴリズムは、さらに重複を判断するときにスケールを優先します。そのため、指数スケールが基になる視覚化されるポイントに忠実に視覚化されます。The algorithm respects scale when determining overlap, too, such that exponential scales are visualized with fidelity to the underlying visualized points.

アルゴリズムは、散布図の全体的な形状も維持します。The algorithm also preserves the overall shape of the scatter chart.

注意

散布図の高密度サンプリングアルゴリズムを使用する場合、データの正確な分布が目標であり、暗黙的なビジュアル密度は目標ではありませんWhen using the High Density Sampling algorithm for scatter charts, accurate distribution of the data is the goal, and implied visual density is not the goal. たとえば、特定のエリア内に多くの重複する円 (密度) がある散布図が表示される場合があります。高密度サンプリング アルゴリズムでは、1 つの円を使用して多数のデータ ポイントを表すことができるため、このような暗黙的な密度 (または "クラスタ") は表示されません。For example, you might see a scatter chart with lots of circles that overlap (density) in a certain area, and imagine many data points must be clustered there; since the High Density Sampling algorithm can use one circle to represent many data points, such implied visual density (or "clustering") will not show up. 特定のエリアの詳細を取得するには、スライサーを使用してズーム インすることができます。To get more detail in a given area, you can use slicers to zoom in.

さらに、プロットできないデータ ポイント (null 値やテキスト値など) は無視されるので、プロットできる別の値が選択され、散布図の真の形がさらに確実に維持されます。In addition, data points that cannot be plotted (such as nulls or text values) are ignored, so another value that can be plotted is selected, further ensuring the true shape of the scatter chart is maintained.

散布図の標準のアルゴリズムを使用する場合When the standard algorithm for scatter charts is used

高密度のサンプリングを散布図に適用できず、元のアルゴリズムを使用する状況があります。There are circumstances under which High Density Sampling cannot be applied to a scatter chart, and the original algorithm is used. このような状況は次のとおりです。Those circumstances are the following:

  • [詳細] を右クリックして、表示されるメニューから [データなしでアイテムを表示する] を選択した場合、散布図は元のアルゴリズムに戻ります。If you right-click on Details, then select Show items with no data from the menu that appears, the scatter chart will revert to the original algorithm.

  • [再生] 軸に値がある場合、散布図は元のアルゴリズムに戻ります。Any values in the Play axis will result in the scatter chart reverting to the original algorithm.
  • 散布図の X と Y の両方の軸が存在しない場合、図は元のアルゴリズムに戻ります。If both X and Y axes are missing on a scatter chart, the chart reverts to the original algorithm.
  • [分析] ウィンドウで [比率線] を使用すると、図は元のアルゴリズムに戻ります。Using a Ratio line in the Analytics pane results in the chart reverting to the original algorithm.

散布図の [高密度サンプリング] を有効にする方法How to turn on high density sampling for a scatter chart

高密度のサンプリングを有効にするには、散布図を選択し、[書式設定] ウィンドウに移動して、[全般] カードを展開します。To turn on High Density Sampling, select a scatter chart and then go to the Formatting pane, and expand the General card. そのカードの下部にある [高密度サンプリング] というトグル スライダーを使用できます。Near the bottom of that card, a toggle slider called High Density Sampling is available. これを有効にするは、[オン] にスライドします。To turn it on, slide it to On.

注意

スライダーが有効になると、Power BI は、使用可能なときには常に高密度サンプリングの使用を試行します。Once the slider is turned on, Power BI will attempt to use the High Density Sampling algorithm whenever possible. このアルゴリズムを使用できない場合 (たとえば、[再生] 軸に値を配置した場合)、図は標準アルゴリズムに戻されますが、スライダーは [オン] の位置のままです。When the algorithm cannot be used (for example, you place a value in the Play axis), the slider stays in the On position even though the chart has reverted to the standard algorithm. [再生] 軸の値を削除した場合 (または、高密度サンプリング アルゴリズムを使用できるように条件が変更された場合)、スライダーが有効になっているので、図は自動的に高密度のサンプリングを使用します。If you then remove a value from the Play axis (or conditions change to enable use of the high density sampling algorithm), since the slider is on the chart will automatically use high density sampling for that chart.

注意

データ ポイントはインデックスによってグループ化または選択されます。Data points are grouped and/or selected by the index. 凡例の使用は、アルゴリズムに影響しません。ビジュアルの順序にのみ影響します。Having a legend does not affect sampling for the algorithm, it only affects the ordering of the visual.

考慮事項と制限事項Considerations and limitations

高密度線サンプリング アルゴリズムは、Power BI の重要な拡張機能ですが、高密度の値と散布図を処理する場合に知っておく必要がある考慮事項がいくつかあります。The high density sampling algorithm is an important improvement to Power BI, but there are a few considerations you need to know when working with high density values and scatter charts.

  • 高密度サンプリング アルゴリズムは、Power BI サービスに基づくモデル、インポートしたモデル、または DirectQuery へのライブ接続でのみ動作します。The High Density Sampling algorithm only works with live connections to Power BI service-based models, imported models, or DirectQuery.

次の手順Next steps

他の図の高密度サンプリングの詳細については、次の記事をご覧ください。For more information about high density sampling in other charts, see the following article.