Power BI の高密度線サンプリングHigh density line sampling in Power BI

Power BI Desktop の 2017 年 6 月リリースおよび Power BI サービスの更新以降、新しいサンプリング アルゴリズムが使用可能です。これにより、高密度データをサンプリングする視覚エフェクトが改善されます。Beginning with the June 2017 release of the Power BI Desktop and updates to the Power BI service, a new sampling algorithm is available that improves visuals that sample high density data. たとえば、小売店の売上結果から折れ線グラフを作成するとします。各店舗の売上金は毎年 1 万を超えています。For example, you might create a line chart from your retail stores’ sales results, each store having more than ten thousand sales receipts each year. このような売上情報の折れ線グラフで、各店舗のデータをサンプリングし (そのデータのわかりやすい表記を選択して、時間の経過と共に売り上げがどのように変化しているかを示す)、複数系列折れ線グラフを作成し、基になるデータを表します。A line chart of such sales information would sample data (select a meaningful representation of that data, to illustrate how sales varies over time) from the data for each store, and create a multi-series line chart that thereby represents underlying data. これは高密度データを視覚化する一般的な方法です。Power BI Desktop では高密度データのサンプリングが改善されました。詳細については、この記事で説明します。This is common practice in visualizing high density data, and Power BI Desktop has improved its sampling of high density data, the details of which are described in this article.


この記事で説明する高密度サンプリング アルゴリズムは、Power BI DesktopPower BI サービスの両方に適用され、使用可能です。The high density sampling algorithm described in this article applies to, and is available in, both Power BI Desktop and the Power BI service.

高密度データ線サンプリングのしくみHow high density line sampling works

これまで、Power BI では、決定論的な方法で基になるデータ全体のサンプル データ ポイントのコレクションを選択していました。Previously, Power BI selected a collection of sample data points in the full range of underlying data in a deterministic fashion. たとえば、1 カレンダー年にわたる視覚エフェクトの高密度データの場合、350 のサンプル データ ポイントが視覚エフェクトで表示されます。各ポイントを選択すると、データ全体 (基になるデータの系列全体) が視覚エフェクトで表されます。For example, for high density data on a visual spanning one calendar year, there might be 350 sample data points displayed in the visual, each of which was selected to ensure the full range of data (the overall series of underlying data) was represented in the visual. このしくみをわかりやすくするために、例として、1 年間の株価をプロットし、365 のデータ ポイントを選択して折れ線グラフの視覚エフェクトを作成していました (つまり、1 データ ポイント/日)。To help understand how this happens, imagine we were plotting stock price over a one-year period, and selected 365 data points to create a line chart visual (that's one data point for each day).

その場合、各日内の株価の値が多数存在します。In that situation, there are many values for a stock price within each day. もちろん、日々の高値と安値はありますが、株式市場が開いている間、これらは随時変動する可能性があります。Of course there is a daily high and low, but those could occur at any time during the day when the stock market is open. 高密度線サンプリングでは、基になるデータ サンプルが毎日午前 10 時 30 分と午後 12 時 00 分に取得された場合、基になるデータの代表的なスナップショット (午前 10 時 30 分と午後 12 時 00 分の価格) を取得しますが、その代表的なデータ ポイント (その日) の株価の実際の高値と安値がキャプチャされていない場合があります。For high density line sampling, if the underlying data sample was taken at 10:30am and 12:00pm each day, you would get a representative snapshot of the underlying data (the price at 10:30am and 12:00pm), but it might not capture the actual high and low of the stock price for that representative data point (that day). このような状況 (および他の状況) では、サンプルは基になるデータの代表的なものとなりますが、必ずしも重要なポイントがキャプチャされるとは限りません。その場合、日々の株価の高値と安値が複数存在することになります。In that situation – and others – the sampling is representative of the underlying data, but it doesn’t always capture important points, which in this case would be daily stock price highs and lows.

定義上、高密度データは視覚エフェクトを有効にするためにサンプリングされます。視覚エフェクトはある程度簡単に作成でき、対話型です (視覚エフェクトのデータ ポイントが多すぎると動作が完全に停止し、傾向の可視性が損なわれる可能性があります)。By definition, high density data is sampled to enable visualizations that can be created reasonably quickly, are responsive to interactivity (too many data points on a visual can bog it down, and can detract from the visibility of trends). 最適な視覚化エクスペリエンスを提供する、このようなデータのサンプリング方法は、サンプリング アルゴリズムの作成を促すものです。How such data is sampled, to provide the best visualization experience, is what drives the creation of the sampling algorithm. Power BI Desktop では、アルゴリズムが改善され、各タイム スライスの重要なポイントの応答性、表記、および明確な保存の最適な組み合わせが提供されます。In Power BI Desktop, the algorithm has been improved to provide the best combination of responsiveness, representation, and clear preservation of important points in each time slice.

新しい線サンプリング アルゴリズムのしくみHow the new line sampling algorithm works

高密度線サンプリングの新しいアルゴリズムは、連続 x 軸を含む折れ線グラフと面グラフの視覚エフェクトで使用可能です。The new algorithm for high density line sampling is available for line chart and area chart visuals with a continuous x axis.

高密度の視覚エフェクトの場合、Power BI はインテリジェントにデータを高解像度のチャンクにスライスしてから、重要なポイントを選んで各チャンクを表します。For a high density visual, Power BI intelligently slices your data into high resolution chunks, and then picks important points to represent each chunk. 高解像度データをスライスするこの処理は特別に調整され、生成されるグラフが、基になるすべてのデータ ポイントをレンダリングする場合と視覚的には区別できないものの、より高速で対話的になるようにします。That process of slicing high resolution data is specifically tuned to ensure that the resulting chart is visually indistinguishable from rendering all of the underlying data points, but much faster and more interactive.

高密度線の視覚エフェクトの最小値と最大値Minimum and maximum values for high density line visuals

特定の視覚エフェクトでは、次の視覚エフェクトに関する制限事項が適用されます。For any given visualization, the following visual limitations apply:

  • 基になるデータ ポイントまたは系列の数に関係なく、視覚エフェクトで表示されるデータ ポイントの最大数は 3,500 です。3,500 is the maximum number data points displayed on the visual, regardless of the number of underlying data points or series. そのため、それぞれ 350 のデータ ポイントがある 10 系列の場合、視覚エフェクトはそのデータ ポイント全体の最大制限に達します。As such, if you have 10 series with 350 data points each, the visual has reached its maximum overall data points limit. 1 系列の場合、新しいアルゴリズムで基になるデータの最適なサンプリングであると判断されると、最大 3,500 のデータ ポイントが含まれる可能性があります。If you have one series, it may have up to 3,500 data points if the new algorithm deems that the best sampling for the underlying data.
  • 視覚エフェクトには、最大 60 の系列があります。There is a maximum of 60 series for any visual. 60 を超える系列がある場合は、データを分割し、それぞれ 60 以下の系列を含む複数の視覚エフェクトを作成します。If you have more than 60 series, break up the data and create multiple visuals with 60 or less series each. スライサーを使用して、データのセグメントのみ (特定の系列のみ) が表示されるようにすることをお勧めします。It's good practice to use a slicer to show only segments of the data (only certain series). たとえば、凡例ですべてのサブカテゴリを表示する場合は、スライサーを使用して、同じレポート ページのカテゴリ全体でフィルター処理することができます。For example, if you're displaying all subcategories in the legend, you could use a slicer to filter by the overall category on the same report page.

これらのパラメーターを使用することで、Power BI Desktop の視覚エフェクトで非常に短時間にレンダリングできるようになります。また、視覚エフェクトをレンダリングするコンピューターでの計算オーバーヘッドが過度になることはありません。These parameters ensure that visuals in Power BI Desktop render very quickly, and are responsive to interaction with users, and do not result in undue computational overhead on the computer rendering the visual.

高密度線の視覚エフェクトで代表的なデータ ポイントを評価するEvaluating representative data points for high density line visuals

基になるデータ ポイントの数が、視覚エフェクトで表すことができるデータ ポイント (3,500) を超えた場合、ビン分割と呼ばれるプロセスが開始され、基になるデータはビンと呼ばれるグループにチャンクされてから、それらのビンが繰り返し細分化されます。When the number of underlying data points exceeds the data points that can be represented in the visual (exceeds 3,500), a process called binning begins, which chunks the underlying data into groups called bins, and then iteratively refines those bins.

アルゴリズムではできるだけ多くのビンを作成し、視覚エフェクトの細分度を最適なものにします。The algorithm creates as many bins as possible to create the greatest granularity for the visual. 各ビン内で、アルゴリズムは最小および最大データ値を検索し、視覚エフェクトで重要および重大な値 (外れ値など) がキャプチャされ、表示されることを確認します。Within each bin, the algorithm finds the minimum and maximum data value, to ensure that important and significant values (for example, outliers) are captured and displayed in the visual. Power BI でのデータのビン分割と以降の評価の結果に基づいて、視覚エフェクトの x 軸の最小解像度が決まり、視覚エフェクトの最大細分度が確保されます。Based on the results of the binning and subsequent evaluation of the data by Power BI, the minimum resolution for the x axis for the visual is determined – to ensure maximum granularity for the visual.

前述のように、各系列の最小細分度は 350 ポイントで、最大は 3,500 です。As mentioned previously, the minimum granularity for each series is 350 points, the maximum is 3,500.

各ビンは 2 つのデータ ポイントで表され、このデータ ポイントが視覚エフェクトのビンの代表的なデータ ポイントになります。Each bin is represented by two data points, which become the bin's representative data points in the visual. データ ポイントはそのビンの単なる高値と低値であり、高値と低値を選択することで、ビン分割プロセスによって、重要な高値、または重大な低値が視覚エフェクトで確実にキャプチャされ、レンダリングされるようになります。The data points are simply the high and low value for that bin, and by selecting the high and low, the binning process ensures any important high value, or significant low value, is captured and rendered in the visual.

多くの分析で確実に不定期の外れ値がキャプチャされ、視覚エフェクトで適切に表示されるのが正しい動作です。それがまさしく、新しいアルゴリズムとビン分割プロセスの背後にある理由です。If that sounds like a lot of analysis to ensure the occasional outlier is captured, and is properly displayed in the visual, then you are correct – and that’s exactly the reason behind the new algorithm and binning process.

ヒントと高密度線サンプリングTooltips and high density line sampling

特定のビンの最小および最大値が視覚エフェクトでキャプチャされ、表示される、このビン分割プロセスが、データ ポイントにマウス カーソルを合わせたときのヒントでのデータの表示方法に影響する可能性があることに注意してください。It’s important to note that this binning process, which results in the minimum and maximum value in a given bin being captured and displayed in the visual, may affect how tooltips display data when you hover over data points. この状態がどのように、また、なぜ発生するのかを説明するために、この記事の前述の株価の例をここでも使用します。To explain how and why this occurs, let’s revisit our example about stock prices from earlier in this article.

たとえば、株価に基づいて視覚エフェクトを作成し、2 つの異なる株を比較するとします。これらの両方で高密度サンプリングを使用します。Let’s say you’re creating a visual based on stock price, and you're comparing two different stocks, both of which are using High Density Sampling. 各系列の基になるデータには多数のデータ ポイントがあります (常時、株価をキャプチャしていると考えられます)。The underlying data for each series has lots of data points (maybe you capture the stock price each second of the day). 高密度線サンプリング アルゴリズムでは、各系列に対して個別にビン分割を実行します。The high density line sampling algorithm with perform binning for each series independently of the other.

ここで、最初の株の価格が 12 時 02 分に急騰し、10 秒後にすぐに戻ったとします。これは重要なデータ ポイントです。Now let's say the first stock jumps up in price at 12:02, then quickly comes back down ten seconds later – that’s an important data point. その株でビン分割する場合、12 時 02 分の時点の高値がそのビンの代表的なデータ ポイントとなります。When binning occurs for that stock, the high at 12:02 will be a representative data point for that bin.

ただし、2 番目の株の場合、12 時 02 分はその時刻を含むビンの高値でも安値でもありませんでした。12 時 02 分を含むビンの高値と安値は 3 分後に発生したと考えられます。But for the second stock, 12:02 was neither a high nor a low in the bin that included that time - maybe the high and low for the bin that includes 12:02 occurred three minutes later. このような場合に、折れ線グラフが作成され、12 時 02 分にマウス カーソルを合わせると、最初の株のヒントには値が表示されますが (12 時 02 分に株価が急騰し、その値がそのビンの高データ ポイントとして選択されたため)、2 番目の株の 12 時 02 分のヒントには値は表示されませんIn that situation, when the line chart is created and you hover over 12:02, you will see a value in the tooltip for the first stock (because it jumped at 12:02 and that value was selected as that bin's high data point), but you will not see any value in the tooltip at 12:02 for the second stock. これは、2 番目の株には、12 時 02 分を含むビンの高値と安値がなかったためです。That's because the second stock had neither a high, nor a low, for the bin that included 12:02. したがって、12 時 02分の 2 番目の株について表示されるデータはないため、ヒントのデータは表示されません。So there's no data to show for the second stock at 12:02, and thus, no tooltip data is displayed.

このような状態はヒントでは頻繁に発生します。This situation will happen frequently with tooltips. 特定のビンの高値と安値は、均等にスケーリングされた x 軸値のポイントと完全に一致しない場合があり、そのようなヒントには値は表示されません。The high and low values for a given bin might not match perfectly with the evenly scaled x-axis value points, and as such the tooltip will not display the value.

高密度線サンプリングを有効にする方法How to turn on high density line sampling

既定では、新しいアルゴリズムは有効になっています。By default, the new algorithm is turned on. この設定を変更するには、[書式設定] ウィンドウに移動します。その [全般] カードの下部には、[高密度サンプリング] というトグル スライダーがあります。To change this setting, go to the Formatting pane, in the General card, and along the bottom you see a toggle slider called High Density Sampling. これを無効にするは、[オフ] にスライドします。To turn it off, slide it to Off.

考慮事項と制限事項Considerations and limitations

高密度線サンプリングの新しいアルゴリズムは、Power BI の重要な拡張機能ですが、高密度の値とデータを処理する場合に知っておく必要がある考慮事項がいくつかあります。The new algorithm for high density line sampling is an important improvement to Power BI, but there are a few considerations you need to know when working with high density values and data.

  • 細分性を高めたことで、またビン分割プロセスが原因で、ヒントで値を表示できるのは、代表データをカーソルで揃えた場合のみとなります。Because of increased granularity and the binning process, Tooltips may only show a value if the representative data is aligned with your cursor. 詳細については、この記事の前半のツールヒントに関するセクションを参照してください。See the section earlier in this article on Tooltips for more information.
  • データ ソース全体のサイズが大きすぎる場合、新しいアルゴリズムでは系列 (凡例の要素) を削除し、データ インポートの最大制約を適用します。When the size of an overall data source is too big, the new algorithm eliminates series (legend elements) to accommodate the data import maximum constraint.

    • このような場合、新しいアルゴリズムでは凡例の系列をアルファベット順に並べ替え、データ インポートの上限に達し、追加の系列がインポートされなくなるまで、アルファベット順に上から汎用要素のリストが開始されます。In this situation, the new algorithm orders legend series alphabetically, and starts down the list of legend elements in alphabetical order, until the data import maximum is reached, and does not import additional series.
  • 基になるデータ セットに 60 (前述の系列の最大数) 以上の系列が含まれている場合、新しいアルゴリズムではアルファベット順に系列を並べ替え、アルファベット順に並べられた 60 番目の系列より後の系列を削除します。When an underlying data set has more than 60 series (the maximum number of series, as described earlier), the new algorithm orders the series alphabetically, and eliminates series beyond the 60th alphabetically-ordered series.
  • データの値の型が数値日付/時刻でない場合、Power BI は新しいアルゴリズムを使用せず、以前のアルゴリズム (非高密度サンプリング) に戻します。If the values in the data are not of type numeric or date/time, Power BI will not use the new algorithm, and will revert to the previous (non-High Density Sampling) algorithm.
  • 新しいアルゴリズムでは、[データのない項目を表示する] 設定がサポートされていません。The Show items with no data setting is not supported with the new algorithm.
  • SQL Server Analysis Services (2016 以前のバージョン) でホストされているモデルへのライブ接続を使用する場合、新しいアルゴリズムはサポートされません。The new algorithm is not supported when using a live connection to a model hosted in SQL Server Analysis Services (version 2016 or earlier). Power BI または Azure Analysis Services でホストされているモデルではサポートされます。It is supported in models hosted in Power BI or Azure Analysis Services.

次の手順Next steps

散布図の高密度サンプリングについては、次の記事をご覧ください。For information about high density sampling in scatter charts, see the following article.