Power BI의 고밀도 선 샘플링High-density line sampling in Power BI

Power BI Desktop 2017년 6월 릴리스 및 Power BI 서비스 업데이트부터 새 샘플링 알고리즘은 고밀도 데이터를 샘플링하는 시각적 개체를 향상시키는데 사용할 수 있습니다.Beginning with the June 2017 release of the Power BI Desktop and updates to the Power BI service, a new sampling algorithm is available that improves visuals that sample high-density data. 예를 들어 각 상점에서 발생하는 판매 영수증이 매년 10,000개가 넘는 소매 상점의 판매 결과에서 꺾은선형 차트를 만들 수 있습니다.For example, you might create a line chart from your retail stores' sales results, each store having more than ten thousand sales receipts each year. 이러한 판매 정보의 꺾은선형 차트는 각 상점의 데이터에서 데이터를 샘플링하고(해당 데이터의 의미 있는 표현을 선택하여 시간 경과에 따른 판매량 변화를 보여줌), 다중 계열 꺾은선형 차트를 만들어 기본 데이터를 나타냅니다.A line chart of such sales information would sample data (select a meaningful representation of that data, to illustrate how sales vary over time) from the data for each store, and create a multi-series line chart that thereby represents the underlying data. 이는 고밀도 데이터 시각화의 일반적인 사례입니다.This is common practice in visualizing high-density data. Power BI Desktop은 고밀도 데이터의 해당 샘플링을 향상시켰으며, 이에 대해 이 문서에서 자세히 설명합니다.Power BI Desktop has improved its sampling of high-density data, the details of which are described in this article.

고밀도 샘플링 데이터를 보여 주는 꺾은선형 차트의 스크린샷.

참고

이 문서에서 설명하는 고밀도 샘플링 알고리즘은 Power BI DesktopPower BI 서비스 둘 다에서 사용할 수 있습니다.The High Density Sampling algorithm described in this article is available in both Power BI Desktop and the Power BI service.

고밀도 선 샘플링 작동 방법How high-density line sampling works

이전에 Power BI는 결정적 방식으로 기본 데이터의 전체 범위에서 샘플 데이터 요소의 컬렉션을 선택했습니다.Previously, Power BI selected a collection of sample data points in the full range of underlying data in a deterministic fashion. 예를 들어 한 해 동안의 시각적 개체에 있는 고밀도 데이터의 경우 시각적 개체에 350개 샘플 데이터 요소가 표시되었을 수 있으며, 데이터의 전체 범위(기본 데이터의 전체 계열)가 시각적 개체에 표시되기 위해 각 데이터 요소가 선택되었습니다.For example, for high-density data on a visual spanning one calendar year, there might be 350 sample data points displayed in the visual, each of which was selected to ensure the full range of data (the overall series of underlying data) was represented in the visual. 이러한 상황이 발생하는 방식을 이해하기 위해 한 해 동안의 주가를 그리고, 365개의 데이터 요소(각 날짜마다 하나의 데이터 요소)를 선택하여 꺾은선형 차트 시각적 개체를 만든다고 가정해 보겠습니다.To help understand how this happens, imagine plotting a stock price over a one-year period, and selecting 365 data points to create a line chart visual (that's one data point for each day).

이러한 상황에서는 각 날짜 내에 주가에 대한 여러 값이 있습니다.In that situation, there are many values for a stock price within each day. 물론, 매일 주가의 등락이 있지만, 이는 주식 시장이 열려 있는 하루 중 언제든지 발생할 수 있습니다.Of course, there is a daily high and low, but those could occur at any time during the day when the stock market is open. 고밀도 선 샘플링의 경우 기본 데이터 샘플을 매일 오전 10시 30분 및 오후 12시에 가져오면 기본 데이터의 대표 스냅샷(오전 10시 30분 및 오후 12시의 주가)을 얻지만, 해당 대표 데이터 요소(해당 일)에 대한 주가의 실제적인 등락을 캡처하지 못할 수도 있습니다.For high-density line sampling, if the underlying data sample was taken at 10:30 AM and 12:00 PM each day, you would get a representative snapshot of the underlying data (the price at 10:30 AM and 12:00 PM), but it might not capture the actual high and low of the stock price for that representative data point (that day). 해당 상황 및 기타 상황에서 샘플링은 기본 데이터를 대표하지만 중요한 요소인 일일 주가의 등락을 항상 캡처하지는 않습니다.In that situation – and others – the sampling is representative of the underlying data, but it doesn't always capture important points, which in this case, would be daily stock price highs and lows.

정의에 따르면, 고밀도 데이터를 샘플링하여 상호 작용에 응답하는 시각화를 합리적으로 빠르게 만듭니다.By definition, high-density data is sampled to create visualizations reasonably quickly that are responsive to interactivity. 시각적 개체에 너무 많은 데이터 요소가 있으면 문제가 발생할 수 있으며, 추세의 가시성이 손상될 수 있습니다.Too many data points on a visual can bog it down, and can detract from the visibility of trends. 따라서 데이터를 샘플링하는 방법은 최상의 시각화 환경을 제공하는 샘플링 알고리즘을 만드는 것입니다.So, how the data is sampled is what drives the creation of the sampling algorithm to provide the best visualization experience. Power BI Desktop에서 알고리즘은 이제 각 시간 조각에서 중요한 요소에 대한 응답성, 표현 및 명확한 보존의 최적 조합을 제공하도록 향상되었습니다.In Power BI Desktop, the algorithm is now improved to provide the best combination of responsiveness, representation, and clear preservation of important points in each time slice.

새 선 샘플링 알고리즘 작동 방법How the new line sampling algorithm works

고밀도 선 샘플링에 대한 새 알고리즘은 연속적인 x 축이 있는 꺾은선형 차트 및 영역 차트 시각적 개체에 사용할 수 있습니다.The new algorithm for high-density line sampling is available for line chart and area chart visuals with a continuous x-axis.

고밀도 시각적 개체의 경우 Power BI는 데이터를 고해상도 청크로 지능적으로 분할한 다음, 각 청크를 나타내기 위해 중요한 요소를 선택합니다.For a high-density visual, Power BI intelligently slices your data into high-resolution chunks, and then picks important points to represent each chunk. 고해상도 데이터 분할의 해당 프로세스는 결과 차트가 모든 기본 데이터 요소 렌더링에서 시각적으로 구별되지만 훨씬 빠르고 더욱 대화형이 되도록 특별히 조정됩니다.That process of slicing high-resolution data is specifically tuned to ensure that the resulting chart is visually indistinguishable from rendering all of the underlying data points, but much faster and more interactive.

고밀도 선 시각적 개체에 대한 최소 및 최대값Minimum and maximum values for high-density line visuals

지정된 모든 시각화의 경우 다음과 같은 시각적 제한 사항이 적용됩니다.For any given visualization, the following visual limitations apply:

  • 3,500은 기본 데이터 요소 또는 계열의 수와 관계없이 대부분의 시각적 개체에 ‘표시되는’ 데이터 요소의 최대 수입니다(다음 글머리 기호 목록의 ‘예외’ 참조). 3,500 is the maximum number of data points displayed on most visuals, regardless of the number of underlying data points or series (see the exceptions in the following bullet list). 이와 같이 각각 350개의 데이터 요소가 있는 10개의 시리즈가 있는 경우 시각적 개체는 해당 최대 전체 데이터 요소 제한에 도달했습니다.As such, if you have 10 series with 350 data points each, the visual has reached its maximum overall data points limit. 하나의 시리즈가 있는 경우 새 알고리즘이 이를 기본 데이터에 대한 최상의 샘플링으로 여기는 경우 최대 3,500개의 데이터 요소를 가질 수 있습니다.If you have one series, it may have up to 3,500 data points if the new algorithm deems that the best sampling for the underlying data.

  • 모든 시각적 개체에 대해 최대 60개의 시리즈가 있습니다.There is a maximum of 60 series for any visual. 60개를 초과하는 계열이 있는 경우 데이터를 분할하여 각각 60개 이하의 계열이 있는 시각적 개체를 여러 개 만듭니다.If you have more than 60 series, break up the data and create multiple visuals with 60 or fewer series each. 슬라이서를 사용하여 데이터의 세그먼트만 표시하는 것이 좋습니다(특정 시리즈만).It's good practice to use a slicer to show only segments of the data (only certain series). 예를 들어 범례에서 모든 하위 범주를 표시하는 경우 슬라이서를 사용하여 동일한 보고서 페이지에서 전체 범주별로 필터링할 수 있습니다.For example, if you're displaying all subcategories in the legend, you could use a slicer to filter by the overall category on the same report page.

3,500개 데이터 요소 한도의 ‘예외’인 다음 시각적 개체 형식의 경우 최대 데이터 한도 수가 더 높습니다.The maximum number of data limits is higher for the following visual types, which are exceptions to the 3,500 data point limit:

  • R 시각적 개체의 경우 150,000개 데이터 요소 최댓값.150,000 data points maximum for R visuals.
  • Power BI 시각적 개체의 경우 30,000개 데이터 요소.30,000 data points for Power BI visuals.
  • 분산형 차트의 경우 10,000개 데이터 요소(분산형 차트의 기본값은 3,500개).10,000 data points for scatter charts (scatter charts default to 3,500)
  • 기타 모든 시각적 개체의 경우 3,500개.3,500 for all other visuals

이러한 매개 변수는 Power BI Desktop의 시각적 개체가 매우 빠르게 렌더링되고, 사용자와의 상호 작용에 응답하고, 시각적 개체를 렌더링하는 컴퓨터에 과도한 계산 오버헤드가 발생하지 않도록 합니다.These parameters ensure that visuals in Power BI Desktop render very quickly, are responsive to interaction with users, and do not result in undue computational overhead on the computer rendering the visual.

고밀도 선 시각적 개체에 대한 대표 데이터 요소 평가Evaluating representative data points for high-density line visuals

기본 데이터 요소의 수가 시각적 개체에 나타낼 수 있는 최대 데이터 요소 수를 초과하는 경우, 기본 데이터를 bin이라는 그룹으로 청크하는 ‘범주화’라는 프로세스가 시작된 다음, 해당 저장소를 반복적으로 구체화합니다.When the number of underlying data points exceeds the maximum data points that can be represented in the visual, a process called binning begins, which chunks the underlying data into groups called bins, and then iteratively refines those bins.

알고리즘은 시각적 개체에 대한 가장 큰 세분성을 만들기 위해 가능한 많은 bins를 만듭니다.The algorithm creates as many bins as possible to create the greatest granularity for the visual. 각 bin 내에서 알고리즘은 최소 및 최대 데이터 값을 찾아 중요하고 의미 있는 해당 값(예: 이상값)이 시각적 개체에서 캡처되고 표시되도록 합니다.Within each bin, the algorithm finds the minimum and maximum data value, to ensure that important and significant values (for example, outliers) are captured and displayed in the visual. Power BI에 의한 데이터의 범주화 및 후속 평가의 결과에 따라 시각적 개체에 대한 최대 세분성을 보장하도록 시각적 개체에 대한 x 축의 최소 해상도가 결정됩니다.Based on the results of the binning and subsequent evaluation of the data by Power BI, the minimum resolution for the x-axis for the visual is determined – to ensure maximum granularity for the visual.

앞에서 설명한 대로 각 계열의 최소 세분성은 350개 요소이고, 대부분 시각적 개체의 최댓값은 3,500개이며, ‘예외’는 이전 단락에 나와 있습니다.As mentioned previously, the minimum granularity for each series is 350 points, the maximum is 3,500 for most visuals, with the exceptions listed in the previous paragraphs.

각 bin은 두 개의 데이터 요소로 표시되며 시각적 개체에서 bin의 대표 데이터 요소가 됩니다.Each bin is represented by two data points, which become the bin's representative data points in the visual. 데이터 요소는 단순히 해당 bin에 대한 높고 낮은 값이며 높은 값 및 낮은 값을 선택하여 범주화 프로세스는 모든 중요한 높은 값 또는 중요한 낮은 값이 시각적 개체에서 캡처 및 렌더링되도록 합니다.The data points are simply the high and low value for that bin, and by selecting the high and low, the binning process ensures any important high value, or significant low value, is captured and rendered in the visual.

가끔 발생하는 이상값을 캡처하고 시각적 개체에 올바르게 표시할 수 있도록 분석을 많이 하는 것처럼 들린다면 맞는 말이지만, 이는 새 알고리즘 및 범주화 프로세스에 대한 정확한 이유가 됩니다.If that sounds like a lot of analysis to ensure the occasional outlier is captured and properly displayed in the visual, you are correct, but that's the exact reason for the new algorithm and binning process.

도구 설명 및 고밀도 선 샘플링Tooltips and high-density line sampling

지정된 저장소의 최솟값 및 최댓값을 캡처하고 표시하는 이 범주화 프로세스는 데이터 요소 위를 마우스로 가리킬 때 도구 설명에서 데이터를 표시하는 방법에 영향을 줄 수 있습니다.It's important to note that this binning process, which results in the minimum and maximum value in a given bin being captured and displayed, may affect how tooltips display data when you hover over the data points. 이 문제가 발생하는 상황과 이유를 설명하기 위해 주가의 예를 다시 살펴보겠습니다.To explain how and why this occurs, let's revisit our example about stock prices.

주가를 기반으로 하는 시각적 개체를 만들고, 고밀도 샘플링을 사용하는 서로 다른 두 주식을 비교한다고 가정합니다.Let's say you're creating a visual based on stock price and you're comparing two different stocks, both of which are using High-Density Sampling. 각 시리즈에 대한 기본 데이터에는 수많은 데이터 요소가 있습니다(매일 각 초당 주가를 캡처할지도 모름).The underlying data for each series has lots of data points (maybe you capture the stock price each second of the day). 고밀도 선 샘플링 알고리즘은 각 계열에 대해 서로 독립적으로 범주화를 수행합니다.The high-density line sampling algorithm performs binning for each series independently of the other.

이제 첫 번째 주식이 12시 2분에 상승한 다음, 10초 후에 다시 빠르게 하락한다고 가정합니다.Now let's say that the first stock jumps up in price at 12:02, then quickly comes back down ten seconds later. 이는 중요한 데이터 요소입니다.That's an important data point. 해당 주식에 대한 범주화가 발생할 때 12시 2분의 높이는 해당 bin에 대한 대표 데이터 요소가 됩니다.When binning occurs for that stock, the high at 12:02 will be a representative data point for that bin.

그러나 두 번째 주식의 경우 12시 2분은 해당 시간을 포함한 저장소에서 높거나 낮은 것이 아닙니다.But, for the second stock, 12:02 was neither a high nor a low in the bin that included that time. 아마도 3분 후에 12시 2분을 포함하는 저장소에서 높거나 낮을 것입니다.Maybe the high and low for the bin that includes 12:02 occurred three minutes later. 이러한 상황에서 꺾은선형 차트를 만들고 12시 2분으로 마우스를 가져갈 때 첫 번째 주식에 대한 도구 설명에서 값이 표시되지만(12시 2분에 올랐으며 해당 bin의 높은 데이터 요소로 해당 값이 선택되었으므로) 두 번째 주식에 대한 12시 2분의 도구 설명에는 값이 표시되지 않습니다.In that situation, when the line chart is created and you hover over 12:02, you will see a value in the tooltip for the first stock (because it jumped at 12:02 and that value was selected as that bin's high data point), but you will not see any value in the tooltip at 12:02 for the second stock. 이는 12시 2분을 포함하는 bin에 대해 두 번째 주식에 높음 및 낮음이 없기 때문입니다.That's because the second stock had neither a high, nor a low, for the bin that included 12:02. 따라서 12시 2분에는 두 번째 주식에 대해 표시할 데이터가 없으므로 도구 설명 데이터가 표시되지 않습니다.So, there's no data to show for the second stock at 12:02, and thus, no tooltip data is displayed.

이 상황은 도구 설명에서 자주 발생합니다.This situation will happen frequently with tooltips. 지정된 bin에 대한 높은 값 및 낮은 값은 균등하게 크기 조정된 x축 값 요소와 완벽하게 일치하지 않을 수 있으므로 도구 설명은 값을 표시하지 않습니다.The high and low values for a given bin might not match perfectly with the evenly scaled x-axis value points, and as such the tooltip will not display the value.

고밀도 선 샘플링을 설정하는 방법How to turn on high-density line sampling

기본적으로 새 알고리즘은 설정되어 있습니다.By default, the new algorithm is turned on. 이 설정을 변경하려면 서식 창으로 이동하고, 일반 카드의 아래쪽에 고밀도 샘플링이라는 토글 슬라이더가 표시되어 있습니다.To change this setting, go to the Formatting pane, in the General card, and along the bottom, you see a toggle slider called High-Density Sampling. 이 기능을 해제하려면 끄기로 밉니다.To turn it off, slide it to Off.

서식 창, 일반 및 고밀도 샘플링의 포인터를 보여 주는 고밀도 선 샘플링의 스크린샷.

고려 사항 및 제한 사항Considerations and limitations

고밀도 선 샘플링에 대한 새 알고리즘은 Power BI에 중요한 향상된 기능이지만 고밀도 값 및 데이터를 사용할 때 알아야 할 몇 가지 고려 사항이 있습니다.The new algorithm for high-density line sampling is an important improvement to Power BI, but there are a few considerations you need to know when working with high-density values and data.

  • 증가한 세분성 및 범주화 프로세스로 인해 도구 설명은 대표 데이터가 커서와 정렬되는 경우에만 값을 나타낼 수 있습니다.Because of increased granularity and the binning process, Tooltips may only show a value if the representative data is aligned with your cursor. 자세한 내용은 이 문서의 도구 설명 및 고밀도 선 샘플링 섹션을 참조하세요.See the Tooltips and high-density line sampling section in this article for more information.

  • 전체 데이터 원본의 크기가 너무 큰 경우 새 알고리즘은 데이터 가져오기 최대 제약 조건에 맞도록 시리즈(범례 요소)를 제거합니다.When the size of an overall data source is too big, the new algorithm eliminates series (legend elements) to accommodate the data import maximum constraint.

    • 이 경우 새 알고리즘은 범례 계열을 사전순으로 정렬하고, 데이터 가져오기 최댓값에 도달할 때까지 사전순으로 범례 요소의 목록을 아래로 시작하고, 추가 계열을 가져오지 않습니다.In this situation, the new algorithm orders legend series alphabetically, starts down the list of legend elements in alphabetical order until the data import maximum is reached, and does not import additional series.
  • 기본 데이터 집합에 60개 이상의 시리즈가 있는 경우(앞에서 설명한 대로 시리즈의 최대 수) 새 알고리즘은 시리즈를 사전순으로 정렬하고 60번째 사전순으로 정렬된 시리즈를 넘어가는 시리즈를 제거합니다.When an underlying data set has more than 60 series (the maximum number of series, as described earlier), the new algorithm orders the series alphabetically, and eliminates series beyond the 60th alphabetically-ordered series.

  • 데이터의 값이 숫자 또는 날짜/시간 형식이 아닌 경우 Power BI는 새 알고리즘을 사용하지 않으며 이전(비고밀도 샘플링) 알고리즘으로 되돌아갑니다.If the values in the data are not of type numeric or date/time, Power BI will not use the new algorithm, and will revert to the previous (non-high-density sampling) algorithm.

  • 데이터가 없는 항목 표시 설정은 새 알고리즘에서 지원되지 않습니다.The Show items with no data setting is not supported with the new algorithm.

  • SQL Server Analysis Services(2016 이전 버전)에서 호스팅되는 모델에 대한 라이브 연결을 사용하는 경우 새 알고리즘이 지원되지 않습니다.The new algorithm is not supported when using a live connection to a model hosted in SQL Server Analysis Services (version 2016 or earlier). Power BI 또는 Azure Analysis Services에서 호스팅되는 모델에서 지원됩니다.It is supported in models hosted in Power BI or Azure Analysis Services.

다음 단계Next steps

분산형 차트의 고밀도 샘플링에 대한 자세한 내용은 다음 문서를 참조하세요.For information about high-density sampling in scatter charts, see the following article.