Power BI에서 고밀도 선 샘플링High density line sampling in Power BI

Power BI Desktop의 2017년 6월 릴리스 및 Power BI 서비스에 대한 업데이트로 시작하는 새 샘플링 알고리즘은 고밀도 데이터를 샘플링하는 시각적 개체를 향상시키는데 사용 가능합니다.Beginning with the June 2017 release of the Power BI Desktop and updates to the Power BI service, a new sampling algorithm is available that improves visuals that sample high density data. 예를 들어 각 상점이 매년 10000개 이상의 판매 영수증을 갖는 소매 상점의 판매 결과에서 꺾은선형 차트를 만들 수 있습니다.For example, you might create a line chart from your retail stores’ sales results, each store having more than ten thousand sales receipts each year. 이러한 판매 정보의 꺾은선형 차트는 각 상점의 데이터에서 데이터(시간에 따른 판매 변화를 설명하기 위해 해당 데이터의 의미 있는 표현 선택)를 샘플링하고 다중 계열 꺾은선형 차트를 만들어 기본 데이터를 나타냅니다.A line chart of such sales information would sample data (select a meaningful representation of that data, to illustrate how sales varies over time) from the data for each store, and create a multi-series line chart that thereby represents underlying data. 이것은 고밀도 데이터 시각화의 일반적인 사례이며 Power BI Desktop은 고밀도 데이터의 해당 샘플링을 향상시켰습니다. 해당 세부 정보는 이 문서에서 설명됩니다.This is common practice in visualizing high density data, and Power BI Desktop has improved its sampling of high density data, the details of which are described in this article.

참고

이 문서에서 설명된 고밀도 샘플링 알고리즘은 Power BI DesktopPower BI 서비스에 적용되며 둘 다에서 사용할 수 있습니다.The high density sampling algorithm described in this article applies to, and is available in, both Power BI Desktop and the Power BI service.

고밀도 선 샘플링 작동 방법How high density line sampling works

이전에 Power BI는 결정적 방식으로 기본 데이터의 전체 범위에서 샘플 데이터 요소의 컬렉션을 선택했습니다.Previously, Power BI selected a collection of sample data points in the full range of underlying data in a deterministic fashion. 예를 들어 일년에 걸친 시각적 개체에서 고밀도 데이터의 경우 시각적 개체에 나타난 350개의 샘플 데이터 요소가 있을 수 있으며 데이터의 전체 범위(기본 데이터의 전체 시리즈)를 확인하기 위해 선택된 각각은 시각적 개체에 표시되었습니다.For example, for high density data on a visual spanning one calendar year, there might be 350 sample data points displayed in the visual, each of which was selected to ensure the full range of data (the overall series of underlying data) was represented in the visual. 발생하는 방법을 이해하기 위해 일년 동안의 주가를 그리고 꺾은선형 차트 시각적 개체를 만들기 위해 365개의 데이터 요소를 선택했다고 가정합니다(각 날짜에 대해 하나의 데이터 요소).To help understand how this happens, imagine we were plotting stock price over a one-year period, and selected 365 data points to create a line chart visual (that's one data point for each day).

이러한 상황에서는 각 날짜 내에 주가에 대한 여러 값이 있습니다.In that situation, there are many values for a stock price within each day. 물론 일일 최고 및 최저가 있지만 이는 주식 시장이 열렸을 때 하루 중 언제든지 발생할 수 있습니다.Of course there is a daily high and low, but those could occur at any time during the day when the stock market is open. 고밀도 선 샘플링의 경우 기본 데이터 샘플이 매일 오전 10시 30분과 오후 12시에 찍힌 경우 기본 데이터(오전 10시 30분 및 오후 12시의 가격)의 대표 스냅숏을 얻지만 해당 대표 데이터 요소(해당 날)에 대한 실제 주가의 높고 낮음을 캡처하지 못할 수 있습니다.For high density line sampling, if the underlying data sample was taken at 10:30am and 12:00pm each day, you would get a representative snapshot of the underlying data (the price at 10:30am and 12:00pm), but it might not capture the actual high and low of the stock price for that representative data point (that day). 이러한 상황 및 기타 상황에서 샘플링은 기본 데이터를 대표하지만 중요한 지점(이 경우 일일 주가 고저)을 항상 캡처하지 않습니다.In that situation – and others – the sampling is representative of the underlying data, but it doesn’t always capture important points, which in this case would be daily stock price highs and lows.

기본적으로 고밀도 데이터는 매우 빠르게 만들 수 있는, 대화형 작업에 반응하는 시각화를 활성화하도록 샘플링됩니다(시각적 개체의 너무 많은 데이터 요소는 난항에 빠뜨릴 수 있으며 추세의 가시성을 손상시킬 수 있음).By definition, high density data is sampled to enable visualizations that can be created reasonably quickly, are responsive to interactivity (too many data points on a visual can bog it down, and can detract from the visibility of trends). 최상의 시각화 환경을 제공하기 위해 이러한 데이터를 샘플링하는 방법은 샘플링 알고리즘의 생성을 이끄는 것입니다.How such data is sampled, to provide the best visualization experience, is what drives the creation of the sampling algorithm. Power BI Desktop에서 알고리즘은 각 시간 조각에서 중요한 요소의 응답, 표현 및 선명한 보존의 최적 조합을 제공하도록 개선되었습니다.In Power BI Desktop, the algorithm has been improved to provide the best combination of responsiveness, representation, and clear preservation of important points in each time slice.

새 선 샘플링 알고리즘 작동 방법How the new line sampling algorithm works

고밀도 선 샘플링에 대한 새 알고리즘은 연속 x 축과 함께 꺾은선형 차트 및 영역 차트 시각적 개체에 사용할 수 있습니다.The new algorithm for high density line sampling is available for line chart and area chart visuals with a continuous x axis.

고밀도 시각적 개체의 경우 Power BI는 데이터를 고해상도 청크로 지능적으로 분할한 다음 각 청크를 나타내기 위해 중요한 요소를 선택합니다.For a high density visual, Power BI intelligently slices your data into high resolution chunks, and then picks important points to represent each chunk. 고해상도 데이터 분할의 해당 프로세스는 결과 차트가 모든 기본 데이터 요소 렌더링에서 시각적으로 구별되지만 훨씬 빠르고 더욱 대화형이 되도록 특별히 조정됩니다.That process of slicing high resolution data is specifically tuned to ensure that the resulting chart is visually indistinguishable from rendering all of the underlying data points, but much faster and more interactive.

고밀도 선 시각적 개체에 대한 최소 및 최대값Minimum and maximum values for high density line visuals

지정된 모든 시각화의 경우 다음과 같은 시각적 제한 사항이 적용됩니다.For any given visualization, the following visual limitations apply:

  • 3,500은 기본 데이터 요소 또는 시리즈의 수에 관계 없이 시각적 개체에 표시된 최대 숫자 데이터 요소입니다.3,500 is the maximum number data points displayed on the visual, regardless of the number of underlying data points or series. 이와 같이 각각 350개의 데이터 요소가 있는 10개의 시리즈가 있는 경우 시각적 개체는 해당 최대 전체 데이터 요소 제한에 도달했습니다.As such, if you have 10 series with 350 data points each, the visual has reached its maximum overall data points limit. 하나의 시리즈가 있는 경우 새 알고리즘이 이를 기본 데이터에 대한 최상의 샘플링으로 여기는 경우 최대 3,500개의 데이터 요소를 가질 수 있습니다.If you have one series, it may have up to 3,500 data points if the new algorithm deems that the best sampling for the underlying data.
  • 모든 시각적 개체에 대해 최대 60개의 시리즈가 있습니다.There is a maximum of 60 series for any visual. 60개 이상의 시리즈가 있는 경우 데이터를 분할하고 각각 60개 이하의 시리즈로 여러 시각적 개체를 만듭니다.If you have more than 60 series, break up the data and create multiple visuals with 60 or less series each. 슬라이서를 사용하여 데이터의 세그먼트만 표시하는 것이 좋습니다(특정 시리즈만).It's good practice to use a slicer to show only segments of the data (only certain series). 예를 들어 범례에서 모든 하위 범주를 표시하는 경우 슬라이서를 사용하여 동일한 보고서 페이지에서 전체 범주별로 필터링할 수 있습니다.For example, if you're displaying all subcategories in the legend, you could use a slicer to filter by the overall category on the same report page.

이러한 매개 변수는 Power BI Desktop에서 시각적 개체가 매우 신속하게 렌더링하고 사용자와의 상호 작용에 반응하고 시각적 개체를 렌더링하는 컴퓨터에서 과도한 계산 오버헤드가 발생하지 않도록 합니다.These parameters ensure that visuals in Power BI Desktop render very quickly, and are responsive to interaction with users, and do not result in undue computational overhead on the computer rendering the visual.

고밀도 선 시각적 개체에 대한 대표 데이터 요소 평가Evaluating representative data points for high density line visuals

기본 데이터 요소의 수가 시각적 개체에 나타낼 수 있는 데이터 요소를 초과하는 경우(3,500 초과) binning이라는 프로세스가 시작하고 기본 데이터를 bins라는 그룹으로 청크한 다음 해당 bins를 반복적으로 구체화합니다.When the number of underlying data points exceeds the data points that can be represented in the visual (exceeds 3,500), a process called binning begins, which chunks the underlying data into groups called bins, and then iteratively refines those bins.

알고리즘은 시각적 개체에 대한 가장 큰 세분성을 만들기 위해 가능한 많은 bins를 만듭니다.The algorithm creates as many bins as possible to create the greatest granularity for the visual. 각 bin 내에서 알고리즘은 최소 및 최대 데이터 값을 찾아 중요하고 의미 있는 해당 값(예: 이상값)이 시각적 개체에서 캡처되고 표시되도록 합니다.Within each bin, the algorithm finds the minimum and maximum data value, to ensure that important and significant values (for example, outliers) are captured and displayed in the visual. Power BI에 의한 데이터의 범주화 및 후속 평가의 결과에 따라 시각적 개체에 대한 x 축의 최소 해상도는 시각적 개체에 대한 최대 세분성을 확인하도록 결정됩니다.Based on the results of the binning and subsequent evaluation of the data by Power BI, the minimum resolution for the x axis for the visual is determined – to ensure maximum granularity for the visual.

앞에서 설명한 대로 각 시리즈에 대한 최소 세분성은 350개의 요소이며 최대값은 3,500입니다.As mentioned previously, the minimum granularity for each series is 350 points, the maximum is 3,500.

각 bin은 두 개의 데이터 요소로 표시되며 시각적 개체에서 bin의 대표 데이터 요소가 됩니다.Each bin is represented by two data points, which become the bin's representative data points in the visual. 데이터 요소는 단순히 해당 bin에 대한 높고 낮은 값이며 높은 값 및 낮은 값을 선택하여 범주화 프로세스는 모든 중요한 높은 값 또는 중요한 낮은 값이 시각적 개체에서 캡처 및 렌더링되도록 합니다.The data points are simply the high and low value for that bin, and by selecting the high and low, the binning process ensures any important high value, or significant low value, is captured and rendered in the visual.

낮은 빈도의 이상값이 시각적 개체에서 캡처되고 올바르게 표시되기 위해 많은 분석이 있는 것 같은 경우, 올바른 것입니다. 이는 정확히 새 알고리즘 및 범주화 프로세스 뒤의 이유입니다.If that sounds like a lot of analysis to ensure the occasional outlier is captured, and is properly displayed in the visual, then you are correct – and that’s exactly the reason behind the new algorithm and binning process.

도구 설명 및 고밀도 선 샘플링Tooltips and high density line sampling

지정된 bin의 최소 및 최대 값이 시각적 개체에서 캡처되고 표시되도록 하는 이 범주화 프로세스는 데이터 요소를 마우스로 가리킬 때 도구 설명이 데이터를 표시하는 방법에 영향을 줄 수 있습니다.It’s important to note that this binning process, which results in the minimum and maximum value in a given bin being captured and displayed in the visual, may affect how tooltips display data when you hover over data points. 발생 방법 및 이유를 설명하기 위해 이 문서의 앞부분에서 주가에 대한 예제를 다시 확인해 보겠습니다.To explain how and why this occurs, let’s revisit our example about stock prices from earlier in this article.

주가를 기본으로 하는 시각적 개체를 만들고 고밀도 샘플링을 사용하는 두 개의 다른 주식을 비교한다고 가정합니다.Let’s say you’re creating a visual based on stock price, and you're comparing two different stocks, both of which are using High Density Sampling. 각 시리즈에 대한 기본 데이터에는 수많은 데이터 요소가 있습니다(매일 각 초당 주가를 캡처할지도 모름).The underlying data for each series has lots of data points (maybe you capture the stock price each second of the day). 고밀도 선 샘플링 알고리즘은 서로 독립적으로 각 계열에 대한 범주화를 수행합니다.The high density line sampling algorithm with perform binning for each series independently of the other.

이제 첫 번째 주식이 12시 2분에 오른 다음 10초 후에 다시 돌아온다고 가정합니다. 이는 중요한 데이터 요소입니다.Now let's say the first stock jumps up in price at 12:02, then quickly comes back down ten seconds later – that’s an important data point. 해당 주식에 대한 범주화가 발생할 때 12시 2분의 높이는 해당 bin에 대한 대표 데이터 요소가 됩니다.When binning occurs for that stock, the high at 12:02 will be a representative data point for that bin.

그러나 두 번째 주식의 경우 12시 2분은 해당 시간을 포함하는 bin에서 높거나 낮지 않습니다. 아마도 12시 2분을 포함하는 bin에 대한 높고 낮음은 3분 후에 발생합니다.But for the second stock, 12:02 was neither a high nor a low in the bin that included that time - maybe the high and low for the bin that includes 12:02 occurred three minutes later. 이러한 상황에서 꺾은선형 차트를 만들고 12시 2분으로 마우스를 가져갈 때 첫 번째 주식에 대한 도구 설명에서 값이 표시되지만(12시 2분에 올랐으며 해당 bin의 높은 데이터 요소로 해당 값이 선택되었으므로) 두 번째 주식에 대한 12시 2분의 도구 설명에는 값이 표시되지 않습니다.In that situation, when the line chart is created and you hover over 12:02, you will see a value in the tooltip for the first stock (because it jumped at 12:02 and that value was selected as that bin's high data point), but you will not see any value in the tooltip at 12:02 for the second stock. 이는 12시 2분을 포함하는 bin에 대해 두 번째 주식에 높음 및 낮음이 없기 때문입니다.That's because the second stock had neither a high, nor a low, for the bin that included 12:02. 따라서 12시 2분에 두 번째 주식에 대해 표시할 데이터가 없으므로 도구 설명 데이터가 표시되지 않습니다.So there's no data to show for the second stock at 12:02, and thus, no tooltip data is displayed.

이 상황은 도구 설명에서 자주 발생합니다.This situation will happen frequently with tooltips. 지정된 bin에 대한 높은 값 및 낮은 값은 균등하게 크기 조정된 x축 값 요소와 완벽하게 일치하지 않을 수 있으므로 도구 설명은 값을 표시하지 않습니다.The high and low values for a given bin might not match perfectly with the evenly scaled x-axis value points, and as such the tooltip will not display the value.

고밀도 선 샘플링을 설정하는 방법How to turn on high density line sampling

기본적으로 새 알고리즘은 설정되어 있습니다.By default, the new algorithm is turned on. 이 설정을 변경하려면 서식 창으로 이동하고 일반 카드에서 아래쪽을 따라 고밀도 샘플링이라는 설정/해제 슬라이더가 보입니다.To change this setting, go to the Formatting pane, in the General card, and along the bottom you see a toggle slider called High Density Sampling. 이 기능을 해제하려면 끄기로 밉니다.To turn it off, slide it to Off.

고려 사항 및 제한 사항Considerations and limitations

고밀도 선 샘플링에 대한 새 알고리즘은 Power BI에 중요한 개선이지만 고밀도 값 및 데이터를 사용할 때 알아야 할 몇 가지 고려 사항이 있습니다.The new algorithm for high density line sampling is an important improvement to Power BI, but there are a few considerations you need to know when working with high density values and data.

  • 증가한 세분성 및 범주화 프로세스로 인해 도구 설명은 대표 데이터가 커서와 정렬되는 경우에만 값을 나타낼 수 있습니다.Because of increased granularity and the binning process, Tooltips may only show a value if the representative data is aligned with your cursor. 도구 설명에 대한 자세한 정보는 이 문서의 앞부분에 나오는 섹션을 참조하세요.See the section earlier in this article on Tooltips for more information.
  • 전체 데이터 원본의 크기가 너무 큰 경우 새 알고리즘은 데이터 가져오기 최대 제약 조건에 맞도록 시리즈(범례 요소)를 제거합니다.When the size of an overall data source is too big, the new algorithm eliminates series (legend elements) to accommodate the data import maximum constraint.

    • 이 경우 새 알고리즘은 범례 시리즈를 사전순으로 정렬하고 데이터 가져오기 최대값에 도달될 때까지 알파벳 순서로 범례 요소의 목록을 아래로 시작하고 추가 시리즈를 가져오지 않습니다.In this situation, the new algorithm orders legend series alphabetically, and starts down the list of legend elements in alphabetical order, until the data import maximum is reached, and does not import additional series.
  • 기본 데이터 집합에 60개 이상의 시리즈가 있는 경우(앞에서 설명한 대로 시리즈의 최대 수) 새 알고리즘은 시리즈를 사전순으로 정렬하고 60번째 사전순으로 정렬된 시리즈를 넘어가는 시리즈를 제거합니다.When an underlying data set has more than 60 series (the maximum number of series, as described earlier), the new algorithm orders the series alphabetically, and eliminates series beyond the 60th alphabetically-ordered series.
  • 데이터의 값이 숫자 또는 날짜/시간 형식이 아닌 경우 Power BI는 새 알고리즘을 사용하지 않으며 이전(비-고밀도 샘플링) 알고리즘으로 돌아갑니다.If the values in the data are not of type numeric or date/time, Power BI will not use the new algorithm, and will revert to the previous (non-High Density Sampling) algorithm.
  • 데이터가 없는 항목 표시 설정은 새 알고리즘에서 지원되지 않습니다.The Show items with no data setting is not supported with the new algorithm.
  • SQL Server Analysis Services(2016 이전 버전)에서 호스팅되는 모델에 대한 라이브 연결을 사용하는 경우 새 알고리즘이 지원되지 않습니다.The new algorithm is not supported when using a live connection to a model hosted in SQL Server Analysis Services (version 2016 or earlier). Power BI 또는 Azure Analysis Services에서 호스팅되는 모델에서 지원됩니다.It is supported in models hosted in Power BI or Azure Analysis Services.

다음 단계Next steps

분산형 차트에서 고밀도 샘플링에 대한 내용은 다음 문서를 참조하세요.For information about high density sampling in scatter charts, see the following article.