Power BI의 고밀도 선 샘플링

아티클
10/05/2023

Power BI의 샘플링 알고리즘은 고밀도 데이터를 샘플링하는 시각적 개체를 향상합니다. 예를 들어 각 상점에서 발생하는 판매 영수증이 매년 10,000개가 넘는 소매 상점의 판매 결과에서 꺾은선형 차트를 만들 수 있습니다. 이러한 판매 정보의 꺾은선형 차트는 각 상점의 데이터에서 데이터를 샘플링하고, 다중 계열 꺾은선형 차트를 만들어 기본 데이터를 나타냅니다. 시간에 따라 매출이 어떻게 달라지는지 보여 주는 의미 있는 데이터 표현을 선택해야 합니다. 이는 고밀도 데이터 시각화의 일반적인 사례입니다. 고밀도 데이터 샘플링에 대한 자세한 내용은 이 문서에 설명되어 있습니다.

Screenshot of line charts, showing the high-density sampling data.

참고 항목

이 문서에서 설명하는 고밀도 샘플링 알고리즘은 Power BI Desktop 및 Power BI 서비스 둘 다에서 사용할 수 있습니다.

고밀도 선 샘플링 작동 방법

이전에 Power BI는 결정적 방식으로 기본 데이터의 전체 범위에서 샘플 데이터 요소의 컬렉션을 선택했습니다. 예를 들어 한 해 동안의 시각적 개체에 있는 고밀도 데이터의 경우 시각적 개체에 350개 샘플 데이터 요소가 표시되었을 수 있으며, 데이터의 전체 범위가 시각적 개체에 표시되기 위해 각 데이터 요소가 선택되었습니다. 이러한 상황이 발생하는 방식을 이해하기 위해 한 해 동안의 주가를 그리고, 365개의 데이터 요소를 선택하여 꺾은선형 차트 시각적 개체를 만든다고 가정해 보겠습니다. 매일에 대한 하나의 데이터 요소입니다.

이러한 상황에서는 각 날짜 내에 주가에 대한 여러 값이 있습니다. 물론, 매일 주가의 등락이 있지만, 이는 주식 시장이 열려 있는 하루 중 언제든지 발생할 수 있습니다. 고밀도 선 샘플링의 경우 기본 데이터 샘플을 매일 오전 10시 30분 및 오후 12시에 가져오면 기본 데이터의 대표 스냅샷(예: 오전 10시 30분 및 오후 12시의 주가)을 얻게 됩니다. 그러나 이 스냅샷으로 해당 일의 해당 대표 데이터 요소에 대한 주가의 실제적인 등락을 캡처하지 못할 수도 있습니다. 해당 상황 및 기타 상황에서 샘플링은 기본 데이터를 대표하지만 중요한 요소인 일일 주가의 등락을 항상 캡처하지는 않습니다.

정의에 따르면, 고밀도 데이터를 샘플링하여 상호 작용에 응답하는 시각화를 합리적으로 빠르게 만듭니다. 시각적 개체에 너무 많은 데이터 요소가 있으면 문제가 발생할 수 있으며, 추세의 가시성이 손상될 수 있습니다. 데이터를 샘플링하는 방법은 최상의 시각화 환경을 제공하는 샘플링 알고리즘을 만드는 것입니다. Power BI Desktop에서 알고리즘은 이제 각 시간 조각에서 중요한 요소에 대한 응답성, 표현 및 명확한 보존의 최적 조합을 제공합니다.

새 선 샘플링 알고리즘 작동 방법

고밀도 선 샘플링에 대한 알고리즘은 연속적인 x 축이 있는 꺾은선형 차트 및 영역 차트 시각적 개체에 사용할 수 있습니다.

고밀도 시각적 개체의 경우 Power BI는 데이터를 고해상도 청크로 지능적으로 분할한 다음, 각 청크를 나타내기 위해 중요한 요소를 선택합니다. 고해상도 데이터 분할의 해당 프로세스는 결과 차트가 모든 기본 데이터 요소 렌더링에서 시각적으로 구별되지만 훨씬 빠르고 더욱 대화형이 되도록 조정됩니다.

고밀도 선 시각적 개체에 대한 최소 및 최대값

시각화의 경우 다음과 같은 제한 사항이 적용됩니다.

3,500은 기본 데이터 요소 또는 계열의 수와 관계없이 대부분의 시각적 개체에 표시되는 데이터 요소의 최대 수입니다. 다음 글머리 기호 목록의 예외를 참조하세요. 예를 들어, 각각 350개의 데이터 요소가 있는 10개의 계열이 있는 경우 시각적 개체는 해당 최대 전체 데이터 요소 제한에 도달했습니다. 하나의 계열이 있는 경우 이 알고리즘이 이를 기본 데이터에 대한 최상의 샘플링으로 여기는 경우 최대 3,500개의 데이터 요소를 가질 수 있습니다.
모든 시각적 개체에 대해 최대 60개의 계열이 있습니다. 60개를 초과하는 계열이 있는 경우 데이터를 분할하여 각각 60개 이하의 계열이 있는 시각적 개체를 여러 개 만듭니다. 슬라이서를 사용하여 특정 계열에 대한 데이터의 세그먼트만 표시하는 것이 좋습니다. 예를 들어 범례에서 모든 하위 범주를 표시하는 경우 슬라이서를 사용하여 동일한 보고서 페이지에서 전체 범주별로 필터링할 수 있습니다.

3,500개 데이터 요소 한도의 ‘예외’인 다음 시각적 개체 형식의 경우 최대 데이터 한도 수가 더 높습니다.

R 시각적 개체의 경우 150,000개 데이터 요소 최댓값.
Azure Map 시각적 개체에 대한 30,000개의 데이터 요소
일부 분산형 차트 구성의 경우 10,000개 데이터 요소(분산형 차트의 기본값은 3,500개).
고밀도 샘플링을 사용하는 다른 모든 시각적 개체의 경우 3,500개. 일부 다른 시각적 개체는 더 많은 데이터를 시각화할 수 있지만 샘플링을 사용하지 않습니다.

이러한 매개 변수는 Power BI Desktop의 시각적 개체가 빠르게 렌더링되고, 사용자와의 상호 작용에 응답하고, 시각적 개체를 렌더링하는 컴퓨터에 과도한 계산 오버헤드가 발생하지 않도록 합니다.

고밀도 선 시각적 개체에 대한 대표 데이터 요소 평가

기본 데이터 요소의 수가 시각적 개체에 나타낼 수 있는 최대 데이터 요소 수를 초과하는 경우, 범주화라는 프로세스가 시작됩니다. 범주화는 기본 데이터를 bins이라는 그룹으로 청크한 다음, 해당 bin을 반복적으로 구체화합니다.

알고리즘은 시각적 개체에 대한 가장 큰 세분성을 만들기 위해 가능한 많은 bins를 만듭니다. 각 bin 내에서 알고리즘은 최소 및 최대 데이터 값을 찾아 중요하고 의미 있는 해당 값(예: 이상값)이 시각적 개체에서 캡처되고 표시되도록 합니다. Power BI에 의한 데이터의 범주화 및 후속 평가의 결과에 따라 시각적 개체에 대한 최대 세분성을 보장하도록 시각적 개체에 대한 x 축의 최소 해상도가 결정됩니다.

앞에서 설명한 대로 대부분의 시각적 개체에 대해 각 계열에 대한 최소 세분성은 350개의 요소이며 최댓값은 3,500입니다. 예외는 이전 단락에 나와 있습니다.

각 bin은 두 개의 데이터 요소로 표시되며 시각적 개체에서 bin의 대표 데이터 요소가 됩니다. 데이터 요소는 해당 bin에 대한 높고 낮은 값입니다. 높은 값 및 낮은 값을 선택하여 범주화 프로세스는 모든 중요한 높은 값 또는 중요한 낮은 값이 시각적 개체에서 캡처 및 렌더링되도록 합니다.

가끔 발생하는 이상값을 캡처하고 시각적 개체에 올바르게 표시할 수 있도록 분석을 많이 하는 것처럼 들린다면 맞는 말일 것입니다. 이는 새 알고리즘 및 범주화 프로세스에 대한 정확한 이유가 됩니다.

도구 설명 및 고밀도 선 샘플링

지정된 저장소의 최솟값 및 최댓값을 캡처하고 표시하는 이 범주화 프로세스는 데이터 요소 위를 마우스로 가리킬 때 도구 설명에서 데이터를 표시하는 방법에 영향을 줄 수 있습니다. 이 문제가 발생하는 상황과 이유를 설명하기 위해 주가의 예를 다시 살펴보겠습니다.

주가를 기반으로 하는 시각적 개체를 만들고, 고밀도 샘플링을 사용하는 서로 다른 두 주식을 비교한다고 가정합니다. 각 계열에 대한 기본 데이터에는 수많은 데이터 요소가 있습니다. 예를 들어, 매일 각 초당 주가를 캡처할 수도 있습니다. 고밀도 선 샘플링 알고리즘은 각 계열에 대해 서로 독립적으로 범주화를 수행합니다.

이제 첫 번째 주식이 12시 2분에 상승한 다음, 10초 후에 다시 빠르게 하락한다고 가정합니다. 이는 중요한 데이터 요소입니다. 해당 주식에 대한 범주화가 발생할 때 12시 2분의 높이는 해당 bin에 대한 대표 데이터 요소가 됩니다.

그러나 두 번째 주식의 경우 12시 2분은 해당 시간을 포함한 저장소에서 높거나 낮은 것이 아닙니다. 아마도 3분 후에 12시 2분을 포함하는 저장소에서 높거나 낮을 것입니다. 이러한 상황에서 꺾은선형 차트를 만들고 12시 2분으로 마우스를 가져갈 때 첫 번째 주식에 대한 도구 설명에서 값이 표시됩니다. 이는 12시 2분에 점프했고 해당 값이 해당 bin의 높은 데이터 요소로 선택되었기 때문입니다. 그러나 12시 2분에는 도구 설명에 두 번째 주식에 대한 어떤 값도 표시되지 않습니다. 이는 12시 2분을 포함하는 bin에 대해 두 번째 주식에 높음 및 낮음이 없기 때문입니다. 따라서 12시 2분에는 두 번째 주식에 대해 표시할 데이터가 없으므로 도구 설명 데이터가 표시되지 않습니다.

이 상황은 도구 설명에서 자주 발생합니다. 특정 bin에 대한 높은 값 및 낮은 값은 균등하게 스케일링된 x축 값 요소와 완벽하게 일치하지 않을 수 있으므로 도구 설명은 값을 표시하지 않습니다.

고밀도 선 샘플링을 설정하는 방법

기본적으로 이 알고리즘은 켜짐입니다. 이 설정을 변경하려면 서식 창으로 이동하고, 일반 카드의 아래쪽에 고밀도 샘플링 슬라이더가 표시되어 있습니다. 슬라이더를 선택하여 켜짐 또는 꺼짐으로 전환합니다.

Screenshot of a high-density line sampling, showing pointers to the Formatting pane, General, and High Density Sampling.

고려 사항 및 제한 사항

고밀도 선 샘플링에 대한 알고리즘은 Power BI에 중요한 향상된 기능이지만 고밀도 값 및 데이터를 사용할 때 알아야 할 몇 가지 고려 사항이 있습니다.

증가한 세분성 및 범주화 프로세스로 인해 도구 설명은 대표 데이터가 커서와 정렬되는 경우에만 값을 나타낼 수 있습니다. 자세한 내용은 이 문서의 도구 설명 및 고밀도 선 샘플링 섹션을 참조하세요.
전체 데이터 원본의 크기가 너무 큰 경우 알고리즘은 데이터 가져오기 최대 제약 조건에 맞도록 계열(범례 요소)을 제거합니다.
- 이 경우 알고리즘은 범례 계열을 사전순으로 정렬하고, 데이터 가져오기 최댓값에 도달할 때까지 사전순으로 범례 요소의 목록을 아래로 시작하고, 추가 계열을 가져오지 않습니다.
기본 데이터 집합에 계열의 최대 수인 60개 이상의 계열이 있는 경우 새 알고리즘은 계열을 사전순으로 정렬하고 60번째 사전순으로 정렬된 계열을 초과하는 계열을 제거합니다.
데이터의 값이 숫자 또는 날짜/시간 형식이 아닌 경우 Power BI는 알고리즘을 사용하지 않으며 이전 비고밀도 샘플링 알고리즘으로 되돌아갑니다.
데이터가 없는 항목 표시 설정은 알고리즘에서 지원되지 않습니다.
SQL Server Analysis Services 버전 2016 이하에서 호스트되는 모델에 대한 라이브 연결을 사용하는 경우 이 알고리즘이 지원되지 않습니다. Power BI 또는 Azure Analysis Services에서 호스팅되는 모델에서 지원됩니다.

Power BI 분산형 차트의 고밀도 샘플링