Amostragem de linha de alta densidade no Power BIHigh density line sampling in Power BI

A partir do lançamento em junho de 2017 do Power BI Desktop e das atualizações do serviço do Power BI, um novo algoritmo de amostragem estará disponível que melhora os visuais que fazem a amostra de dados de alta densidade.Beginning with the June 2017 release of the Power BI Desktop and updates to the Power BI service, a new sampling algorithm is available that improves visuals that sample high density data. Por exemplo, é possível criar um gráfico de linhas dos resultados de vendas de suas lojas de varejo, com cada loja tendo mais de dez mil recibos de venda todo ano.For example, you might create a line chart from your retail stores’ sales results, each store having more than ten thousand sales receipts each year. Um gráfico de linhas dessas informações faria a amostragem de dados (selecione uma representação significativa dos dados, para ilustrar como as vendas variam ao longo do tempo) dos dados de cada loja e criaria um gráfico de linhas multissérie que, assim, representa os dados subjacentes.A line chart of such sales information would sample data (select a meaningful representation of that data, to illustrate how sales varies over time) from the data for each store, and create a multi-series line chart that thereby represents underlying data. Essa é uma prática comum na visualização de dados de alta densidade e o Power BI Desktop melhorou sua amostragem de dados de alta densidade, cujos detalhes são descritos neste artigo.This is common practice in visualizing high density data, and Power BI Desktop has improved its sampling of high density data, the details of which are described in this article.

Observação

O algoritmo de amostragem de alta densidade descrito neste artigo aplica-se a, e está disponível em ambos: no Power BI Desktop e no serviço do Power BI.The high density sampling algorithm described in this article applies to, and is available in, both Power BI Desktop and the Power BI service.

Como a amostragem de linha de alta densidade funcionaHow high density line sampling works

Anteriormente, o Power BI selecionava uma coleção de pontos de dados de amostra em toda a gama de dados subjacentes de uma maneira determinística.Previously, Power BI selected a collection of sample data points in the full range of underlying data in a deterministic fashion. Por exemplo, para dados de alta densidade em um visual que abrangesse um ano calendário, poderia haver 350 pontos de dados de amostra exibidos no visual, cada um dos quais era selecionado para garantir que o intervalo completo de dados (a série geral de dados subjacentes) fosse representado no visual.For example, for high density data on a visual spanning one calendar year, there might be 350 sample data points displayed in the visual, each of which was selected to ensure the full range of data (the overall series of underlying data) was represented in the visual. Para ajudar a entender como isso acontece, imagine que estivéssemos plotando o preço de ações durante o período de um ano e selecionássemos 365 pontos de dados para criar um visual de gráfico de linhas (é um ponto de dados para cada dia).To help understand how this happens, imagine we were plotting stock price over a one-year period, and selected 365 data points to create a line chart visual (that's one data point for each day).

Nessa situação, há muitos valores para o preço de uma ação em cada dia.In that situation, there are many values for a stock price within each day. Claro que há uma alta e uma baixa diárias, mas isso poderia ocorrer a qualquer momento durante o dia quando o mercado de ações está aberto.Of course there is a daily high and low, but those could occur at any time during the day when the stock market is open. Para amostragem de linha de alta densidade, se a amostra de dados subjacentes fosse feita às 10h30 e às 12h todos os dias, você receberia um instantâneo que representasse os dados subjacentes (preço às 10h30 e 12h), mas ele não poderia capturar a alta e a baixa reais da ação para esse ponto de dados representativo (nesse dia).For high density line sampling, if the underlying data sample was taken at 10:30am and 12:00pm each day, you would get a representative snapshot of the underlying data (the price at 10:30am and 12:00pm), but it might not capture the actual high and low of the stock price for that representative data point (that day). Nessa situação – e em outras –, a amostragem é representativa dos dados subjacentes, mas ela nem sempre captura pontos importantes, que nesse caso seriam as altas e baixas do preço da ação por dia.In that situation – and others – the sampling is representative of the underlying data, but it doesn’t always capture important points, which in this case would be daily stock price highs and lows.

Por definição, os dados de alta densidade são amostrados para habilitar visualizações que podem ser criadas razoavelmente rapidamente e que são responsivas quanto à interatividade (muitos pontos de dados em um visual podem atrasá-lo e diminuir a visibilidade das tendências).By definition, high density data is sampled to enable visualizations that can be created reasonably quickly, are responsive to interactivity (too many data points on a visual can bog it down, and can detract from the visibility of trends). Como esses dados são amostrados, para oferecer a melhor experiência de visualização, é o que orienta a criação do algoritmo de amostragem.How such data is sampled, to provide the best visualization experience, is what drives the creation of the sampling algorithm. No Power BI Desktop, o algoritmo foi aprimorado para fornecer a melhor combinação de capacidade de resposta, representação e preservação clara de pontos importantes em cada fração de tempo.In Power BI Desktop, the algorithm has been improved to provide the best combination of responsiveness, representation, and clear preservation of important points in each time slice.

Como o novo algoritmo de amostragem de linha funcionaHow the new line sampling algorithm works

O novo algoritmo de amostragem de linha de alta densidade está disponível para visuais de gráfico de linhas e de gráfico de área com um eixo x contínuo.The new algorithm for high density line sampling is available for line chart and area chart visuals with a continuous x axis.

Para um visual de alta densidade, o Power BI segmenta de forma inteligente seus dados em partes de alta resolução e, em seguida, escolhe pontos importantes para representar cada parte.For a high density visual, Power BI intelligently slices your data into high resolution chunks, and then picks important points to represent each chunk. Esse processo de fatiamento de dados de alta resolução é ajustado especificamente para garantir que o gráfico resultante seja praticamente inseparável da renderização de todos os pontos de dados subjacentes, mas de forma mais rápida e mais interativa.That process of slicing high resolution data is specifically tuned to ensure that the resulting chart is visually indistinguishable from rendering all of the underlying data points, but much faster and more interactive.

Valores mínimo e máximo dos visuais de linha de alta densidadeMinimum and maximum values for high density line visuals

Para qualquer visualização fornecida, aplicam-se as seguintes limitações de visual:For any given visualization, the following visual limitations apply:

  • 3.500 é o número máximo de pontos de dados exibidos no visual, independentemente do número de séries ou pontos de dados subjacentes.3,500 is the maximum number data points displayed on the visual, regardless of the number of underlying data points or series. Sendo assim, se você tiver 10 séries com 350 pontos de dados cada, o visual terá atingido seu limite máximo de pontos de dados gerais.As such, if you have 10 series with 350 data points each, the visual has reached its maximum overall data points limit. Se você tiver uma série, ela poderá ter até 3.500 pontos de dados se o novo algoritmo considerá-la a melhor amostragem para os dados subjacentes.If you have one series, it may have up to 3,500 data points if the new algorithm deems that the best sampling for the underlying data.
  • Há um máximo de 60 séries para qualquer visual.There is a maximum of 60 series for any visual. Se você tiver mais de 60 séries, divida os dados e crie vários visuais com 60 séries ou menos cada.If you have more than 60 series, break up the data and create multiple visuals with 60 or less series each. É recomendável usar uma segmentação de dados para mostrar apenas os segmentos dos dados (apenas determinadas séries).It's good practice to use a slicer to show only segments of the data (only certain series). Por exemplo, se você estiver exibindo todas as subcategorias na legenda, será possível usar uma segmentação de dados para filtrar pela categoria geral na mesma página de relatório.For example, if you're displaying all subcategories in the legend, you could use a slicer to filter by the overall category on the same report page.

Esses parâmetros garantem que esses visuais no Power BI Desktop renderizem muito rapidamente e sejam dinâmicos quanto à interação com os usuários e não resultem em sobrecarga computacional indevida no computador que está renderizando o visual.These parameters ensure that visuals in Power BI Desktop render very quickly, and are responsive to interaction with users, and do not result in undue computational overhead on the computer rendering the visual.

Avaliando pontos de dados representativos para visuais de linha de alta densidadeEvaluating representative data points for high density line visuals

Quando o número de pontos de dados subjacentes exceder os pontos de dados que podem ser representados no visual (exceder 3.500), um processo chamado compartimentalização será iniciado, que particiona os dados subjacentes em grupos chamados compartimentos e, em seguida, refinará iterativamente esses compartimentos.When the number of underlying data points exceeds the data points that can be represented in the visual (exceeds 3,500), a process called binning begins, which chunks the underlying data into groups called bins, and then iteratively refines those bins.

O algoritmo cria o máximo de compartimentos possível para criar a maior granularidade para o visual.The algorithm creates as many bins as possible to create the greatest granularity for the visual. Dentro de cada compartimento, o algoritmo localiza o valor mínimo e máximo de dados, para garantir que os valores importantes e significativos (por exemplo, exceções) sejam capturados e exibidos no visual.Within each bin, the algorithm finds the minimum and maximum data value, to ensure that important and significant values (for example, outliers) are captured and displayed in the visual. Com base nos resultados da compartimentalização e na avaliação subsequente dos dados realizada pelo Power BI, a resolução mínima do eixo x para o visual é determinada – para garantir a granularidade máxima do visual.Based on the results of the binning and subsequent evaluation of the data by Power BI, the minimum resolution for the x axis for the visual is determined – to ensure maximum granularity for the visual.

Conforme mencionado anteriormente, a granularidade mínima de cada série é de 350 pontos, a máxima é de 3.500.As mentioned previously, the minimum granularity for each series is 350 points, the maximum is 3,500.

Cada compartimento é representado por dois pontos de dados, que se tornam os pontos de dados representativos do compartimento no visual.Each bin is represented by two data points, which become the bin's representative data points in the visual. Os pontos de dados são simplesmente o valor alto e baixo desse compartimento e ao selecionar a alta e a baixa, o processo de compartimentalização garante que qualquer valor alto importante, ou valor baixo significativo, seja capturado e renderizado no visual.The data points are simply the high and low value for that bin, and by selecting the high and low, the binning process ensures any important high value, or significant low value, is captured and rendered in the visual.

Se isso se parece muito com análise para garantir que a exceção ocasional seja capturada e devidamente exibida no visual, então você está certo – e esse é exatamente o motivo por trás do novo algoritmo e do processo de compartimentalização.If that sounds like a lot of analysis to ensure the occasional outlier is captured, and is properly displayed in the visual, then you are correct – and that’s exactly the reason behind the new algorithm and binning process.

Dicas de ferramenta e amostragem de linha de alta densidadeTooltips and high density line sampling

É importante observar que esse processo de compartimentalização, que resulta no valor mínimo e máximo em um determinado compartimento sendo capturados e exibidos no visual, pode afetar como dicas de ferramentas exibem os dados quando você passa o mouse sobre os pontos de dados.It’s important to note that this binning process, which results in the minimum and maximum value in a given bin being captured and displayed in the visual, may affect how tooltips display data when you hover over data points. Para explicar como e por que isso ocorre, vamos repassar o nosso exemplo sobre os preços de ações mais acima neste artigo.To explain how and why this occurs, let’s revisit our example about stock prices from earlier in this article.

Digamos que você está criando um visual com base no preço de ações e comparando duas ações diferentes, que estão usando Amostragem de alta densidade.Let’s say you’re creating a visual based on stock price, and you're comparing two different stocks, both of which are using High Density Sampling. Os dados subjacentes para cada série têm muitos pontos de dados (talvez você capture o preço de ações a cada segundo do dia).The underlying data for each series has lots of data points (maybe you capture the stock price each second of the day). O algoritmo de amostragem de linha de alta densidade realiza a compartimentalização para cada série independentemente da outra.The high density line sampling algorithm with perform binning for each series independently of the other.

Agora vamos supor que a primeira ação tem uma alta no preço às 12h02. Em seguida, ela cai rapidamente dez segundos depois – isso é um ponto de dados importante.Now let's say the first stock jumps up in price at 12:02, then quickly comes back down ten seconds later – that’s an important data point. Quando a compartimentalização ocorre para essa ação, a alta às 12h02 será um ponto de dados representativo desse compartimento.When binning occurs for that stock, the high at 12:02 will be a representative data point for that bin.

Mas, para a segunda ação, 12h02 não foi a alta nem a baixa no compartimento que incluía esse horário – talvez a alta e a baixa para o compartimento que inclui 12h02 ocorreu três minutos depois.But for the second stock, 12:02 was neither a high nor a low in the bin that included that time - maybe the high and low for the bin that includes 12:02 occurred three minutes later. Nessa situação, quando o gráfico de linhas for criado e você passar o mouse sobre 12h02, você verá um valor na dica de ferramenta para a primeira ação (porque ela subiu às 12h02 e esse valor foi selecionado como o ponto de dados alto desse compartimento), mas você não verá nenhum valor na dica de ferramenta às 12h02 para a segunda ação.In that situation, when the line chart is created and you hover over 12:02, you will see a value in the tooltip for the first stock (because it jumped at 12:02 and that value was selected as that bin's high data point), but you will not see any value in the tooltip at 12:02 for the second stock. Isso ocorre, porque a segunda ação não tinha uma alta nem uma baixa para o compartimento que incluía 12h02.That's because the second stock had neither a high, nor a low, for the bin that included 12:02. Portanto, não há nenhum dado para ser mostrado para a segunda ação às 12h02 e, portanto, nenhum dado de dica de ferramenta é exibido.So there's no data to show for the second stock at 12:02, and thus, no tooltip data is displayed.

Essa situação acontecerá com frequência com dicas de ferramenta.This situation will happen frequently with tooltips. Os valores altos e baixos para um determinado compartimento talvez não correspondam perfeitamente com os pontos de valor do eixo x uniformemente dimensionados e, sendo assim, a dica de ferramenta não exibirá o valor.The high and low values for a given bin might not match perfectly with the evenly scaled x-axis value points, and as such the tooltip will not display the value.

Como ativar a amostragem de linha de alta densidadeHow to turn on high density line sampling

Por padrão, o novo algoritmo está ativado.By default, the new algorithm is turned on. Para alterar essa configuração, acesse o painel Formatação, no cartão Geral e, na parte inferior, você verá um controle deslizante de alternância chamado Amostragem de Alta Densidade.To change this setting, go to the Formatting pane, in the General card, and along the bottom you see a toggle slider called High Density Sampling. Para desativá-lo, deslize-o para Desativado.To turn it off, slide it to Off.

Considerações e limitaçõesConsiderations and limitations

O novo algoritmo de amostragem de linha de alta densidade é uma melhoria importante no Power BI, mas há algumas considerações que você precisa saber ao trabalhar com os dados e valores de alta densidade.The new algorithm for high density line sampling is an important improvement to Power BI, but there are a few considerations you need to know when working with high density values and data.

  • Devido à maior granularidade e ao processo de compartimentalização, talvez as Dicas de ferramenta só mostrarão um valor se os dados de amostra estiverem alinhados com o cursor.Because of increased granularity and the binning process, Tooltips may only show a value if the representative data is aligned with your cursor. Consulte a seção mais acima neste artigo sobre Dicas de ferramenta para obter mais informações.See the section earlier in this article on Tooltips for more information.
  • Quando o tamanho de uma fonte de dados geral for grande demais, o novo algoritmo eliminará a série (elementos de legenda) para acomodar a máxima restrição de importação de dados.When the size of an overall data source is too big, the new algorithm eliminates series (legend elements) to accommodate the data import maximum constraint.

    • Nessa situação, o novo algoritmo ordena a série de legenda alfabeticamente e inicia a lista de elementos de legenda em ordem alfabética até que o máximo de importação de dados seja atingido e não importa uma série adicional.In this situation, the new algorithm orders legend series alphabetically, and starts down the list of legend elements in alphabetical order, until the data import maximum is reached, and does not import additional series.
  • Quando um conjunto de dados subjacente tiver mais de 60 séries (o número máximo de séries, conforme descrito anteriormente), o novo algoritmo ordenará a série alfabeticamente e eliminará séries após a 60ª série ordenada alfabeticamente.When an underlying data set has more than 60 series (the maximum number of series, as described earlier), the new algorithm orders the series alphabetically, and eliminates series beyond the 60th alphabetically-ordered series.
  • Se os valores nos dados não forem do tipo numérico ou data/hora, o Power BI não usará o novo algoritmo e reverterá para o algoritmo anterior (que não seja Amostragem de alta densidade).If the values in the data are not of type numeric or date/time, Power BI will not use the new algorithm, and will revert to the previous (non-High Density Sampling) algorithm.
  • A configuração Mostrar itens sem dados não tem suporte com o novo algoritmo.The Show items with no data setting is not supported with the new algorithm.
  • Não há suporte para o novo algoritmo ao usar uma conexão dinâmica com um modelo hospedado no SQL Server Analysis Services (versão 2016 ou anterior).The new algorithm is not supported when using a live connection to a model hosted in SQL Server Analysis Services (version 2016 or earlier). Há suporte para ele em modelos hospedados no Power BI ou no Azure Analysis Services.It is supported in models hosted in Power BI or Azure Analysis Services.

Próximas etapasNext steps

Para obter informações sobre a amostragem de alta densidade em gráficos de dispersão, consulte o artigo a seguir.For information about high density sampling in scatter charts, see the following article.