在 Power BI 中分析数据

已完成

分析数据是指了解数据的细微差别:确定异常、检查并开发基本数据结构以及查询数据统计信息,例如行计数、值分布、最小值和最大值,以及平均值等。 这一概念很重要,因为它使你能够对数据进行调整和整理,以便实现轻松地与数据交互和识别数据的分布,这有助于在几乎毫不费力的情况下在前端处理数据来开发报表元素。

假设你正在为组织的销售团队开发报表。  你不确定数据的结构化方式以及数据是如何包含在表中的,因此,需要在开发视觉对象之前在幕后分析数据。  Power BI 的固有功能使这些任务具有了用户友好且直接的特性。

检查数据结构

在 Power Query 编辑器中开始检查数据之前,应首先了解整理数据的基本数据结构。 可以在 Power BI Desktop 的“模型”选项卡下查看最新语义模型。

示例数据结构和功能区栏

在“模型”选项卡上,可以通过选择表或列来编辑特定列和表属性,并且可以通过使用“转换数据”按钮来转换数据,这会使你转至 Power Query 编辑器。 此外,可以使用功能区上的“管理关系”来管理、创建、编辑和删除不同表之间的关系。

查找数据异常和数据统计信息

在创建了到数据源的连接并选择了“转换数据”后,会转至 Power Query 编辑器,你可以从中确定数据中是否存在异常。  数据异常是指数据中存在离群值。 确定存在哪些异常可有助于确定数据的正常分布情况,以及是否存在需要进一步调查的特定数据点。 Power Query 编辑器通过使用“列分布”功能来确定数据异常。

选择功能区上的“视图”,在“数据预览”下,可以从一些选项中进行选择。 若要了解数据异常和统计信息,请选择“列分布”、“列质量”和“列分析”选项。  下图显示了出现的统计信息。

“列质量”和“列分布”显示在数据列上方的图表中。 “列质量”显示有效、错误和空数据的百分比。 理想情况下,100% 的数据都需是有效数据。

数据列的异常和数据统计信息

注意

默认情况下,Power Query 查看数据集的前 1000 行。 若要更改此设置,请在状态栏中选择分析状态,然后选择“基于整个数据集的列分析”。 ]

“列分布”显示数据在列内的分布情况以及明确和唯一值的计数,这两者都可以指示出数据计数的详细信息。 明确值是列中所有不同的值,包括重复值和 NULL 值,而唯一值则不包含重复值和 NULL 值。 因此,这个表中的“distinct”指明总共出现多少个值,而“unique”则指明这些值中有多少只出现了一次。

使用“列分析”,可以深入了解前 1,000 行数据的列内的统计信息。 此列提供了若干个不同的值,包括行计数,这在验证数据是否已成功导入时非常重要。 例如,如果原始数据库有 100 行,则可以使用这一行计数来验证是否存在 100 行,如果是,则表示已正确导入。 此外,这一行计数将显示 Power BI 已视为离群值的行数、空行和字符串以及最小值和最大值,这将分别指示列中最小和最大值。 这种区别对于数字数据尤其重要,因为如果你的最大值超出了业务所定义的“最大值”,它将立即通知你。该值会引起你的注意,这意味着你可以在深入研究数据时集中精力。  如果数据位于文本列中(如上图所示),在数据按字母顺序排序时,最小值是第一个值,而最大值是最后一个值。

此外,“值分布”图还会指示该特定列中每个非重复值的计数。 查看上图中的图时,可以注意到,值分布指示“Anthony Grosse”在“SalesPerson”列中出现的次数最多,“Lily Code”出现的次数最少。 此信息十分重要,因为它可以标识离群值。  如果某个值远远大于列中的其他值,通过“值分布”功能,可以确定开始调查出现此情况原因的位置。

在数值列上,“列统计信息”还将包含存在多少个零和 NULL 值,以及列中的平均值、列中值的标准偏差和列中偶数和奇数值的数量。 这些统计信息使你能够了解数据在列中的分布情况,并且十分重要,因为它们会在列中汇总数据并充当确定离群值的起点。

例如,在查看发票数据时,你注意到“值分布”图显示“SalesPerson”列中的一些销售人员在数据中出现的次数相同。 此外,你还注意到“Profit”列以及其他一些表中也出现了相同的情况。 在调查过程中,你会发现你使用的数据是错误的,需要刷新,因此你应立即进行刷新。 如果不查看此图,你可能不会如此快速地看到此错误,因此,“值分布”是必不可少的功能。

在 Power Query 编辑器中完成你的编辑并且准备开始生成视觉对象后,请回到 Power Query 编辑器功能区上的“开始”。 选择“关闭并应用”,这将使你回到 Power BI Desktop,还将应用任何列编辑/转换。

现在你已确定了构成 Power BI 中的数据分析的元素,这包括在 Power BI 中加载数据、询问列属性以清楚了解列中数据的类型和格式并进行进一步编辑、发现数据异常,以及在 Power Query 编辑器中查看数据统计信息。 掌握这一知识后,你可以在你的工具包中包含能够有效研究数据的功能。