试验要点

项目
01/06/2024

本指南将向你介绍试验做法。其将详细说明应尽早试验的原因，并提供最佳做法建议以及帮助你适应流程的信息。

试验至关重要的原因

试验是识别游戏体验更改影响的黄金标准。如果你了解游戏体验更改的影响，并有数据支持，你就能更轻松地做出决策，从而制作更有效的游戏设计、体验和营销策略。持续试验让你能够确定更改的有效性是否会随着时间的推移而降低。

无论你处于游戏开发过程的哪个阶段（创建或运营），PlayFab 试验功能都能让个人、团队和工作室在收集经验数据的同时对游戏体验做出谨慎的更改，这反过来又能帮助你准确找出最适合游戏的内容。

试验作为有效做法，可以让你深入了解受控受众和有限受众(玩家流量)中玩家的行为。进而，避免玩家群获得不满意的游戏体验。此外，还可以更好地利用资源，并轻松启用或禁用实时游戏中的游戏功能。试验可帮助你从凭“主观想法”做出决策转变为“依靠信息”做出决策。这种做法很有效，能让你深入了解受控受众和有限受众（玩家流量）的玩家行为。进而，避免玩家群获得令人厌恶的游戏体验。此外，还可以更好地利用资源，并轻松启用/禁用实时游戏中的游戏功能。

以下是试验时游戏工作室的一些常见目标:

增长活动玩家群
提高转换率
降低顾客流失率

试验的可信度至关重要

当你根据正在运行的试验的结果做出决策时，你将希望确保其中存在某种关系/因果关系。试验的可信度等同于试验结果的统计显著性。

可信度是 PlayFab 试验结果的焦点。所有指标会针对统计显著性进行检查。

例如，如果你运行一个试验，其测量保留率提升 2%，并显示为 p 值为 0.04 的统计显著性，这意味着如果假定 A 和 B 之间没有差异（即假定零假设成立），有 4% 的几率会观察到 2% 或更高的结果。真正的差异不可直接测量，统计信息是用来得到一个合理的估计。噪声（随机性）可能会误导我们。

由于统计显著性可以反映风险容忍度和置信度，因此它非常重要。指标可能每天都会波动，而统计分析则为可以为在干扰环境中做出业务决策提供合理的数学基础。

PlayFab 试验功能将指标移动标记为具有统计显著性，其中置信度为 95% 或 p 值为 0.05。

样本比例不匹配(SRM)

样本比例不匹配（称为 SRM）是一项数据质量检查，表明试验变体（例如试验开始前配置的变体）中用户的预期比例与试验结束时观察到的用户的实际比例之间存在显著差异。

SRM 表明存在一些缺失数据或冗余问题，此问题以不均匀的方式影响控制和处理变体。受控试验的基本原则要求处理和控制变体在统计上必须等效。如果违反此原则，则试验结果可能会受到选择性偏差的影响。

得出 SRM 的分析被视为不可信，不应用于制定决策。实际上，如果试验存在 SRM，请不要从分析中得出任何结论（除非 SRM 问题得到解决。）

如何检测 SRM

让我们举例说明，某项试验配置为在每个控制和处理变体中使用 10% 的流量运行。

Type	1 天	2 天	3 天	5 天	7 天	14 天	21 天
处理变体计数	105	1,050	10,500	105,000	1,050,000	10,500,000	100,500,000
控制变体计数	100	1,000	10,000	100,000	1,000,000	10,000,000	100,000,000
样本比例	1.05	1.05	1.05	1.05	1.05	1.05	1.05
SRM p 值	0.7269	0.2695	0.0005	~=0	~=0	~=0	~=0

在此场景中，即使两个外部测试版之间的实际比例在每个场景中都相同，但处理和控制中，随着用户数的增加，p 值会越来越小。这表示观察到的结果不符合预期。

如何调查 SRM

SRM 调查和解决过程既复杂，又具有不确定性。因此，解决 SRM 需要一种具有全景视图的结构化方法，并要求了解根本原因和解决策略的可能性。为此，

请从“为什么会发生这种情况?”开始
制定关于该 SRM 原因的假设
预测该假设为 true 时会观察到的证据
查找这些证据
分析原因，确定解决方案

提出后续问题有助于调查进行，进而设计出必要的解决步骤。例如:

这是否仅在一项分析/试验或在多项分析/试验中发生?
处理有哪些作用? 试验的性质是什么?
当前(SRM) 和之前(之前无 SRM 的试验)之间是否存在更改
是否更改了视图、管道和筛选器?

SRM 的常见根本原因

游戏中处理体验的崩溃次数多于控制体验
处理体验会意外发送不同数量的数据。例如，客户端上增加遥测缓冲区的试验肯定会增加回退的数据量，进而导致 SRM

作为做法的试验

从假设开始

制定假设，确保试验具有明确的试验目标和场景。此外，请确保你正在测试的更改足够重要。

要建立假设，请使用以下模板:

鉴于观察 [A] 和反馈 [B]，我们认为玩家 [D] 的更改 [C] 将使 [E] 发生。当我看到 [F] 并获取 [G] 时，其将进行验证。
正确计划试验

要获取可靠的结果，请运行比较期的 A/B 试验。说明季节性峰值和低谷。
试验的持续时间

请给试验足够的时间。给试验分配的时间不足可能会使结果产生偏差。如果运行时过短，则可能无法收集足够的数据点来得出统计上准确的结论。如果运行时间过长，可能会因为没有将获胜的变体滚动到潜在变体而面临错过转换的风险。如果你有疑问，重新测试是完全合理的。
注意外部测试版的百分比

外部测试版的百分比决定了样本大小。请将样本大小适当的受众作为目标。否则，你将无法获取可靠的结果，且基于这些数据做出的决策可能具有缺陷。
避免类型 1 和类型 2 错误 试验中的统计信息提供的是可能性，而不是确定性。因此，它无法 100% 地确定试验的某个变体是否为最佳变体。因此，请避免类型 1 和类型 2 错误。

要避免类型 1 错误，请在做出决策和运行更长时间的试验以收集更多数据之前，提高所需的显著性级别(默认情况下，我们已为你将其设置为 95%)。同时，要减少犯类型 2 错误的几率，请增加试验的外部测试规模(样本大小)。
请不要中途对试验进行更改

如果你在理想持续时间结束之前中断测试，或者引入了不属于原始假设的新变量，结果将不可靠。这意味着，会难以确定是其中某项更改导致了转换提升还是只是随机事件。

请注意，变体越多，你就必须运行更长时间的测试，以获得可靠的结果。采用精细的方法。我们建议同时在变体组中试验 2-4 个变量。这样可以实现测试持续时间和效率之间的最佳平衡。
注意 p 值所反映的统计显著性

请确保数据可靠。测量数据可靠性为统计显著性，这决定了结果不是随机发生的。

p 值用于确定 AB 试验所基于的零假设中的统计显著性。它会测量收集的数据与零假设之间的兼容性。值越低，你就越能自信地拒绝零假设。
保持开放思维

有时，你可能想要忽略统计信息，倾向于使用传统知识甚至之前的体验来做出决策 - 不管它多么让你感到意外。如果你不相信测试结果，请再次运行测试并比较数据。

采用试验文化和流程

试验文化极富价值。你必须接受其为其他流程的一部分，以便组织中的每个人都能从中受益。你更有可能找到方法为玩家添加积极的产品价值，因而一致的 A/B 试验可以显著改善转换率。

你可以将制定决策的范例从依赖 HiPPO (最高付费人士的意见)转变为数据驱动的选择。更多员工想法将以测试的形式获得认可。重要的是，当试验想法很容易时，就能谈论结果和后续步骤。除此之外，员工工作时会充满动力。

要构建试验文化，请为游戏迭代引入可靠且可重复的流程。你可以使用以下基础步骤获取常量试验文化:

设置目标

可操作的试验目标（例如参与）允许团队继续进行试验，而不是陷在“增长”等抽象目标中。
在团队的支持下测试更多内容，并确定优先级

收集并分析定性和定量数据，以便根据业务影响集思广益假设/想法并确定优先级。使用可靠且可重复的框架指导团队完成整个试验过程，否则，如果你突然要求他们进行更多试验并进行多次更改，团队将不知所措。
将结果传回团队

作为一个团队传达测试结果，进而围绕试验构建动力。共享会为团队提供有关如何迭代和改进未来测试的见解。这让人们对进一步的试验感到兴奋。
接受失败

失败是测试的一部分，请规范化失败。不要让失败阻碍试验，要反思、学习并继续试验。
实行良好的试验卫生

为团队运行的每个试验创建标准协议。这有助于无论是谁在控制试验，都能保持试验的结果准确且有意义。

阶段	Description
机会分析
调查	试验所有者调查并分析试验机会。确定试验的优先级
试验设计
范围	开始试验设计。确定制定假设的目标指标
功能设计评价	完成功能/体验更改的设计。作为试验的一部分，它通过变量引入到处理变体组
编码	实现功能更改
生产部署	评价试验设计。部署关联代码
试验创建
试验配置	在 PlayFab 中创建试验
试验执行
运行 A/B 试验	根据试验配置开启试验。为目标受众精心安排体验。收集遥测数据并执行统计计算
试验分析
评估结果	通过记分卡评估结果
做出启动决策	利益相关者评估启动决策
推出或回退
总结试用	获胜变体滚动到 100% 的受众