没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
数据的比较分析(二):不同产品版本之间的差
异
在“A/B 测试”和“竞品分析”中,我们如何判断两个版本的产品设计的差别?
上节《数据的比较分析(一):我们达到或者超过目标了吗?》我们讲述的是产品改版基
于目标指标,我们距离还有多远,从而制定改进的产品迭代的策略。
而这节讲到不同版本之间的差异,主要用在“A/B 测试”和“竞品分析”中,我们需要判
断两个版本的产品设计的差别,如转化率、任务时长、排名;仅仅通过描述性的统计并宣
称一个设计的好坏是远远不够的,这时候我们就会发现统计学的必要性。
一、我们从“组内比较”和“组间比较”说起
这里我们常常会涉及到的是“组内比较”和“组间比较”。
组内比较
一般来说是让通一组人参加两个不同版本的设计,这两个版本可能是竞品,可能是一个公
司不同产品经理或者 UI 设计师设计出来的作品;这样的试验好处在于可以排除个体差异
对测试结果的混淆。
在这类测试中你需要对用户先接触哪个产品做平衡处理,从而将学习效应的影响降到最低。
如果让用户先体验 A 产品,无论结果是支持或者否定 A 产品,都可能存在由于顺序造成的
用户偏差风险,这时候组内设计发挥的作用是,将检测结果的差异归因产品间有差异(而
非个体的差异),且同样的样本可以检测到更小的差异。
组间设计
组间设计比较的是不同的用户使用不同的产品,不同的用户和不同的设计都会带来变化;
所有我们必须检验均值间的差异是否比不同的用户所带来的差异更大。
这里要特别说明一下 A/B 测试,现在我们常用的 AB 测试一般来说都是测量的是转化率这
个指标,但是转化率这个指标我觉得是一个综合指标,一个转化目标是受很多因素来影响
的,例如例如转化目标受产品的可用性、LITT 模型等等。
而且在测试期间,为了保证不同版本的测试差异最小,需要的是同一时间、同一场景、同
一用户样本,所有这这期间在最短的时间内达到需要的样本容量的话,所受的影响因素会
最小。
所以很多 AB 测试的产品都需要使用的产品在日活达到 1000UV 以上,这样就能在最短的时
间内,达到想要的样本容量。
二、在比较分析时受影响的因素
(1)实验的类型:首先要确定这是组内试验还是组间试验?
(2)样本的大小:其次相对而言是大样本还是小样本?
(3)数量的类型:最后看数据的类型,是连续性数据还是离散型二分式数据?
三、连续型数据的对比
1. 组内比较——配对 t 检验
关于 t 值得计算方法:
我们得到检验统计量(t)值之后,为了确实是否差异显著,需要在 t 表(t-table)中查
p 值(p-value),也可以使用 Excel 公式=TDIST()来计算或者核算值。该计算方法无论
大小样本都适用。
关于差异的置信区间的计算方法:
配对 t 检验中的 p 值只用来告诉我们差异是否显著,但是我们做比较的时候我们还想知道
差异究竟有多大既常说的“效应量”;随着样本容量增大(至少 100 以上),检测结果很
容易出现统计显著差异,而实际的效应量却不显著。
差异的置信区间有助于区分细微的(即便是统计显著性的)差异和值得引起使用者注册的
差异。
计算差异分数的置信区间如下:
2. 组间比较——双样本 t 检验
组间比较的时候,不同用户使用不同的产品;不同用户和不同设计都会带来变化。必须建
议均值间的差异是否比不同用户所带来的差异更大。
关于 t 值得计算方法:
这属于双样本 t 检验,得出的 t 值需要使用 Excel 公式=TDIST(t,自由度,样本组数
量),通过这个公式来得到 p-value 值,最后确定两个样本直接是否存在统计的显著性。
关于差异的置信区间的计算方法:
在计算特定水平置信度和自由度下的临界值时的计算方法是:
剩余20页未读,继续阅读
资源评论
76725413
- 粉丝: 16
- 资源: 6951
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功