本文来自微信公众号 “旅行顺便改变世界”,作者: Ver0,纷传经授权发布。
今天分享一个分析师的老朋友——「辛普森悖论」,只要是在可拆解场景,都有「坑」的身影,所以也成为了数据分析面试中的常客。本文主要侧重于其在业务中的实际表现场景,需要分析同学引起警惕,其之「坑」,小则忽略改进机会,大则结论直接错误。
01
什么是辛普森悖论
既然叫「悖论」,首先肯定是反常识的。还是以一个简单的案例来引入吧:
(案例瞎编,如有雷同,纯属巧合)假设一个产品,无论安卓端还是IOS端的用户留存率都较去年同期有提升,是否大盘的留存率一定有提升?
平台 | 去年次月留存率 | 今年次月留存率 |
Android | 30% | 35% |
iOS | 50% | 55% |
受过多年应试教育锤炼的我们,看到「一定」两个字就会觉得必有玄机。
是的,你没想错,就算我们穷举了各个维度,且各个维度趋势一致,也未必能反映大盘的特性。
为什么?因为我们只关注了「比值」而没关心「绝对值」。
让我们把数据展开再看一下实际的量级:
平台 | 去年当月活跃用户数 | 去年次月留存数 | 去年次月留存率 | 今年当月用户数 | 今年次月留存数 | 今年次月留存率 |
Android | 1,000 | 300 | 30% | 5,000 | 1,750 | 35% |
iOS | 800 | 400 | 50% | 100 | 55 | 55% |
总体 | 1,800 | 700 | 39% | 5,100 | 1,805 | 35% |
是不是很能反映问题了?
虽然双端的留存率都有提升,但是整体的留存率出现了大幅下降。其主要原因是iOS用户出现大量流失,只剩下核心用户;安卓端次月留存率较低,但用户量级较大,拉低了整体留存率。
这就是有名的辛普森悖论,用学术一点的语言解释:
「计算分项的比例(比如各种各样的率)数据时,A方的每一分项的数据都比B方要高,但是把各分项一汇总起来算总体数据时,A方却比B方低。这种不符合常规认知的“悖论”现象,在数据分析领域并不少见;这种在进行分组研究的时候,有时在每个组比较时都占优势的一方,在总评中有时反而是失势的一方的“悖论”现象就叫辛普森悖论。」
接下来,我们来看看在业务中有哪些可能踩坑的地方。
02
场景一:只注重比例指标,不注重绝对值变化
在工作场景中,这样的表述是不是似曾相识:
「我们的活跃用户付费率从3%提升到了5%,说明付费流程改版效果非常好,对用户的付费率有了较大幅度的提升。」
「近期我们APP的内容播放率有所提升,亲子类播放率提升30%,历史类播放率提升10%,所以APP内容播放率的提升是亲子类内容带来的。」
乍看好像没啥问题,但是其实经不起推敲。
面对情景一,也许我们按重度用户、轻度用户去拆解,会发现两边的付费率其实都没有明显改变,这个付费率的提升是由于近期重度用户在日活中的占比增加了。那把付费率的提升归功于付费流程的改版好像多少有点不对劲。
后续的分析过程中,我们的重点就需要调整为「为什么重度用户在日活的占比增加了」。可能是因为轻度用户转化为了重度用户,好事情,不用太担心。也可能是轻度用户逐渐流失了,只留下一些重度用户,那我们又得进一步分析「为什么轻度用户逐渐流失」。
数据分析,就是类似这样抽丝剥茧的过程。
对于场景二,也与场景一大同小异,忽略量级直接聊比例都是耍流氓。假设本来亲子内容有10个播放,现在13个,历史类本来有1000个播放,现在有1100个。你还能自信的说内容播放率提升是由亲子内容播放提升带来的吗?
与之类似,当一个渠道今天的新增注册用户只有100人时,明天有1000个新增都是10倍增长。一个新增注册有10,000人的渠道,哪怕只涨10%,就能带来同等的增量。
03
场景二:拆解做的不够,关键维度有缺失
简单来说,我们如果不做拆解或者拆解做的不够,只关注总体表现,就会忽略了「被平均」的一部分人,或者忽略其他关键维度对数据的影响。数据分析的艺术有时候也就是从各个维度拆解的艺术,忽略关键维度,小则错失改进的机会,大则出现结论性错误。
比如,投放时我们发现某个投放素材的ROI较低,就决定直接把它停了。但是真实世界往往是十分复杂的,也许这个素材在中国不行,在美国又行了,在美国不行,在南美又行了。在高收入人群不行,可能在低收入人群又很能打。
这里引用头条的一道面试题来进一步解释吧:
对潜在客户进行投放时,30岁以上客户1000人,转化率2%,30岁以下3000人,转化率4%,整体转化率就是3.5%,所以分析师得出结论:30岁以上的客户价值低,不建议再投放。请问这个结论合理吗?
我们有几种角度来驳斥这个结论。
第一,没有呈现其他重要维度,可能是样本选择不均衡。首先,30岁以下选了3,000人,30岁以上则选了1,000人,30岁以下用户和30岁以上的用户的人口学特征是否一致呢?
假设咱们30岁以上人群选的低收入人群占比高,30岁以下选的是高收入人群占比高,对结论必然产生影响。所以除了30岁以下/30岁以上这个拆分,我们可能还要按人群收入进行拆分。
第二,衡量投放效果,不能仅仅关注转化率,也要关注用户生命周期整体LTV。假设30岁以下人群买的大多是9.9的走量产品,30岁以上买的都是999的利润产品,你还能说30岁以上的用户没有价值吗?
04
场景三:AB实验时测试效果很好,实际上线后翻车
而辛普森悖论也可以为一些业务现象提供一些合理解释。「AB实验测试效果好,上线效果一般」的原因有很多,比如「新奇效应」或者「统计显著不等于业务显著」,但是「辛普森悖论」也是导致翻车的种子选手之一。
举个例子,虽然我们在进行AB实验时会对用户进行随机分流,我也认可这种分流足够准确,但是测试往往是跟随版本迭代进行的,可能这类率先进入ab实验,勤于更新的用户本身就是这种对app更为热衷,活跃度更高的用户。最后我们依照实验结果发布版本,可能对于某些活跃度没这么高的用户,反而有负面影响。
甚至极端一点,实验版的新用户流程可能有bug,但是因为新用户在大盘占比较低,如果我们只看大盘数据,可能不会注意到实验已经对新用户体验产生恶劣影响。
所以要求我们在分析过程中,除了关注主指标,也关注重要维度拆解出的关键指标。比如我已经知道某个维度下各个群体的用户(比如新用户和老用户)的指标表现有所不同了,也很难在实验层面就保证各组用户在该维度下的用户占比是完全均匀的,除了总指标,就需要对该指标进行进一步拆解分析。比如看付费率不光看总体付费率,也看新用户付费率和老用户付费率。
另外做足够精细的数据分析,也可以让我们更好的把实验价值最大化。比如某实验显示虽然总体付费率提升只有0.1%,没有显著性。但是对于某特定人群来说提升明显,可以让30岁以上的女性付费率提升30%,那么这个实验仍然有上线的价值。
本文由作者授权纷传发布,建圈子、做付费社群用纷传。