本文来自微信公众号 “白鹿衔书不衔花”,作者:白鹿,纷传经授权发布。
遥想2012那年,必应的产品经理提出了一个想法:将标题下方的第一行文字移到标题同一行。
可惜,这个需求一听就离离原上谱,不出所料,需求被延期了半年。
改进必应上广告陈列方式的实验
好在该需求实现起来并不复杂,一个工程师决定试一试。
不同的是,他通过设置对照实验(随机一部分用户显示新UI,随机一部分用户显示老UI),实现了这个需求。
无心插柳柳成荫,实验开启没几个小时,「营收过高」的监控开始报警。
你猜怎么着,不是埋点重复上报,不是搜索服务挂掉,是营收真真切切地涨了12%!
这意味着在当年的美国,营收增长超过了1亿美金。
这个传奇的案例就是《关键迭代:可信赖的线上对照试验》一书的开篇。
接着作者Ron Kohavi(在线实验的「教父」)庖丁解牛般地展开了关于对照实验的一切。
这本书被誉为 A/B 测试「圣经」,强烈建议互联网相关从业人员精读。
说回这个例子,看起来「无关痛痒」的改动,竟成了必应历史上最成功的 idea 之一。
这项陈列实验带来的结果,不仅提升了公司现有收益,还有可能影响了公司的战略。
其中最令人拍案叫绝的部分是——得出这样高价值的结论并没有耗费太多的资源。
那么,有没有类似的低成本而高价值(具备较高的指导意义)的实验?
有,但并不靠运气,而是靠「设计」。
本文从《关键迭代》、策略产品经理相关书籍和直播分享中摘录了一些案例,分享给大家。
这些设计上的神来之笔,的确让人回味无穷。
但请别忘记,是设计者对业务本质付出了99%的艰苦思考,才换来了这1%的天才灵感。
01
画门法
这是一个虚构的线上销售小部件的电子商务公司。
一天,市场营销部门希望通过发送优惠券的促销邮件来提升销量。
此前,公司没有发过优惠券,适应这个新功能,改造成本较大。
在方案胶着之际,有员工对方案背后的假设提出了质疑,他表示 Dr.Footcare 公司在添加优惠券后,营收反而大幅流失了。
于是公司产生了合理担心:在结账界面增加优惠券输入框会降低营收。
即便没有优惠券,仅仅看到这个框也会拖慢用户付款速度,并导致用户开始搜索优惠券甚至放弃结账。
于是,现在面临的问题似乎从「怎么新增优惠券功能」变成了「在付款界面增加优惠券输入框会降低营收吗」。
为了评估这一问题,他们没有改造整个付款流程和新增任何数据存储,而是——在墙上画了一个门——来看看有多少人会试图打开它。
如下图的实验组1和实验组2,他们仅仅在这个页面增加了个入口,实际上用户输入任何数字都是无效的。
这种方法的好处显而易见:开发成本低,可快速上线较好地还原了真实情况:
假如全量上线,会有相当一部分用户对这个框产生困惑;那么这个小流量实验也可以还原这种困惑结果是啥呢?
对比对照组,实验组1和实验组2的营收都下降了。
实验组2因为增加了弹窗(更明显的打断),导致损失更大。
果不其然,这意味着要干这事儿,除了包含设计成本、研发成本和维护成本之外,还有一开始添加优惠券框带来的负向营收。
不过笔者发现,这个例子还有更多可琢磨的地方:优惠券到底会不会刺激人消费?
答案是肯定的。
给了优惠券,不用白不用啊。
实际是激发了用户损失厌恶的心理。
画门法证明了「在付款页面添加优惠券输入框」带来的负向影响,那么优惠券还能怎么用?
当前的主流电商平台,统统没有在付款界面增加任何跳转其他页面的可能性,拼多多甚至把购物车都去掉了。
他们把优惠券本体前置到了选购的流程中。
淘宝在付款之前帮用户领券,拼多多则用拼单的方式代替了优惠券。
画门法并没有证明「邮件送优惠券无法提升营收」,怎么在不干扰其他用户的情况下,用邮件优惠券刺激用户消费呢?
其实邮件送优惠券的古老手段依旧存在,但有两点不同:
1.给一小部分用户分发,只为刺激忠诚用户的消费,且不会产生大规模的优惠券焦虑;
2.在用户主页兑换,绝不干扰付款流程。
画门法在精益创业中也有广泛的应用,当你想在大学生中做一门露营烧烤的生意时,不妨先把门画出来——做一张简单的宣传单或意向表,看看有多少人报名。
用丰满的事实,反向为商业谈判获得优势。
02
反证法
张小龙说过,微信永远把响应速度作为最重要的用户体验来对待。
当然了,产品速度是越快越好。
但提高十分之一秒的性能,到底有多重要?用户真的能感知到吗?
要知道改进性能并不是个小活儿。
我们既无法为一个肉眼无法感知的提升,专门组一个团队全力优化。
也很难在所有团队工作半年后,单独拆出提速工作带来的真正效果。
必应和谷歌反其道而行之:想计算性能提升能带来多少收益,成本太高。
那我用反证法——通过主动减速实验,计算性能下降会导致营收下降多少,再来反推,行不行?
这里需要用到一个关键假设,那就是局部线性近似:即该指标(如营收)对性能的变化图线,在当前值附近可以很好地被线性拟合。
下图展示的就是一个常见的性能和关键指标之间的关系曲线。
支撑这个假设,有两点原因:
经验之谈:如果是秒级别的变动,用户是可以体验到的,往往对于关键指标是断崖式下降。
但毫秒级别的实验,用户感知不明显,就可以用线性近似。
抽样验证:必应曾做过一个100毫秒和一个250毫秒的减速实验,而250毫秒实验中数个关键指标的差值,刚好大约是100毫秒实验的2.5倍左右(已考虑置信区间)。
这也验证了线性关系的假设。
通过局部线性近似,大厂也得出相应的结论:
对2017年的必应而言,每提高十分之一秒的速度,可以带来一千八百万美元的年度营收的增长在亚马逊,一个100毫秒的减速实验降低了1%的销售量。
除了减速实验之外,我还想提及一个内容平台相关的「砍内容实验」。
思路也是用砍掉一部分某分类内容带来的损失,来预估增加相应内容带来的收益。
实验的基本假设是:这类内容是没有达到饱和的。
如果实验组砍掉100篇内容带来了50%的数据损失,那么增加100篇该分类内容就可以带来5%的数据提升。
但和减速实验一样,要注意量级过大的减速和减量会导致非线性的跌幅,大刀阔斧的减量带来的数据结论是不可靠的。
03
工具变量法
问:将看视频的新用户转化为视频作者,可以带来什么收益?
常规的办法,是直接利用现有数据进行分析。
也就是观察性的因果研究,同时也叫准实验设计。
如用构造虚拟现实结合双重差分法的方式,构造可比较的对照组和实验组人群,来对比两者的数据表现。
但这类准实验的设计往往需要很多假设,其中任何一个假设有错误(如用户活跃周期性是规律的,但实际不规律),就会影响到结论的准确性。
同时,在结论推广层面,也有较大的解释成本。
这时候,我们可以设计个实验来简化这个问题。
通过引入一个工具变量——给实验组的新用户发 push 来改变用户发视频的意愿。
实验组的用户会随机收到这么一条 push:“这是你来快手的第一天,发个作品记录一下!”
这时候,实验组势必会有一部分用户被这个「额外的力」,转化为了视频作者。
我们通过测量两组在关键指标上的差异,就可以回答篇头的问题。
不过,笔者认为,考虑到该工具变量会对用户产生一定打扰,所以还需关注护栏指标如 push 的关闭情况。
这是快手的经济学家杨淼钰博士在 DataFunTalk 直播中分享的案例。
工具变量法的目标是找到一种工具,使我们能够近似实现对照。
在生活中也有一些常见的工具变量,比如在探究基因对性格的影响时,可以用双胞胎进行测量,把环境因素变成了不变量。
此时双胞胎本身,就是一个工具变量。
04
其他好用的实验设计方法
交错性实验:在人工测评某几个模型的效果时,如何让结果不受人的主观影响?
可以使用交错性实验——交错式排列待评估的内容,仿照双盲实验。
重复实验:在同一拨用户上,实验一段时间,撤回一段时间。
为探究直升机监视与入室盗窃数量的关系,我们发现有直升机监视时,入室盗窃数量减少,取消监视则增加。
断点回归设计:这也是一种准实验设计,如果想看颁发奖学金对获奖人的影响,可以拿奖学金的获奖阈值(如80分)上下的学生模拟随机分配。
我们的假设是:分数刚好高于80的实验组学生,与分数刚好低于80的对照组学生,在学习素质上很相似。
统一「学习素质」这个重要变量之后,就可以进一步探究了。
断点回归在社会学层面的用处很多,青山资本在《Z世代定义与特征丨青山资本2021年中消费报告》一文中,也是运用了断点回归的思路来划分「Z时代」的。
世代的起止是由极重大事件产生的切割,使得某个年份前后的人群产生割裂式的思维和生活习惯差异。
这恰恰与在计量经济学中研究社会问题时应用断点回归的原因不谋而合。
青十五的《策略产品经理必读的一本A/B测试“圣经” 》一文中提到,随着统计相关的逻辑(如计算显著性、置信区间等)逐渐内化在了测试平台中,产品经理掌握大量统计学知识的紧迫性逐渐减弱。
但有一些事情,是必须人来做的,比如设计实验。
更重要的,是如何低成本地设计实验。
本文的思路也是受青十五的文章启发做更多的延伸,顺带推荐青十五的书《策略产品经理:模型与方法论》,实操性很强,干中带湿,湿中有干,处处用心。