本文来自微信公众号 ”旅行顺便改变世界“,作者: Ver0,纷传经授权发布。
最近两天的状态:学数据+补英语。
写这篇文章,让我对这本书有了新的认知,避免了懂得部分囫囵一遍,觉得都懂,不懂的部分也囫囵,因为反正也看不懂……
其实也没有给自己安排什么计划,但是就是觉得很充实,所以人有目标是不需要刻意要求自己下一步做啥的。
至于为啥新增加了学英语…还不是因为昨天去看英文原书开始觉得有困难了,可能太久没磨耳朵了,简单的听力也开始听不懂。寻思这样不行了,本着啥都想要啥不捞的原则,最近想先提升一下听力水平。不沉迷方法论,硬上精听呗,等有什么进度了再向大家汇报吧。
这里用到另一本书说的知识点,不要想着求快以及在找方法上花费大量时间获得一些虚幻的满足,没有什么聪明方法,要花时间堆的事儿别想走捷径。
这篇主要说一下本文的实例部分,同时把之前挖的坑填好。
为什么说:「不要困于方法论」。
另外看完这本书下周的方向也有了,想继续深入了解「生存分析」,「因果推断」和「贝叶斯统计学」。
01
流失分析
自古到了案例章节可以放开来水字数了。
这本书其实这块还不错,对常见的业务场景给出了一些建模的大体方向&案例,思路值得mark一下再进行深入学习。
首先,作者以「流失分析」场景为例,阐述了大体的描述统计分析思路和整体的机器学习实战,四舍五入构成了一个专题分析的框架了,值得新手分析师学习和借鉴。
框架如图可以按图索骥,首先是流失用户的定义方法,其次分别从内外因给出了具体的分析方向,顺便水了一波一些常见的商业分析模型,甚至还水了如何设计问卷(这个说真的我知道很有讲究,但是我目前看过的书都很水,如果大家有用户研究方向的好书欢迎留言推荐)。
还是那句话,方法论仍然简单,但是在简单的模型下如何见真章才能考验一个分析师实际的业务水平。
分析完了流失用户的行为,依托「定义」和「特征」我们就可以对潜在流失用户进行打标和预警,辅助对该类用户进行一定干预。
打标方面,其他通用的机器学习算法也是各种培训班的坐上嘉宾,有兴趣可以去kaggle看大神代码,比如决策树、GBDT、随机森林等。
值得一提的是,作者python重点实践了一下「生存分析预测用户流失周期」,代码和思路还是非常值得参考的。
为啥生存分析在这里有优势呢?因为传统的分类算法只能对用户进行打标,至于用户何时流失则不能给到我们建议,而生存分析会同时对流失的时间点进行预测,解决了传统机器学习的痛点。
看到很多传统领域的硬知识在业务场景得到应用,不免让人感慨,学术场景的严谨方法和互联网时代的数据富矿可以说是珠联璧合。
作者重点介绍了两种生存分析模型,Kaplan-Meier分析模型和Cox比例风险回归模型。「Kaplan-Meier分析模型用于组间比较,Cox比例风险回归模型多用于多因素分析」。
说人话就是,Kaplan-Meier法一般用来比较不同组间的生存情况,比如按用户是否使用某功能/是男是女/是否付费等方式分类,分析哪类用户拥有更好的留存率。而Cox比例风险回归模型则可以用来探索各因子(比如:用户的性别,年龄,是否付费等因素等)对流失的影响,并同时给出用户未来流失的概率。
在工业场景中,因为KM模型只能分析分类变量和生存概率的关系,因为多变量在工业场景中普遍存在,且可以同时作用于分类变量和连续变量,Cox模型更具有泛用性。
Cox的具体建模过程和效果评估则非常建议参考原文。
02
转化分析
转化啊转化,不转化咋给我们发工资呢。这一章主要探讨了用户转化场景中数据分析师常用的分析方法。
本章比较有价值的部分是用「贝叶斯公式估计各类活动用户的转化率」以及介绍了「如何用营销赠一模型实现用户分群并python实现了营销敏感人群打标。
老样子,其他旁支内容敬请按图索骥,各取所需。
其实贝叶斯这段其实怎么看怎么都觉得奇怪,就看这数据一个群组转化率达到90%+可能吗,我觉得不可能……
然后发现这个先验的付费率太扯呼了,竟然都50%+了,这什么产品我是真想了解一下(算了,不重要)……
总之大体逻辑是咱先取到符合用户画像的用户,按用户画像求得转化用户的出现率,以及未转化用户的出现率。既然有这么一个人,要么转化要么不转化,所以两者加总为1。
再联立一波就能取到每个群组用户的付费率和未付费率了。
还有个延伸用法也可以参考一下。就是咱可以参考目前用户各特征的购买概率去推测付费用户购买各品类的概率,具体可参考这篇文章:https://www.afenxi.com/15657.html
不免感慨,贝叶斯真是博大精深啊。看上去如此简单却有如此多的应用场景。之前没有业务理解时在老板的推荐下看了《统计学关我什么事》(一本不错的贝叶斯入门书,至少连我都能看懂),当时觉得不关我什么事,现在再想姜还是老的辣,统计学确实关我很多事,估计再看一遍应该是能再延伸出一些应用场景的。
本章节的另外一个boss就是「营销增益模型」了。通过该模型,我们可以有效的识别四类用户,这下就能知道营销短信到底怎么发才精细了……
「营销增益模型目前有三种不同的建模方法,分别是差分响应模型(Two-Model)、升级后的差分响应模型(One-Model)、基于树模型的提升模型(Modeling Uplift Directly),较常用的是升级后的差分响应模型。」
单看原理其实挺像AB测+PSM皇帝的新衣限定版的,当然用增益模型会算的更加精细:
老样子,继续深入研究&具体应用场景,参阅大佬文章:https://zhuanlan.zhihu.com/p/349733349
考虑到其分支众多且未被广泛使用,各有各的用法,就不班门弄斧继续深挖了,任何领域和工具,文章都只提供入门,需要使用者自己深入研究,找到最合适的解法。
03
为什么说不要拘泥于方法论
最后挖的坑还是填一下,说说为什么不要拘泥于方法论。
觉得目前市面上业务导向书籍最大的问题就是要强行把分析结果包装成一套方法论,本书当然也不例外。比如简直是为此而生的5W2H。用这种分析框架去解决用户流失问题,在脑子空空时作为起点确实是一个不错的突破口。
其实这也无可指摘,毕竟单纯的案例可能只能符合特定行业的工作场景,是不具备普适性的。能成功掌握一系列工具并不难,但想快速了解并沉淀去对应的经验并不容易。
但是要想更进一步给到更多结论还是得回到对业务的理解中去。
而业务理解到底怎么来?这是基本上市面所有书都不会告诉你答案的事情。
首先,分析师得是用户,以用户的视角去体验产品,去推测原因。你当然也可以拉上产品和运营,也是为分析提供更多的假设和视角。
但是你又得记住,你不是产品唯一的用户,你的观点可能是片面且不能反映所有用户面对困境的,用研能解决一部分问题找到愿意开口的那部分用户,但是沉默的大多数又一次被忽略了。
这么看问题似乎是无解的,我们仿佛永远只能帮助到愿意说话的那部分人。
可不可以通过用户行为去获得一些他们不愿宣之于口的信息呢?想法是好的,但是试图用用户反馈在行为上的只言片语的行动去猜测他为什么离开,又是十分困难的。
记得之前产品老大让我们组一小伙伴去看,用户暂时流失(30天内无第二次访问)前的最后一个行为是什么,想像是理想的,找到漏斗断裂处,然后去做优化,这个事儿不好,我们把它砍了不要让它发生就是了。但是结果很骨感,大多数用户流失在核心行为——播放。
那怎么着,总不能把核心行为也砍了吧。
其实很好理解,我们知道发生核心行为是好的,所以我们努力引导用户去体验核心功能,大部分人也确实抵达了核心功能。有一部分人体验到价值并留下,也有一部分体验到了核心价值并觉得咱俩的价值观不一致,所以选择离开。
某种意义上,这其实也节省了后续服务的成本。
所以这件事的大方向是不会错的,我们还是要拼老命让用户去体验产品的核心价值。
如果知道要做的事是什么,方法论就是朴素的。数据分析也是一样。
知道要做什么,研究怎么把这件事做的更好,或者更精细。有时候觉得很多时候是一个优化的活,我们的资源不够又想达到效用最大化,就到了分析出场的时候。我们有一个猜想需要从数据角度来验证,这仍然是分析出场的时候。
但是如果我们漫无目的,想凭分析开出一条路子,确实是困难的,需要大量的时间,还可能徒劳无功。而在职场最忌讳的就是没有产出,所以有时候你们看到的一个分析报告背后可能是无数考察过但觉得无用的线索,苦果只能被我们独自吞下。
但是,很多有价值的事都是困难的,我们只能保持足够的耐心,才能在每一个线索出现时抓住它,一如哈利波特抓到黄金飞贼。