本文来自微信公众号 ”策略产品Arthur“,作者:策略产品Arthur,纷传经授权发布。
在广告搜推和自然搜推中,策略产品可能会时常遇到“冷启动”问题,而有关冷启动的话题,又可以分为物品item冷启动、用户冷启动与系统冷启动等几种类型,此时策略产品可能就需要依据不同的类型,拿出不同的应对策略。本文作者介绍了新品item冷启动的相关策略,一起来看。
今天来聊一个大家比较感兴趣,也是策略产品必须要了解的一个话题叫做「冷启动」。
冷启动这个词是一个在自然搜推和广告搜推都会面临的一个问题,这个问题的核心实质是因为系统/物品item/用户user因为积累的数据量过少,无法做个性化推荐的问题,结合前面的文章内容简单说就是在召回当中相关性不足无法被召回,在排序当中预估不准确导致的排序展示问题。
在整个冷启动当中的类型就可以被拆分为三大类:
物品item冷启动问题;
用户user冷启动问题;
系统冷启动问题。
这三类问题我讲拆分成三篇文章来给大家详细介绍策略,今天我们先由物品Item作为切入来介绍。
物品item冷启动问题背景;
广告策略中如何解决新品冷启动问题的策略;
个人总结与思考。
01
物品item冷启动问题背景
1. 新品冷启动定义
物品冷启动主要解决如何将新的物品,在没有样本数据的情况推荐给可能对它感兴趣的用户这一问题。
2. 问题导致的原因
无论是电商平台淘宝/京东、还是抖音流媒体视频的平台,都会存在物料item上新的现状(对于电商平台就是商品,对于抖音就是用户上传的视频)。
抖音每天上传新视频达到千万量级,每个新的物料因为缺少用户的行为数据/Item缺少特征标签等问题原因,会直接致使召回中相关性信息缺失不足(传统按照协同过滤或者向量emedding召回方式直接失效)、预估排序中商品/ad特征不足带来的pCTR/pCVR预估不准,无法进行eCPM的准确排序问题。
最终带来的直接现象就是新品无法正常进行推荐展现PV获取,加重了新品积累行为的困难,造成平台存量物料的马太效应,降低推荐系统的新颖性与多样性,同时不利于供给端的物料生产。
比如我写了一篇小红书笔记,长期无法获PV量,或者是长期没有点赞、评论与关注,其实是不利于整个生态的健康塑造。
3. 问题的解决与各家发展现状
目前新品冷启动都是各大互联网公司都在积极并重视的解决对应的问题,新品冷启动问题是推荐系统当中赖以长期可持续发展的「新颖性」、「多样性」与「准确性」并存健康发展的核心。
1)阿里妈妈 新品冷启动解决方案NPA
在广告当中,新品Item冷启动是非常重要和关键的一个点。
为什么这么说呢,因为电商平台当中,用户如果希望自然推荐系统当中,能够帮助新品度过冷启动状态,稳定获量更甚获得转化数据,就需要通过广告平台直通车/引力魔方来快速实现冷启动,积累数据并后期撬动自然推荐的展示效果(这个属于机制联动,需要积累全平台样本,带来冷启动效果)。
22年9月中下旬阿里妈妈经营可续就在m峰会上专门针对新品加速冷启动提出了NPA(New Product Accerlaration)新品冷启动加速解决方案,专门对搜索和推荐广告中新品前期拿量困难,预估不准确等问题提出了解决方案;通过神经网络&新品特性学习&专属新品召回排序通道等方式来解决。
2)抖音 倒三角流量池
抖音短视频视频冷启有个交互传闻当中比较有名的「8次曝光倒三角流量」的分发机制,也标志着新视频从冷启动到稳定分发的状态。
核心的思想就是通过每一轮免费单列feeds流量的曝光分发,观察视频的互动与播放情况,决定冷启动视频是否可以进入到下一个流量池当中;播放与互动情况包含视频播放过半的比例、完播比例,暂停与结束比例,互动情况包含点赞次数、收藏次数以及评论、转发次数。
除了PV视角还有UV维度的视角,这里举个例子,我拍了一个运动健身视频,在首次曝光300~500播放量的情况下,系统对于进入二次曝光的门槛需要满足点赞次数达到了150/评论达到30/收藏达到80,并且完播次数需要达到50次,才可以进入二次曝光的流量池,如果不满足则视频不再进入二次曝光流量池当中,后面的每次曝光池子也是同一道理。
02
广告策略中如何解决新品冷启动问题的策略
基于上面的核心问题原因和定义,我们从广告推荐(自然推荐在很多方面类似)的角度出发,来思考可以从哪些方面来解决新品冷启动的问题。
回顾上述当中在召回/排序当中的冷启动的问题,我们逐一拆解,来分析解决思路;广告推荐在召回当中要解决的就是快速建立物品和用户相关性准确度问题;在eCPM排序当中要解决的就是预估准确和出价准确的问题。
1. 利用标的新品metadata信息做推荐
利用标的物跟用户行为的相似性可以通过提取新入库的标的物的特征(如新品的标签/类目分类/发货地址、采用TF-IDF算法提取的文本特征、基于深度学习提取的图像特征等),来把新品item label维度信息给Onehot Emebedding向量化,通过计算标的物特征跟用户行为特征(用户行为特征通他看过的标的物特征的叠加,如加权平均等)的相似性,从而将标的物推荐给与它最相似的用户。
比方说类似的标的物被某些用户消费过,可以做相似物品的推荐,来帮助物品快速积累数据。
2. 利用广告排序公式bid出价来进行E&E探索策略
还记得之前给大家介绍的内容,广告的排序公式是由两个部分组成,一部分是预估问题,另一部分就是竞价bid问题。
推荐广告当中一般会通过bid(因为抬高出价平台无损,广告承担新品探索成本,新品投放广告主一般会默认需要付出更高的单价CPC成本)竞价来提升在排序当中的先后顺序,然后借用强化学习中的E&E(exploration-exploitation)思想,将新标的物曝光给随机一批用户,观察用户对标的物的反馈,找到对该标的物有正向反馈(购买,收藏,分享等)的用户,后续将该标的物推荐给有正向反馈的用户或者与该用户相似的用户,常见的Exploration方法有,朴素Bandit、 Epsilon-Greedy、UCB、Thompson Sampling,、 LinUCB、COFIBA等。
在广告DSP平台一般会结合「一键起量工具」或者是「冷启动工具」,核心思想都是在前期单独设置一笔固定预算/抬高广告bid-CPC出价水平,来进行E&E的探索,积累更多的点击/转化样本,让pCTR和pCVR预估更准确,但是前期的CPC成本远高于稳定投放时期的投放成本。
3. 其他广告平台的单独扶持策略
平台发展到精细化运营广告投放阶段,为了提升广告item物料库的库存深度,会做很多扶持平台新品的策略,来提高平台供给端-广告主端的物料深度,同时也提高广告主上传物料的积极性。
一般会从「召回扶持」、「排序预估加权」以及「单独广告推荐资源位」来帮助新品获取前期展现;
召回扶持就是给予广告新品有单独的多路召回通道,提高多路召回混合归一化时候的比重系数,不让新品埋没在召回阶段,如果一开始就没了就更不用探讨排序问题了;
排序预估加权是单独在排序阶段维护一张新品item表,每当新品进入到粗/精排序阶段,在预估pCTR和pCVR的时候给予权重打分,让其预估的值更高,排序更加靠前(当然需要保证粗精排一致性原则,不能粗排加权,精排不做任何动作);
单独广告推荐资源位扶持,类似京东小魔方有新品约束条件的广告位,是不能展现非新品类型,降低新品在eCPM排序中的竞争难度,提升新品的展现效果,前期快速积累样本量。
03
总结与思考
新品item冷启动是冷启动当中其中的一个分支,核心还是围绕E&E快速积累item数据样本,来提高物品和用户之间相关性的过程。
任何的扶持类型(召回扶持、预估扶持)都是对广告平台来说长期是有收入损失的,因为pCTR高估,或者新品展现机会更高,但是item广告商品未被点击,C计费的场景是无法收取到对应的广告费用。
因此核心的最佳方法还是通过E&E的强化学习方式帮助新品快速积累数据和样本,让系统在召回和预估阶段都作出正确的「选择」,缩短与降低新品冷启动的时间,达到稳定投放的状态。
item冷启动策略是每个推荐系统都会遇到的问题,之前在召回排序当中都是对理想态、存量物料进行说明的方式,策略产品应该和算法思考如何积极解决Item冷启动的问题,保证推荐系统的稳恒状态。