本文来自微信公众号 “场景阿侯”,作者:场景阿侯,纷传经授权发布。
01
现象
用户调研是统计学上的问题,可理解成是抽样调查的一个分支,是在随机原则的保证下根据样本的情况来预测总体。
但因互联网产品迭代周期短,速度快,不少PM在进行用户调研时,遵循操作易,成本低,结论精等原则。
大多数选择的方式为网络问卷调查或数据库采集进行分析,是一个非随机的过程。
因此,应通过一定的举措减少非随机调研带来的干扰,使结论尽可能的准确,完善相应的调研体系。
网络调研的系列操作被执行时,经常会遇到以下三种情景。
对象A是目标调研个体,但根据现有的渠道,无法取得联系。
和对象A取得联系,并得到回复,但关键问题没有作答。
和对象A取得联系,关键问题有作答,但该作答不合理或前后矛盾。
把情景概括,即是用户调研中的无回答或数据缺失问题。
对此,产品人大多所选择的解决办法是,把无回答或数据缺失的样本直接剔除,不参与最终的预测。
这样所带来的问题有两个。
一是,样本量降低,导致原本预测合理性已经不高的网络调查进一步降低说服力。
二是调研的人力和时间成本已经产生,获取到的信息却不被使用,投入产出比低下。
此时,若能针对无回答或数据缺失的样本,在另一个群体中找到与其画像接近的个体,用该个体的回复进行替换预测,是一种值得学习的理论。
这种解决思路在抽样调查当中有专门的研究领域作为理论上的支撑——“基于样本匹配的样本选择在网络访问固定样本中的应用”。
02
网络访问固定样本
当目标调研群体A中的某些个体出现无回答或数据缺失现象时,从群体B中找到画像与其最为接近的单元,进行一一的配对,后用匹配对象的回答来替换原单元,实现更迭。
这样的过程即为样本替换,群体B则是网络访问固定样本。
1.定义
互联网产品侧的网络访问固定样本应是这样的一群人:他们可以通过某种明确的渠道被触达,触达前群体中的每个个体具备可知的依赖标准,触达后愿意对特定问题进行反馈,是一个虚拟的群体。
1)渠道
指的是与群体进行沟通的方式,在互联网产品的网络调查中,可定义为官方联系。
如,官方邮件,官方小助手,客服电话,官方粉丝群等。
需要注意的是,官方联系强调对个体信息的获取,却不一定会被对象所感知。
如,对于直播产品,产品侧可随时通过后台了解某用户当天给某主播的送礼金额是多少,无须和其进行实际上的沟通,此时,数据库也归属于官方联系的一种。
2)标准
指的是个体所携带的信息,某指标变量,或自定义的计算规则。
互联网产品侧在进行用户调研时,用户通常和其账号绑定,对用户调研,即对某个账号的行为进行分析。
而账号的行为又会根据产品的埋点体系,被进行对应指标的监控。
如,某社交产品,账号1在数据库中,其注册信息为男性;截至调研当天,粉丝数为10人,关注数为15人。
经计算,过去一周,其浏览他人主页次数达50次。
此个体,在网络访问固定样本中所相近的,可能是账号2,注册信息为男性;截至调研当天,粉丝数为11人,关注数为17人。
经计算,过去一周,其浏览他人主页次数达48次。
3)反馈
指的是对具体的用户调研活动进行参与,可以是主动地填写网络问卷,也可以是被动地从数据库提取分析。
样本替换的核心是根据标准进行的匹配过程。若匹配过后的个体仍不具备有效作答的特征,仅需再次进行配对即可,直至有效且最佳的替换出现。
2. 构建
网络访问固定样本是一个虚拟集合存在,每一匹配标准可知的个体均是其中的一员。
根据构建固定样本的时间节点,可将构建操作分为存量型和临时型。
1)存量型构建
用户调研操作执行前,固定样本已经存在且被规模化的维护。
外在表现形式通常为数据库当中的某张表格。
存量构建所采用的匹配标准,是变动频率相对不高的指标,一般是怎么去做用户调研?-用户画像篇所提及的静态划分依据,同时和某调研主题相关,具有通用性。
固定样本所依据的匹配准则信息需要定期更新。
用户调研的相关操作被项目组认可,执行频率高。
2)临时型构建
用户调研操作执行时,根据匹配标准从数据库中进行临时计算,匹配标准可知的个体均成为固定样本中的一员。
是一个有关用户账号的虚拟集合,每个账号所携带信息分布在不同的数据库表格中。
临时构建所采用的匹配标准,是变动频率相对较高的指标,一般是怎么去做用户调研?-用户画像篇所提及的动态行为,是针对某次具体调研而制定的计算规则。
固定样本所依据的匹配准则在某次具体调研时再确认,不涉及定期更新的问题。
用户调研不作为项目组的高频工作内容,无须先行构建存量型固定样本进行维护。
03
样本替换
样本替换方法论可简化为两步骤模型:
根据目标调研对象和网络访问固定样本的特征,确定需要选取的匹配标准。
根据匹配标准,衡量两单元间的近似程度,确定最相似的单元作为原无回答单元的替换,收集后续作答。
如,目标调研对象中,账号1无法通过现有的渠道进行联系,但它具备可知的匹配标准A=2。
此时,设网络访问固定样本中某个体的匹配标准A=X,计算两者作差绝对值IX-AI;取使IX-AI取值最小时的账号2作为账号1的替换,用于后续作答。
衡量近似的过程有两点值得深思:
如果匹配标准包含多个变量,怎么去进行作差绝对值的比较?
如果存在多个账号均可使作差绝对值取最小,哪个账号才是最终的替换选择?可以多个账号的回答一起使用吗?可以的话他们间有优先次序吗?
上述疑惑均能在研究领域——“基于样本匹配的样本选择在网络访问固定样本中的应用”,找到与匹配准则选取相关的研究文献进行解决。
04
引子
样本替换是我读研期间的主要研究方向,过程的操作涉及到很多的理论方法,用户调研系列的方法论分享原是没有样本替换篇的书写计划,在这里作为一个想法进行抛出。
当然,之后也会结合自己PM工作进行实操案例介绍。
更关键的是提醒自己,知识永远都是力量,理论联系实际,这是读书的魅力。
以上。