分析师成长-AB实验二三事
背景:ab实验的基础原理和运作方式就不做过多的赘述了,这里更多的是想从数据分析师的角度,讲一下在ab实验中应当注意的实现,以及如何完成一篇ab分析报告。
开实验前
1. 分析实验的必要性
- 不是所有的问题都需要用实验解决的,ab实验有开发成本,流量成本,时间成本还有分析成本。当然必须承认ab实验是验证结论的最好方式,但是很多情况可以通过量化分析去做前置的分析解决。
- 比如,一个音乐播放器想做高潮试听功能,在开实验看用户的接受程度之前,可以通过数据去量化一下是否真的有这样的需求。量化指标有很多,比如是否有用户滑动进度条听高潮内容,是否用户在听完高潮后切下一首歌,或者从内容维度上看,哪些高潮拼接的remix是否更受用户喜欢等等。(插一个题外话,同样的方法可以反过来去推动ab实验,比如我通过分析找到了用户的需求,可以用这些点去推进一个ab实验的开启)
2. 判断实验的优先级
- 前置的分析有时候可以帮助解决问题,在无法解决问题的时候,也可以帮助判断实验的重要性。假设一个实验是有必要开的,但是优先级如何,影响多少的人群(渗透率),带来多大的收益,解决了什么样的问题。这些问题有些由分析师通过分析获取,有些需要产品的业务输入。分析师的职责之一是保证实验的准确性,如果过多的实验在线上互相干扰,可能没有一个实验可以拿到准确的结论,那么就有必要砍掉一些低优的实验,来保证重要实验的流量和时间周期在合理的范围。通常服务端的实验和客户端的实验可以正常的正交,但是如果服务端同时有多个实验层在正交,每个实验的周期又不同,分析的时候会极大程度的影响结果。
- 举个例子,实验层1在前三天上了金币策略,实验组比对照组留存提高了10%,这些用户在实验层2被均匀了拆分分进了3个三个组,去验证3个推荐策略,假设金币实验在3天后全量了,而推荐策略是一个一周的实验,那我们会发现有一波用户的留存发生了大幅度的增长,那又很难去归因。这还仅仅是2层,想象一个3层,4层或者10层后的结果。
- 现实生活中,经常会碰到产品开实验仅仅是为了“看看”,有时候竞品做了我们也想试试,或者就是单纯的为了做而做的尝试。并不是说要杜绝所有这类的需求,但是可以通过分析给出一个明确的预期,或者提供新的思路和建议。
3. 实验设计
- 一切的实验设计都是为了得到置信的结论,所以在设计的时候要考虑到在你写ab报告的时候,实验的结果是否可以帮助你得到结论,中间会不会有坑。
- 举个例子,一个按钮有2个UI、2个点击效果、同时进入之后又有3个页面。最理想的情况下应该开2*2*3,12组+1个对照组才可以穷举出所有的可能性,但是有时候由于流量不足或者不想做这么多的开发,产品会提议3个页面开三组,按钮和效果随机打散,在分析的时候去通过相关性拿结果。但是这样极有可能拿到错误的结果,因为每个因素之间会相互影响,并不是独立存在,我们后续分析的时候没有办法得到置信的结论。合理的建议是,分析按钮、动效和页面,哪个的优先级更高,低优先级的先主观判断,如果真的想优化可以等下一个迭代再单独开实验。
4. 实验配置
- 确保实验按照需求配置:策略是否生效;是否需要过滤版本,型号,新老用户;实验室uid还是did,开在哪一个层级。这里就不一一赘述了。
- 不要开AABB,或者AAB这些稀奇古怪的野路子,相信科学。https://zhuanlan.zhihu.com/p/102287944
开实验中
1. 流量监控
- 监控每天有多少用户入组,是否出现数据串组的问题。同时观察数据是否符合试验前的预期,核心的指标是否有大浮动的变化,渗透率是否符合预估的水平。如果数据有大的偏差,可以在前期停止实验,避免线上的影响。
- 理想情况下流量可以慢慢的放大,类似于灰度的放量,指标如果在目标流量前就置信了,可以停止放量;在数据不置信的情况下也可以适当的加大流量。但是不均匀的流量在后续分析的时候会影响数据的置信度,需要注意。
2. 观察趋势
- 如果实验数据呈现上升或者下降的趋势,并且并没有收敛的趋势,实验需要继续观察知道数据收敛。尤其是UI的改动或者针对老用户的新策略,会带来一波数据的增长,可是这些增长仅有可能是用户出于好奇的尝试,带来的增益效果会随着时间消退,甚至会出现负向。但是如果不去长期的观察趋势而拿短时间的数据下定论,很容易得到错的结论。
- 在节日或者特殊时期,数据会出现不规律的波动,如果实验开在这段时间,建议拉长周期观察。
开实验后
一个ab实验报告需要回答的几个问题:
- 为什么要开这个实验。实验的背景,之前是否开过类似的实验,基于什么样的假设开启的这个实验,预期的结果。这可以帮助没有业务背景的人快速了解这个实验,可以贴一下实验的链接,过往的报告或者描述一下背景情况
- 实验的数据如何。哪些指标涨了,哪些指标跌了,涨幅跌幅如何,数据是否置信,是置信下降还是下降趋势,或者只是数据波动。如果可以配合业务的解释度,这里的增长符合预期,因为xxx,这里下降因为xxx所以导致xxx
- 实验的结论是什么。是否应该上线实验组,为什么不能上线,我们从实验中认知到了什么,下一步需要做哪些工作
-
灰蓝雨盒 赞了这篇日记 2022-05-31 11:24:21
-
咖啡泡泡Vienna 赞了这篇日记 2022-05-23 13:35:33
-
绾 赞了这篇日记 2022-05-09 08:31:06
-
煜琰 赞了这篇日记 2022-03-29 16:35:16
-
Rocky🐏🐏🐏 赞了这篇日记 2021-10-31 13:25:45