豆瓣电影:如何建立一套科学的评估体系以及合理打分
这将是一篇特别磨叽的文章。我本来就是一个没事会想特别多、时时刻刻开脑洞的人。我也不知道自己这种叫有趣还是无聊。
“评估障碍症”
2018年到来之前,每一次的打分我都特别纠结,甚至2017年一度觉得迷失了自我,因为我实在觉得评估是一件万分困难的事情。
一个人的评估体系不可能做到永恒的理性和正确,有三种可能的情况:一是评估时打出的分数根本没有做到理性,并且不能代表评估时的真实感受,二是评估时个人的看法尚不成熟,打分虽能代表当时的真实感受,但这感受并不成熟,三是即使评估时看法已成熟,且打分理性客观,但人的观念是与时俱进的(当然也有人很少改变),所以当下的打分不一定就是最终的打分。基于以上三点,我给自己的评估困难找了一个冠冕堂皇的理由,叫“认知测不准理论”。
我曾戏谑地把这个理论带来的问题称为“评估障碍症”,类似于“阅读障碍”吧。
评估障碍是一种病,让人没法以经验度量身边发生的感性的事情,没法将之量化。每两个有理数之间都存在无数个无理数,那反过来看,如果给你一个无理数,谁又能说明这个无理数最接近于哪个有理数呢?这么看,评估是一件NP困难的事情。
但幸运的是,现实生活是用来建模模拟分析的。
评估体系模型
用大白话来说,大概就是每个用户对每个电影都可以打一个属于自己的分数,每个电影的评分都是综合所有用户的评价分数而得到的最终分数。这大白话听起来可能感觉像废话,但实践起来却也有有意思的地方。
先拿豆瓣电影举个栗子吧。
条目的评分是将豆瓣成员的评价数据加权平均计算后的结果,通过算法的调校,使得海量用户主观喜好的聚合能够更客观准确地反映条目本身的价值。
上面引用自豆瓣网站中对电影条目评分的说明。我在网站上没有找到明确的评分体系说明,只能根据上述说明来推测,条目的评分其实就是所有豆瓣用户的评价分数的平均数,其中剔除了刷分等作弊用户的分数,也有可能会使用算法去掉(或减权重)孤高或孤低的评分。总体来说,这个算法真是简单明了,基本能代表豆瓣er们的价值体系。其中,相当值得表扬的是豆瓣对于刷分行为的顽强抵制,堪称电影评价行业中的纪检委员。
豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据,通过算法分析产生豆瓣电影 Top 250。
上述引自豆瓣电影TOP 250的评选说明。同样没有找到明确的评选算法,但我加倍无聊地看了一个TOP250的前几个,本来想找出个差不多的算法来,以为是在分数差不多的情况下看过的人越多分数越高,可惜发现了下面这个特例,排名第8的电影比评价第9的电影不管是评分还是观影人数都要少。唉,一个巴掌打下来,虽然TOP250评选说明解释是根据看过人数和评分综合结果,但估计也是经过数据清洗的...充分体现了我国的国有企业国情,上级部门给下级部门扣分的时候,扣分明细是绝对不会告诉你的;也对我国科研情况进行了补充说明,我国的论文即使发表到国际上,也是不能还原实验结果的。

好吧,上面对豆瓣电影评价体系的分析彻底打击了我的分析热情。幸好网上IMDb有的写。
IMDb上对电影条目的评分与豆瓣类似,声明见下引用。明确解释了电影条目的评分不是纯平均值,而是所有用户评价的加权平均值,使用了大量的过滤器,以降低刷分行为对电影评分的影响,但这些过滤规则不会公布,以确保评价体系不被破解。相比于豆瓣,IMDb的这段解释说明更有逻辑。突然对IMDb的好感提高了不少。
IMDb publishes weighted vote averages rather than raw data averages. Various filters are applied to the raw data in order to eliminate and reduce attempts at vote stuffing by people more interested in changing the current rating of a movie than giving their true opinion of it. The exact methods we use will not be disclosed. This should ensure that the policy remains effective. The result is a more accurate vote average.
IMDb对其TOP250也有解释:TOP250排名由一个公式得来,涉及所有电影评分数量和正规用户的评分。翻译有点拧巴,凑和看吧...在另一个页面上,说明了正规用户的界定是非公开的。一部电影只有得到至少25000个用户的评分才能有资格进入TOP250排行榜。
The Top Rated Movie list only includes theatrical features. - Shorts, TV movies, and documentaries are not included - The list is ranked by a formula which includes the number of ratings each movie received from users, and value of ratings received from regular users - To be included on the list, a movie must receive ratings from at least 25000 users Learn more about how list ranking is determined.
但坊间传闻,IMDb上曾经是有具体说明的,如下引用。说实话,我算是没看出来这个公式怎么贝叶斯了,但是这个公式的确可以达到IMDb TOP250排名的目的:正规用户的投票数越多,公式结果越接近于该电影的条目评分,正规用户的投票数越少,公式结果越接近于所有电影的平均评分。相比于豆瓣TOP 250的排名算法,IMDb的TOP排列算法科学体现在:这个公式对于两个变量v(正规用户的评价人数)和R(该电影的条目评价)来说都是单调递增的,绝不会出现豆瓣TOP排名中电影评分和评价人数都低的电影排在前面的情况。
The formula for calculating the Top Rated 250 Titles gives a true Bayesian estimate:
weighted rating (WR) = (v ÷ (v+m)) × R + (m ÷ (v+m)) × C
where:R = average for the movie (mean) = (Rating)
v = number of votes for the movie = (votes)
m = minimum votes required to be listed in the Top 250 (currently 3000)
C = the mean vote across the whole report (currently 6.9)
for the Top 250, only votes from regular voters are considered.
在电影评估模型上,可以说豆瓣完败。下面来说一下豆瓣的优点。
评估模型的实际意义
如果说IMDb评估模型更科学的话,那么豆瓣评估模型的实际意义更普适。
IMDb采用十星制,评价划分更细,与最终电影条目的评分域值相同,这种打分制度下能得到一个更科学、更严谨的得分。而豆瓣采用五星制,但电影条目的评分域值则是10分,这样在样本(打分用户数)较少的情况会导致电影评分太粗,容易出现不严谨的情况。从科学的角度上讲,IMDb比豆瓣更好。
但是,数学模型的平民意义在于解释现实中的现象。从这个角度上讲,加之考虑到样本数量充足才能保证统计结果可靠,可以说豆瓣更具有导向作用。豆瓣最大的优点在于采用五星制,下面列述一下五星制的具体意思:
- 三星:just so so,是最为中庸的分数,是最一般的评价,需要注意的是,这和百分制里60分及格分的意义是不同的。
- 四星:比一般好(不论好一点还是好十点),但又有不可忽视、不能忍受的缺点。
- 二星:比一般差(也不论是差一点还是差十点),但又有值得描述的优点。
- 五星:几乎完美,可以有缺点,但是在强大的优点攻势下有个词叫瑕不掩瑜,不一定是完全完美。
- 一星:一文不值,一无是处,换句话说,即使有瑕也不能阻挡对它的贬低和鄙视。
- 零星:excuse me????你打个零星试试,你看豆瓣给不给你算有效票miehiehie
这么分析看来,是不是就能明了了,原来这五星每一个等级都能具体描述出来,是具备人文主义关怀的具体描述,一个明确的标准能减少个人不客观打分的风险,降低噪声的传播。而啰啰嗦嗦地分十星,则会让人完全感性地去量化电影,很有可能略有偏颇。
还有一个值得说明的点,就是个人打分和电影最终评分的区别。我也关注了一些影迷,自己也觉得正在伪影迷向着影迷方向发展的道路上,但是发现有些影迷对于电影的打分过于慎重,似乎很吝惜自己的好评和力荐,有的时候受限于电影类型,很少打出5星来。但这其实不是一个明智的行为。上面讲到豆瓣打分是从一星开始计票的,也就是说不管怎么加权平均,评分至少是不小于2分的,那么如果每个人的打分都普遍三星、少有四星、偶尔五星的话,那么所有电影的最终得分都会偏低,根据豆瓣TOP250上看,绝大多数是在9.2分及以下的,也就是说对于绝大多数电影,评分的域值实际只有2到9.2,再往上的0.8是几乎无法达到的,结果在一个区间内过于密集,但其实可以更稀疏一丢丢的。个人的打分不代表这部电影的最终价值,一个用户打5星也不代表电影是完美无缺的。对电影的最终评分而言,10分固然代表着完美perfect,但那也意味着假如有25000个用户打分,那么最多允许125个人不打5星,才能让最终评分在9.95分以上,四舍五入到10分。
豆瓣电影的推荐使用方法
上面啰哩吧嗦地讲了太多,下面来点实际的:
1. 合理使用用户五星打分制,五星瑕不掩瑜,四星好评但有不能容忍的缺陷,三星一般,二星差评但也有值得关注的点,一星即使有优点也一文不值。
2. 请不要吝惜5星,一个人打5星的原因可以有很多,但绝对不该是因为只有这部电影完美无缺。
3. 豆瓣电影TOP250排名算法太不透明了,都不能做到最简单的自圆其说,简直让人摸不到头脑,参考参考就得了,实际意义不太大。
4. 不要随便将两个体系的评判标准相提并论,即使IMDb更科学,也不能照搬其评判标准,硬套在更具人文主义关怀的豆瓣身上。
5. 用脑子看电影,也请用脑子打分。
本文不黑不吹,作者玻璃心,讨论欢迎留言,板砖、脏口恕不姑息奉陪。