item-based CF 中物品马太效应的影响
这几天要实现 CF,突然发现自己一直觉得 CF 原理简单,从来没有认真想过,于是中午休息的时间简单的推算了一些事情。
下面考虑物品马太效应对 item-based CF 的影响。用户观看视频/下载软件是长尾分布的,假设这种长尾分布是服从 Zipf's Law 的(注:中科大的人发过论文,指出用户点播视频服从的分布更像广延指数模型而不是 Zipf's Law。这里用 Zipf's Law 建模只是为了方便讨论)。也就是最热的视频被 单位1 的人看过,第二热的视频被 1/2 的人看过,第三热的视频被 1/3 的人看过……
下面考虑两个视频: 视频甲被 1/m 的人看过,视频乙被 1/n 的人看过。那么一个用户同时看过视频甲和乙的概率是 1/(m*n)。假设总共有 W 个用户,那么用户同时看过两个视频是服从 Bernoulli Distribution 的,也就是说平均有 W / (m*n) 个用户同时看过两个视频。而平均来说,共有 W/m 个用户看过视频甲,W/n 个用户看过视频乙。所以:
如果用 L1-norm cosine 来计算视频甲和乙的相似度,它们的相似度是 1/W。 如果用 L2-norm cosine 来计算视频甲和乙的相似度,它们的相似度是 1/sqrt(m*n)。
结论是:如果采用 L1-norm cosine 来计算 item-based CF 中的物品相似性的话,平均来说是不受马太效应影响的;而如果采用 L2-norm cosine 来计算 item-based CF 中的物品相似性的话,是会受马太效应的影响的(热门物品更容易跟其他物品相似)并且可以按照上面的方式量化。
P.S: 这里的假设是用户点播 A 和点播 B 的事件是独立的。
Hao的最新日记 · · · · · · ( 全部 )
- 2025 年第一篇 SCI 论文发表了 (6人喜欢)
- 《淳化阁贴》和甘肃文物展 (2人喜欢)
- 最佳论文奖和一封邮件 (2人喜欢)
- 可视化与人工智能
- ICHESS 2023 论文勘误
热门话题 · · · · · · ( 去话题广场 )
-
加载中...