【文献阅读】基于特征融合的媒体人气预测方法综述
翮恬玉
Liu, A.-A., Wang, X., Xu, N., Guo, J., Jin, G., Zhang, Q., Tang, Y., & Zhang, S. (2022). A review of feature fusion-based media popularity prediction methods. Visual Informatics, 6(4), 78-89. https://doi.org/10.1016/j.visinf.2022.07.003
摘要:随着社交媒体的普及,信息传递的方式发生了变化,基于社交媒体平台的信息热度预测引起了广泛的关注。基于特征融合的媒体热度预测方法侧重于社交媒体的多模态特征,旨在探索影响媒体热度的关键因素。同时,这些方法弥补了传统基于信息传播过程的方法在特征利用方面的不足。本文从特征提取和预测模型构建的角度综述了基于特征融合的媒体人气预测方法。在此之前,我们分析了媒体热度的影响因素,以提供直观的理解。我们进一步讨论了现有方法和数据集的优缺点,以突出未来的方向。最后,我们讨论了人气预测的应用。据我们所知,这是第一个基于融合的媒体人气预测方法的调查报告。
本综述主要有以下贡献:
- 影响因素分析。我们给出了影响社交媒体信息普及的五个类别。讨论典型的特征融合流行方法。
- 通过对现有方法的深入调查和分析,我们将典型的特征融合流行方法总结为两个一般步骤:特征提取和模型构建。基于两个步骤中采用的不同技术,我们对这些方法的性能进行了彻底的分析。
- 应用场景的探索。本文总结了现有人气预测方法在内容优化、网络广告、网络营销、搜索推荐和项目预测等方面的应用。
基于社交媒体平台的开放性,我们发现影响信息热度的因素主要包括五类:信息内容、媒体情感、时间特征、用户信息和社交网络结构。
- 信息内容:信息内容是传递信息的主体,是影响热度的决定性因素。在社交媒体中,信息内容是帖子,包括视觉信息和文本信息。在信息内容中,话题是关系到热度的关键因素。Tsur和Rappoport(2012)证明,涉及时事或热门话题的信息比一般信息更具吸引力。Chen等(2015)以微博为研究对象,整合背景热点,研究其对用户转发行为的影响。它还确认,与热门话题越相似的内容,被转发的可能性就越大。Suh等人(2010)发现Twitter被转发的可能性与Twitter中涉及的超链接和标签密切相关。除了主题和标签外,Yang和Counts(2010)发现,社交媒体中信息内容对相关用户的引用率也是影响这些信息受欢迎程度的重要因素。更重要的是,Tan等人(2014)研究了同一主题不同表达模式的微博信息内容,发现不同模式的信息转发量存在差异。此外,Deng等人(2015)发现,视觉信息对微博的热度影响很大,包含视觉信息的微博比只包含文字信息的微博具有更高的受欢迎程度。
- 媒体情感:媒体情感来自于对信息内容的深度挖掘,这与信息的普及程度有一定的关系(Bae and Lee, 2012)。通常,情绪包括积极和消极。从强度方面来看,情绪可以分为强和弱。Wu和Shen(2015)发现微博新闻中的负面情绪与新闻转发率直接相关。Stieglitz和Dang-Xuan(2013)阐明了情绪在社交媒体环境中信息传播中的作用,并发现基于社交媒体的内容中的强烈情绪不仅与共享的信息量有关,还与速度有关。Ferrara和Yang(2015)旨在量化情绪对信息传递的影响。结果表明,在内容层面,负面信息的传播速度快于正面信息。但正面信息传播的受众更多,说明人们更喜欢分享和喜欢正面内容,即所谓的正面偏见。Ferrara and Yang(2015)也证实,涉及强烈情感话题的信息会得到更多的讨论和关注,从而变得越来越流行。
- 时间特性:在时间特征方面,对流行度的影响包括发布时间的敏感性和时间序列的依赖性。对于发布时间的敏感性,Gao等人(2015)和Van Canneyt等人(2018)发现,信息的初始受欢迎程度在很大程度上取决于它在微博和Facebook上发布的时间。 Sabate等人(2014)分析了品牌知名度对Facebook的影响,发现工作时间的帖子往往会收到更多的评论。对于时间序列依赖性,Wu等人(2017)认为时间序列会影响信息的普及。他们利用时序依赖性为流行预测任务设计了网络,取得了良好的实验效果。Cheng等人(2014)发现仅使用时间特征的预测模型与其他模型相当,并在预测中起主导作用。
- 用户信息:用户是信息的创建者和发布者。他们的个人信息对热度有一定的影响,主要体现在个人活动和用户影响力上。Deng et al. (2015)以微博为研究对象,发现发帖用户的活动与微博转发量有很大关系。Bakshy et al. (2011)对Twitter用户及其推文进行了分析。他们发现,关注者越多,推文越受欢迎,用户的其他推文通常更受欢迎。Zhang等人(2012)也使用信息增益方法证实了粉丝和用户在流行度中的重要性。
- 社交网络结构:社交网络结构是指信息传播过程中形成的传播图结构。在图表中,点的数量、边缘的密度和深度是关键因素。Weng et al. (2014)研究了网络的社区结构对微博信息标签流行度的影响,发现信息在传播过程中涉及的社区越多,最终的受欢迎程度就越大。Bao等人(2013)分析了信息评论网络与信息普及度的相关性,发现信息的最终热度与通信网络链路的密度呈负相关,与传播和扩散的深度呈正相关。如图2所示,(a)显示了信息发布后48小时的链接密度与2 h后的流行度之间的关系。我们可以看到,它的对数排列大致是一条负斜率的直线,表明其负相关。图48(b)同样显示了信息发布后<>小时的传播深度与<>小时后的流行度之间的关系。其对数采样可以连接到近似正斜率线。这表明,信息在传播期早期扩散路径的结构特征可以帮助预测其最终流行度。
社交媒体流行度预测具有非常广阔的应用前景。现有的相关应用主要体现在内容优化、网络广告、网络营销、搜索推荐、热度预测等方面。