【文献阅读】利用道德词典和嵌入相似性进行道德基础预测
来自: Fan
ARAQUE O, GATTI L, KALIMERI K. MoralStrength: Exploiting a moral lexicon and embedding similarity for moral foundations prediction[J/OL]. Knowledge-Based Systems, 2020, 191: 105184. DOI:10.1016/j.knosys.2019.105184.
摘要:道德修辞在我们如何感知和解读所接收的信息方面发挥着基础性作用,极大地影响着我们的决策过程。尤其是在涉及具有争议性的社会和政治问题时,我们的观点和态度几乎从来不是仅仅基于证据。《道德基础词典》( MFD )是为了在文本中操作化道德价值而开发的。在本研究中,我们基于词网同义词集合提出了MoralStrength,一个由大约1000个词条组成的词库,作为道德基础词典的扩展。此外,对于每个引理,MoralStrength提供了一个众包的道德价值的数值评估,表明引理表达特定价值的强度。我们评估了该道德词典的预测潜力,定义了三种增加复杂度的使用方法,从词条的统计特性到基于语义相似性的词嵌入深度学习方法。使用Moral Strength提取的特征训练的逻辑回归模型显著优于当前的先进水平,在6个不同的数据集上达到了87.6 %的F1值,平均F1 - Score为86.25 %。这些发现为进一步的研究铺平了道路,使人们能够深入理解文本中的道德叙事,以解决广泛的社会问题。
- 道德基础词典由于有限的词根与词干数量,难以应对日常对话,作者使用词网(WordNet)同义词集合扩展了原始版本的道德基础词典。基于扩展的词库,使用三种方式提取道德特征:词频、统计汇总以及基于相似性的情感投射(SIMON)。
- 通过招募人工编码员对部分数据进行标注,实现了对道德强度的量化,再把这部分数据投入机器学习中,构建了一系列逻辑回归模型。首先,单独评估了Unigram、Moral Freq、Moral Stats和SIMON词库方法的预测力。然后,将上述方法提取的特征串联起来训练逻辑回归模型。
- 在多个语料库数据集中比较后,unigrams+Moral Freq的特征组合表现最佳。