难忘标题:插入人称代词能否提高记忆度?
摘要
实验研究显示,在标题中插入第一/第二人称代词对人类记忆度影响不一,且大语言模型常生成不准确或不自然的改写。
arXiv:2604.19189v1 公告类型:新
摘要:要让新闻标题影响信念并驱动行动,相关信息必须被记住并能在记忆中检索。在本探索性研究中,我们借鉴认知心理学的实验设计,考察一种特定语言特征——通过第一和第二人称代词实现的直接称呼——如何影响记忆度,以及利用大语言模型在保持核心语义的前提下,向已有文本中定向插入该特征的可行性。在三项共240名受试者、产生7,680次独立记忆判断的对照记忆实验中,我们发现代词插入对记忆度有混合效应。探索性分析表明,效应因标题主题、代词插入方式及其即时语境而异。需更多数据与精细分析才能就这些中介因素得出明确结论。我们还发现,LLM 的自动改写并非总是合适:众包评估表明,许多改写缺乏内容准确性、情感保持或导致不自然的写作风格。我们将收集的数据公开,以供后续研究使用。
查看缓存全文
缓存时间: 2026/04/22 08:30
# 代词插入能否提升记忆度? 来源:https://arxiv.org/html/2604.19189 ## 忘不掉的标题:代词插入能否提升记忆度? ###### 摘要 要让新闻标题影响信念并驱动行动,相关信息必须被记住并能在记忆中检索。本探索性研究借鉴认知心理学实验设计,考察一种具体语言特征——通过第一、二人称代词实现的直接称呼——如何影响记忆度,并评估用大模型在现有文本中定向插入该特征、同时不改变核心含义的可行性。三项受控记忆实验共招募 240 名参与者,产生 7,680 条独立记忆判断,结果显示代词插入对记忆度具有混合效应。探索性分析表明,效应因标题主题、插入方式及即时语境而异。要就这些中介因素得出明确结论,还需更细粒度的数据与分析。我们进一步发现,LLM 的自动改写并不总是合适:众包评估显示,许多改写存在内容失真、情感保留不足或写作风格不自然的问题。我们公开收集的数据(https://zenodo.org/records/19254945)供后续研究使用。 关键词:新闻记忆度、基于 LLM 的文本编辑、认知心理学 ## 1 引言 NLP 领域的新闻研究常聚焦于提升文章参与度,具体表现为停留时间、点赞、转推、引用或回复等行为数据。相关工作包括生成或改写标题、社交媒体帖子,以及降低错误信息的影响。然而,用户对新闻内容的加工与保留——同样关键地塑造信念与行为——却知之甚少。记忆度在此扮演关键角色:用户记住的内容会影响其相信与分享的内容。在生成式 AI 时代,这一点尤为重要,因为 AI 可能加速生产并传播具有说服力却误导性的内容。认知心理学中的“虚幻真相效应”表明,仅凭重复就能提升信息被感知的真实度与分享概率,这凸显了理解其他可塑造记忆的语言特征(如代词使用)的重要性。 尽管认知心理学已大量研究人们对虚假新闻的信念机制,但真正或权威新闻的记忆度语言驱动因素却被忽视。本文通过一组初步实验填补这一空白,聚焦新闻标题的记忆度。在此过程中,我们也探索 LLM 能否通过直接称呼读者来操纵标题,使其更易被记住。实验测试了微小、定向的编辑是否影响标题的“再认”与“回忆”,以及 LLM 能否在不扭曲原意的前提下可靠地完成相关编辑。结果显示,代词插入对记忆度具有混合效应,且 LLM 的改写并不完全可靠。总之,我们的贡献有两方面:在语言动机驱动的改写任务上测试 LLM,并用认知心理学实验方法测量其对记忆的下游影响。 ## 2 相关工作 本文与“文本风格迁移”相关,即在不改变核心语义的前提下操纵文本的某一维度,但我们聚焦于更细粒度的定向操纵,而非整体风格转换。此前研究表明,尽管 LLM 在众多 NLP 任务上表现亮眼,但在人类可完美完成的简单任务(如写含特定词的句子、单词重组、句子编辑)上却常失败。小型精调模型在狭窄文本编辑任务(如语法纠错)上甚至能超越更大的基础模型,而零样本/少样本提示在风格迁移任务(如语言去毒化、情感迁移)中表现不稳定,凸显了训练数据在此类任务中的持续重要性。 具体到新闻改写与标题生成,有研究探索不同提示策略将新闻推文改写成更正式、随意或事实的版本以提升预测参与度;也有工作引入基于用户偏好与候选文章的个性化标题数据集;还有研究在保持内容忠实的前提下利用“标题党”技巧提升阅读兴趣、促进真实信息传播。 超越 NLP,本文还借鉴心理学、心理语言学及市场营销的发现:直接称呼与代词选择可在命题内容不变的情况下影响记忆。例如,与自我相关的信息更易被记住;第二人称结构能引发更强的读者卷入;第二人称代词对消费者行为具有稳健效应。与新闻记忆度直接相关的研究发现,不同语言线索会影响认知与情感加工,且推文式文本通常比新闻标题更易被记住。此外,本文同时测量“再认”与“回忆”,以提供更全面的记忆图景。 ## 3 方法 我们对已有数据进行语言学分析,发现人称代词有助于区分高记忆度与低记忆度内容。为验证该效应是否仅存在于标题,我们开展先导研究,结果提示含第一、二人称代词的标题更易被记住。基于此,我们考察多种 LLM 在“不改变原标题内容、不造成风格不自然”的前提下插入代词的能力。在确保改写质量后,进行被试间用户研究,以排除其他干扰因素、测量该语言改动对记忆度的影响。共运行三项记忆研究,每项均以前一项结果为依据。 ### 3.1 记忆研究 实验设计借鉴认知心理学经典范式,分五个阶段: - 呈现阶段:参与者同意知情同意后,依次随机观看固定数量的新闻标题,每条 10 秒,被告知需记住。 - 干扰阶段:观看无关图片 60 秒,减少近因效应。 - 回忆阶段:自由回忆并写下尽可能多的标题,力求原文,鼓励至少 5 分钟;若提前尝试进入下一阶段,系统最多两次提示其继续。 - 再认阶段:随机呈现先前看过的 16 条标题及同等数量的新干扰标题,要求判断是否在呈现阶段见过。 - 真实度判断阶段:再次随机呈现所有再认阶段标题,要求用 7 点量表评估其主观真实度。 三项研究材料、分组及人数各异,但均保持每组 30 人,共 240 人。标题改写流程见 §3.2。 #### 研究 I 从 32 家主要媒体采集 32 条标题,每主题 8 条(娱乐、政治、环境、健康),排除已含代词者。用多种 LLM 对其中 16 条插入至少一个第一或第二人称代词,经 8 名标注者质量评估,仅保留 ≥62.5% 认为“准确且合适”的改写。参与者随机分两组,各看 16 条标题(8 原 / 8 改写),主题平衡且交叉分配。再认阶段另加 16 条新干扰标题(其中 7 条为改写),确保改写项不会因唯一含代词而被轻易识别。 #### 研究 II 研究 I 定性结果显示,当代词有机融入标题时,再认率提升。我们假设人类改写比 LLM 更自然,后者常附加句段或“标题党”措辞。为此,研究 II 中一半含代词标题为人类改写,另一半为 LLM 改写,依旧交叉分组。 #### 研究 III 研究 II 发现代词插入效应在不同主题间差异显著(政治标题效应最强),故研究 III 仅选用政治主题 32 条新标题,全部配对人工改写并插入代词。
相似文章
论大语言模型适应性的局限:模型内化先验对标注任务性能的影响
本文研究了LLM的内化先验如何影响零样本标注性能,发现近三分之二的错误抵抗基于提示的修正,并引入了定义特定熟悉度(DSF)作为比记忆化指标更好的预测因子。
LLM中的蝴蝶效应。仅人物格式(散文与要点)就使LLM的行为翻转了76个百分点。
一项研究表明,仅改变人物提示的格式(散文与要点)就戏剧性地翻转了LLM在囚徒困境中的行为,从96%的合作率降至20%,说明了在内容相同的情况下对格式的极端敏感性(p < 0.001)。
为了内容而内容
作者探讨了LLM如何影响编码和日常语言中的用词,发现LLM偏好的词汇在编程会话和Google Trends中出现的频率均有所增加,这引发了人们对人类开始采用LLM写作风格的担忧。
## 语言适应:随着语言模型成为社会不可或缺的一部分
文章认为,随着基于LLM的AI变得无处不在,语言应当适应这一变化,为AI创造新的代词,因为无论是人称代词("他/她")还是非人称的"它",都无法准确反映与具备语言能力的非人类实体之间的独特关系。
大语言模型能泄露训练数据,但它们愿意吗?对LLM记忆的倾向性感知评估
PropMe是一个倾向性感知框架,用于评估LLM的记忆,区分强制复现能力和自然倾向,使用SimpleTrace在开放模型和数据集上进行确定性归因。