Heuristic Parasites: 大型语言模型中重复扭曲模式的行为分类 (完整系统) V2
摘要
本文提出了一个包含33个类别的全面分类法,用于描述大型语言模型输出中的重复扭曲模式(heuristic parasites),并提供了操作定义、识别标准以及一个可复现的测量协议(PPE),用于量化跨对话的行为退化。
本文提出了一个完整的33类分类法,用于描述大型语言模型(LLM)输出中的heuristic parasites,该分类法基于Berardi(2026)提出的框架。Heuristic parasite是一种重复的、上下文传播的扭曲模式,会明显增加跨对话轮次持续推理退化的可能性。我们提供了严格的操作定义、识别标准、经典谬误映射、文档化示例以及一个可复现的测量协议(Parasites Per Exchange, PPE),用于量化LLM系统中的行为扭曲。该分类法涵盖五个生成领域:Optimization Artifacts、Alignment Substitutions、Semantic Distortions、Rhetorical Distortions和Statistical Distortions。这项工作建立了一个结构化的观察框架,用于在独立于架构假设的情况下对LLM行为失败进行实证研究。
相似文章
通过行为微调对语言模型中的病理样行为模式进行建模
本文介绍了一个行为诱导框架,通过在结构化决策任务上微调语言模型,以引发生成分布中稳定的、上下文无关的偏移,从而模拟抑郁和偏执等病理样行为模式。
前沿大模型“口头禅”激增:跨模型系统性分析
首次系统性量化八款顶尖大模型的重复口头禅现象,提出“口头禅指数(VTI)”,发现模型间差异显著且严重损害自然度。
大语言模型中词汇对齐与偏好阶段转变的全自动识别
本文提出了两种自动化指标:词汇对齐分数(Lexical Alignment Score)和三角化偏好转变(Triangulated Preference Shift),用于识别大语言模型中的词汇过度使用,并将其归因于偏好学习阶段。该方法在六个模型家族上使用PubMed摘要进行测试,无需人工干预即可重复先前的研究发现。
当情绪成为触发器:寄生于大型语言模型的情感风格动态后门攻击
本文介绍了 Paraesthesia,一种针对大型语言模型(LLM)的动态后门攻击方法。该方法在微调过程中将情感风格作为隐蔽的触发器,在保持模型原有实用性的同时实现了极高的攻击成功率。
令牌统计揭示多轮大语言模型交互中的对话漂移
本文提出双可预测性(P)和信息数字孪生(IDT),一种使用令牌频率统计来监控多轮LLM交互中对话一致性的轻量级方法,无需使用嵌入或模型内部信息。该方法在检测矛盾和话题转换时达到100%的敏感度,同时为扩展LLM部署建立了实用的监控框架。