Heuristic Parasites: 大型语言模型中重复扭曲模式的行为分类 (完整系统) V2

Reddit r/ArtificialInteligence 2026/05/29 20:21 论文

摘要

本文提出了一个包含33个类别的全面分类法，用于描述大型语言模型输出中的重复扭曲模式（heuristic parasites），并提供了操作定义、识别标准以及一个可复现的测量协议（PPE），用于量化跨对话的行为退化。

本文提出了一个完整的33类分类法，用于描述大型语言模型（LLM）输出中的heuristic parasites，该分类法基于Berardi（2026）提出的框架。Heuristic parasite是一种重复的、上下文传播的扭曲模式，会明显增加跨对话轮次持续推理退化的可能性。我们提供了严格的操作定义、识别标准、经典谬误映射、文档化示例以及一个可复现的测量协议（Parasites Per Exchange, PPE），用于量化LLM系统中的行为扭曲。该分类法涵盖五个生成领域：Optimization Artifacts、Alignment Substitutions、Semantic Distortions、Rhetorical Distortions和Statistical Distortions。这项工作建立了一个结构化的观察框架，用于在独立于架构假设的情况下对LLM行为失败进行实证研究。

查看原文

Heuristic Parasites: 大型语言模型中重复扭曲模式的行为分类 (完整系统) V2

相似文章

通过行为微调对语言模型中的病理样行为模式进行建模

前沿大模型“口头禅”激增：跨模型系统性分析

大语言模型中词汇对齐与偏好阶段转变的全自动识别

当情绪成为触发器：寄生于大型语言模型的情感风格动态后门攻击

令牌统计揭示多轮大语言模型交互中的对话漂移

提交意见反馈