Heuristic Parasites: 大型语言模型中重复扭曲模式的行为分类 (完整系统) V2

Reddit r/ArtificialInteligence 论文

摘要

本文提出了一个包含33个类别的全面分类法,用于描述大型语言模型输出中的重复扭曲模式(heuristic parasites),并提供了操作定义、识别标准以及一个可复现的测量协议(PPE),用于量化跨对话的行为退化。

本文提出了一个完整的33类分类法,用于描述大型语言模型(LLM)输出中的heuristic parasites,该分类法基于Berardi(2026)提出的框架。Heuristic parasite是一种重复的、上下文传播的扭曲模式,会明显增加跨对话轮次持续推理退化的可能性。我们提供了严格的操作定义、识别标准、经典谬误映射、文档化示例以及一个可复现的测量协议(Parasites Per Exchange, PPE),用于量化LLM系统中的行为扭曲。该分类法涵盖五个生成领域:Optimization Artifacts、Alignment Substitutions、Semantic Distortions、Rhetorical Distortions和Statistical Distortions。这项工作建立了一个结构化的观察框架,用于在独立于架构假设的情况下对LLM行为失败进行实证研究。
查看原文

相似文章

大语言模型中词汇对齐与偏好阶段转变的全自动识别

arXiv cs.CL

本文提出了两种自动化指标:词汇对齐分数(Lexical Alignment Score)和三角化偏好转变(Triangulated Preference Shift),用于识别大语言模型中的词汇过度使用,并将其归因于偏好学习阶段。该方法在六个模型家族上使用PubMed摘要进行测试,无需人工干预即可重复先前的研究发现。

令牌统计揭示多轮大语言模型交互中的对话漂移

arXiv cs.CL

本文提出双可预测性(P)和信息数字孪生(IDT),一种使用令牌频率统计来监控多轮LLM交互中对话一致性的轻量级方法,无需使用嵌入或模型内部信息。该方法在检测矛盾和话题转换时达到100%的敏感度,同时为扩展LLM部署建立了实用的监控框架。