error-analysis

#error-analysis

@a1zhang: RLM arXiv 论文更新：depth>1 的结果、更多比较、更多训练和更多错误分析！我们增加了 depth=2/3 的实验…

X AI KOLs Following ↗ · 昨天

此次RLM arXiv论文更新增加了使用递归RLM调用的depth>1实验，在OOLONG-Pairs和其他基准测试中显示出显著的性能提升，同时还增加了与OpenCode和Claude Code的新比较、在MRCRv2上的额外训练结果，以及扩展的错误分析。

0 人收藏 0 人点赞

#error-analysis

为何重试会失败：LLM 智能体流水线中的上下文污染

arXiv cs.AI ↗ · 2天前缓存

本文提出了上下文污染重启模型（Context-Contaminated Restart Model, CCRM），以形式化分析 LLM 智能体流水线中失败的尝试如何污染上下文并在重试期间增加错误率。文章提供了理论证明，并针对 SWE-bench 数据验证了该模型，结果显示其与标准独立模型存在显著差异。

0 人收藏 0 人点赞

#error-analysis

从基准测试到推理能力：大语言模型在越南法律文本上的双维度大规模评估

arXiv cs.CL ↗ · 2026-04-20 缓存

为大语言模型在越南法律文本简化任务上提出了一个综合的双维度评估框架，结合了定量基准测试（准确性、可读性、一致性）和跨 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 的定性错误分析。

0 人收藏 0 人点赞

#error-analysis

LLMs 在委托任务中破坏您的文档

arXiv cs.CL ↗ · 2026-04-20 缓存

DELEGATE-52 是一个新的基准测试，揭示了包括 GPT-5.4 和 Claude 4.6 Opus 等前沿模型在内的当前 LLMs，在跨越 52 个专业领域的长期委托工作流中平均损坏 25% 的文档内容。该研究表明 LLMs 会引入稀疏但严重的错误，这些错误在交互中不断复合，引发了人们对其在委托工作范式中可靠性的担忧。

0 人收藏 0 人点赞

error-analysis

@a1zhang: RLM arXiv 论文更新：depth>1 的结果、更多比较、更多训练和更多错误分析！我们增加了 depth=2/3 的实验…

为何重试会失败：LLM 智能体流水线中的上下文污染

从基准测试到推理能力：大语言模型在越南法律文本上的双维度大规模评估

LLMs 在委托任务中破坏您的文档

提交意见反馈