标签
MetaHOPE是一个面向隐喻的评估框架,用于分析机器翻译和大语言模型中的翻译错误。该论文提出了一种错误严重性感知的标注框架,并评估了GoogleMT、GPT5.4和Hunyuan-7b等模型在英汉隐喻翻译上的表现。
ISC High Performance 2026上的半日教程,关于使用编译器辅助工具(FPChecker/LLVM)进行C/C++科学代码的浮点错误分析与性能分析。
本文基于报纸勘误,提出了一种人类书写文本中事实错误的分类法,并评估了LLMs在检测这些错误上的表现,发现即使像GPT-5.4这样的顶级模型,在词语级别的F1得分上也仅达到52%,凸显了该任务的难度。
本文论证了通用LLM可靠性是不可能的,但在操作上受限的补丁(如法律审查、医学RAG)内,失败是稀疏且重复的,使得可靠性成为一个局部目录发现问题。本文通过两个命题和一个推论将其形式化,重新定位而非消解长上下文生成的困难。
本文提出了一个框架,使用LLMs生成针对性的合成误解,这些误解基于从布鲁姆分类学改编的五类分类法,旨在解决教育研究中标记学生错误数据稀缺的问题。
本文证明了MXFP4量化误差可分解为三个加性分量——比例偏差、死区截断和网格噪声——并提出了针对性修正方法,能够在LLM强化学习后训练中,使Qwen2.5-3B的BF16精度恢复至0.7个百分点以内,Qwen3-30B-A3B-Base恢复至3.0个百分点以内。
本文首次系统性地分析了基于轨迹的数据归因方法的误差来源,指出优化器不匹配是主要误差,提出了AdamW-influence来解决该问题,并通过K步前瞻框架提供了数据选择的实用指南。
此次RLM arXiv论文更新增加了使用递归RLM调用的depth>1实验,在OOLONG-Pairs和其他基准测试中显示出显著的性能提升,同时还增加了与OpenCode和Claude Code的新比较、在MRCRv2上的额外训练结果,以及扩展的错误分析。
本文提出了上下文污染重启模型(Context-Contaminated Restart Model, CCRM),以形式化分析 LLM 智能体流水线中失败的尝试如何污染上下文并在重试期间增加错误率。文章提供了理论证明,并针对 SWE-bench 数据验证了该模型,结果显示其与标准独立模型存在显著差异。
为大语言模型在越南法律文本简化任务上提出了一个综合的双维度评估框架,结合了定量基准测试(准确性、可读性、一致性)和跨 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 的定性错误分析。
DELEGATE-52 是一个新的基准测试,揭示了包括 GPT-5.4 和 Claude 4.6 Opus 等前沿模型在内的当前 LLMs,在跨越 52 个专业领域的长期委托工作流中平均损坏 25% 的文档内容。该研究表明 LLMs 会引入稀疏但严重的错误,这些错误在交互中不断复合,引发了人们对其在委托工作范式中可靠性的担忧。