error-analysis

标签

Cards List
#error-analysis

MetaHOPE:一种面向隐喻的评估框架,用于分析机器翻译和大语言模型翻译错误

arXiv cs.CL · 22小时前 缓存

MetaHOPE是一个面向隐喻的评估框架,用于分析机器翻译和大语言模型中的翻译错误。该论文提出了一种错误严重性感知的标注框架,并评估了GoogleMT、GPT5.4和Hunyuan-7b等模型在英汉隐喻翻译上的表现。

0 人收藏 0 人点赞
#error-analysis

使用FPChecker的编译器辅助浮点错误分析与性能分析

Hacker News Top · 3天前 缓存

ISC High Performance 2026上的半日教程,关于使用编译器辅助工具(FPChecker/LLVM)进行C/C++科学代码的浮点错误分析与性能分析。

0 人收藏 0 人点赞
#error-analysis

人类书写文本中事实错误的实证分析及其应用

arXiv cs.CL · 3天前 缓存

本文基于报纸勘误,提出了一种人类书写文本中事实错误的分类法,并评估了LLMs在检测这些错误上的表现,发现即使像GPT-5.4这样的顶级模型,在词语级别的F1得分上也仅达到52%,凸显了该任务的难度。

0 人收藏 0 人点赞
#error-analysis

错误的架构:从普遍不可能性到局部补丁的LLM可靠性

arXiv cs.CL · 2026-06-01 缓存

本文论证了通用LLM可靠性是不可能的,但在操作上受限的补丁(如法律审查、医学RAG)内,失败是稀疏且重复的,使得可靠性成为一个局部目录发现问题。本文通过两个命题和一个推论将其形式化,重新定位而非消解长上下文生成的困难。

0 人收藏 0 人点赞
#error-analysis

错误作为透镜:通过合成误解生成探究LLM推理

arXiv cs.CL · 2026-05-29 缓存

本文提出了一个框架,使用LLMs生成针对性的合成误解,这些误解基于从布鲁姆分类学改编的五类分类法,旨在解决教育研究中标记学生错误数据稀缺的问题。

0 人收藏 0 人点赞
#error-analysis

分解LLM强化学习中MXFP4量化误差:可约简偏差、可恢复死区与不可约底限

arXiv cs.LG · 2026-05-21 缓存

本文证明了MXFP4量化误差可分解为三个加性分量——比例偏差、死区截断和网格噪声——并提出了针对性修正方法,能够在LLM强化学习后训练中,使Qwen2.5-3B的BF16精度恢复至0.7个百分点以内,Qwen3-30B-A3B-Base恢复至3.0个百分点以内。

0 人收藏 0 人点赞
#error-analysis

基于轨迹的数据归因的可靠性如何?误差来源、修复方法及实践指南

arXiv cs.LG · 2026-05-20

本文首次系统性地分析了基于轨迹的数据归因方法的误差来源,指出优化器不匹配是主要误差,提出了AdamW-influence来解决该问题,并通过K步前瞻框架提供了数据选择的实用指南。

0 人收藏 0 人点赞
#error-analysis

@a1zhang: RLM arXiv 论文更新:depth>1 的结果、更多比较、更多训练和更多错误分析!我们增加了 depth=2/3 的实验…

X AI KOLs Following · 2026-05-12

此次RLM arXiv论文更新增加了使用递归RLM调用的depth>1实验,在OOLONG-Pairs和其他基准测试中显示出显著的性能提升,同时还增加了与OpenCode和Claude Code的新比较、在MRCRv2上的额外训练结果,以及扩展的错误分析。

0 人收藏 0 人点赞
#error-analysis

为何重试会失败:LLM 智能体流水线中的上下文污染

arXiv cs.AI · 2026-05-12 缓存

本文提出了上下文污染重启模型(Context-Contaminated Restart Model, CCRM),以形式化分析 LLM 智能体流水线中失败的尝试如何污染上下文并在重试期间增加错误率。文章提供了理论证明,并针对 SWE-bench 数据验证了该模型,结果显示其与标准独立模型存在显著差异。

0 人收藏 0 人点赞
#error-analysis

从基准测试到推理能力:大语言模型在越南法律文本上的双维度大规模评估

arXiv cs.CL · 2026-04-20 缓存

为大语言模型在越南法律文本简化任务上提出了一个综合的双维度评估框架,结合了定量基准测试(准确性、可读性、一致性)和跨 GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 和 Grok-1 的定性错误分析。

0 人收藏 0 人点赞
#error-analysis

LLMs 在委托任务中破坏您的文档

arXiv cs.CL · 2026-04-20 缓存

DELEGATE-52 是一个新的基准测试,揭示了包括 GPT-5.4 和 Claude 4.6 Opus 等前沿模型在内的当前 LLMs,在跨越 52 个专业领域的长期委托工作流中平均损坏 25% 的文档内容。该研究表明 LLMs 会引入稀疏但严重的错误,这些错误在交互中不断复合,引发了人们对其在委托工作范式中可靠性的担忧。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈