uncertainty

#uncertainty

在答案正确的长思维链训练轨迹中诊断有害延续

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

本文识别了在LLM SFT的答案正确的长思维链训练轨迹中的有害延续，其特征为不确定性-几何不匹配，并提出了一种轻量级边界代理方法来去除它们。

0 人收藏 0 人点赞

#uncertainty

看见不等于知道：VLMs 知道何时不应回答空间问题吗（以及原因）？

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

本文介绍了 SpatialUncertain，这是一个用于评估视觉语言模型能否识别因遮挡或视角模糊而无法回答空间问题的基准，揭示了模型过度自信和回避行为不佳的问题。

0 人收藏 0 人点赞

#uncertainty

管理虚拟实验室规划中LLM生成程序性知识的不确定性

arXiv cs.AI ↗ · 2026-05-27 缓存

本文介绍了一个原型框架，用于管理虚拟实验室规划中LLM生成的程序性知识的不确定性，通过使用结构化领域表示来修复不确定的程序步骤。

0 人收藏 0 人点赞

#uncertainty

科学家使用IBM量子计算机训练AI模型——它在基础模型无法正确回答的问题上给出了正确答案

Reddit r/artificial ↗ · 2026-05-26 缓存

研究人员利用IBM量子计算机降低了AI模型中的不确定性，首次在预训练的大型语言模型中展示了量子增强，使其能够在基础模型失败的问题上正确作答。

0 人收藏 0 人点赞

#uncertainty

@rohanpaul_ai: 谷歌新论文称LLMs应停止假装确定，而是清楚地表明不确定。幻觉…

X AI KOLs Following ↗ · 2026-05-25 缓存

一篇新的谷歌论文认为，LLMs应侧重于诚实表达不确定性，而非追求完美的事实性，并提出“忠实的不确定性”以建立信任。

0 人收藏 0 人点赞

#uncertainty

$ECUAS_n$: 用于原则性评估不确定性增强系统的度量族

arXiv cs.AI ↗ · 2026-05-22 缓存

本文提出一个称为ECUAS_n的度量族，用于原则性评估输出预测和不确定性分数的不确定性增强系统。作者认为现有的评估方法不充分，并将这些度量构建为不确定性下决策的恰当评分规则。

0 人收藏 0 人点赞

#uncertainty

通过卡尔曼滤波、克里金法和过程噪声的精确跟踪Transformer

arXiv cs.LG ↗ · 2026-05-20

本文介绍了贝叶斯滤波Transformer（BFT），它通过精度加权注意力和卡尔曼更新残差将不确定性引入Transformer，从而提升了序列推荐和有噪声大语言模型微调的性能。

0 人收藏 0 人点赞

#uncertainty

并非所有不确定性都一样：波动性、随机性与探索

arXiv cs.AI ↗ · 2026-05-20 缓存

本文证明，波动性和随机性作为不确定性的两种来源，推动最优探索向相反方向变化：波动性增加探索，而随机性抑制探索。作者将Gittins指数框架扩展到高斯状态空间赌博机，并引入了CAUSE——一种闭式探索奖励，其性能优于标准策略。

0 人收藏 0 人点赞

#uncertainty

医学AI在校准上失败，远早于它在口才上失败。

Reddit r/artificial ↗ · 2026-05-18

本文认为，医学AI可能因校准不佳和无法表达不确定性而失败，而非缺乏口才，并呼吁增加建立信任的功能。

0 人收藏 0 人点赞

#uncertainty

当证据冲突时：检索增强生物医学问答中的不确定性与顺序效应

arXiv cs.CL ↗ · 2026-05-15 缓存

本文在冲突证据条件下评估了六个开放权重的大语言模型在生物医学问答中的表现，揭示了准确率下降和预测翻转，并提出了一个冲突感知的弃权评分，提高了选择性准确率。

0 人收藏 0 人点赞

#uncertainty

@dotey: https://x.com/dotey/status/2055097242755706984

X AI KOLs Timeline ↗ · 2026-05-15 缓存

资深开发者常因过于强调代码复杂性而无法与业务团队有效沟通，而业务团队真正关心的是消除不确定性。文章建议开发者用“能不能试个更快的办法”来拉通双方案，并指出AI虽能快速写代码，但承担责任的仍是人类。

0 人收藏 0 人点赞

#uncertainty

TwinTrack：医学影像分割的事后多标注者校准

Hugging Face Daily Papers ↗ · 2026-04-17 缓存

# 论文页面 - TwinTrack：医学影像分割的事后多标注者校准来源：[https://huggingface.co/papers/2604.15950](https://huggingface.co/papers/2604.15950) ## 摘要 TwinTrack 框架通过将集成概率事后校准为经验平均人类响应，解决胰腺癌分割中的模糊性，在多标注者基准上提升校准指标。

0 人收藏 0 人点赞

#uncertainty

为什么语言模型会产生幻觉

OpenAI Blog ↗ · 2025-09-05 缓存

OpenAI发布研究指出,语言模型产生幻觉的原因在于标准的训练和评估程序奖励猜测而不是承认不确定性,并建议评估指标应该优先考虑对局限性的诚实认识而不是原始准确率。

0 人收藏 0 人点赞

uncertainty

提交意见反馈