uncertainty

标签

Cards List
#uncertainty

构建了一个会说“我没见过这个”而不是猜测的智能体——添加记忆后发生了什么变化

Reddit r/AI_Agents · 9小时前

文章讨论了如何构建一个能够识别并表达不确定性而非猜测的AI智能体,并探讨了在其决策过程中加入记忆所带来的影响。

0 人收藏 0 人点赞
#uncertainty

Sam Altman 对 GPT-5.6 在美国以外发布表示不确定

Reddit r/singularity · 14小时前

Sam Altman 对在美国以外发布 GPT-5.6 表示不确定,引发了对地理可用性的质疑。

0 人收藏 0 人点赞
#uncertainty

面向化学语言模型的不确定性感知强化学习

arXiv cs.LG · 2天前 缓存

提出了两种互补方法,将预测不确定性融入化学语言模型的强化学习中,提高了鲁棒性,并在从头分子设计中将真实命中率提升了0.25。

0 人收藏 0 人点赞
#uncertainty

为什么AI系统仍然难以理解人类对话中的不确定性?

Reddit r/artificial · 2026-06-19

本文探讨了为何AI系统在理解人类对话中的不确定性和歧义方面存在困难,并强调了自然语言理解领域持续面临的挑战。

0 人收藏 0 人点赞
#uncertainty

在地质、需求与定价不确定性下优化锂生产决策:面向多目标决策的POMDP框架

arXiv cs.AI · 2026-06-18 缓存

本文提出了一种面向锂生产多目标决策的POMDP框架,处理地质、需求与定价不确定性,以优化矿山开采及提取方法选择。该方法通过信念状态规划动态适应价格机制变化,优于基于人类启发式的方法。

0 人收藏 0 人点赞
#uncertainty

不确定性下的决策驱动地质导向:一种用于序贯决策优化的统一框架

arXiv cs.LG · 2026-06-17 缓存

提出了一种不确定性感知的地质导向框架,该框架将用于概率地下解释的粒子滤波与用于序贯决策的强化学习相结合,并在工业模拟器上进行了评估。

0 人收藏 0 人点赞
#uncertainty

通过结构不确定性量化LLM逻辑推理的一致性

arXiv cs.AI · 2026-06-17 缓存

本文引入结构不确定性框架,通过测量采样推理解中自偏好排名的稳定性来评估LLM推理一致性,补充了传统的答案离散度方法,用于识别不可靠的推理。

0 人收藏 0 人点赞
#uncertainty

最小监督:面向委托AI系统的不确定性感知治理

arXiv cs.AI · 2026-06-16 缓存

本文提出了用于治理委托AI系统的最小充分监督原则(MSO),推导了自主分配和信任校准的数学解,并引入了如水填充分配和掩蔽病理等概念。

0 人收藏 0 人点赞
#uncertainty

我们是否过早信任了智能体推荐?

Reddit r/AI_Agents · 2026-06-11

一篇观点文章,质疑我们是否过度依赖自信的智能体推荐(无论是人类还是AI),而底层数据往往杂乱且不完整,建议智能体应表达不确定性。

0 人收藏 0 人点赞
#uncertainty

WorldKernel: 世界模型是可行可能世界的耦合核

arXiv cs.AI · 2026-06-10 缓存

本文识别了一种故障模式,其中预测器在未识别的反事实耦合上坍缩为一点,并提出了一个使用正半定耦合核来约束反事实的框架,表明预测无法表示跨世界耦合的不确定性,且施加核约束可产生可处理的边界。

0 人收藏 0 人点赞
#uncertainty

校准过度自信而不牺牲置信度:面向LLMs的探针条件化头部干预

arXiv cs.LG · 2026-06-10 缓存

本文介绍了一种推理时方法——探针条件化头部干预(PCHI),该方法通过在模型可能错误但保持高置信度时条件性地重新缩放注意力头输出,有选择地减少对错误答案的过度自信,同时不会显著降低对正确答案的置信度。

0 人收藏 0 人点赞
#uncertainty

使用概率程序训练大型语言模型的归纳推理

arXiv cs.CL · 2026-06-10 缓存

本文介绍了基于程序的后验训练(PPT),一种利用LLM生成的概率程序来创建分布目标,以微调归纳推理的方法,从而提高了在保留任务和人类对齐基准上的估计准确性和校准能力。

0 人收藏 0 人点赞
#uncertainty

一种基于局部缩减的不确定性下微电网最优控制的高效方法

Hugging Face Daily Papers · 2026-06-10 缓存

提出并比较了两种在不确定性下进行鲁棒微电网容量配置和功率调度的数学公式,采用局部缩减算法,在蒙特卡洛模拟中实现了高可行性率。

0 人收藏 0 人点赞
#uncertainty

语言模型如何失败:承诺性与持续性推理失败的词元级特征

arXiv cs.CL · 2026-06-08 缓存

本文通过词元级不确定性信号,刻画了语言模型在推理中失败的两种不同过程——承诺性失败与持续性不确定性,并展示了其对自一致性及失败检测策略的启示。

0 人收藏 0 人点赞
#uncertainty

深度强化学习中的性能变异

arXiv cs.LG · 2026-06-08 缓存

本文指出了深度强化学习中传统不确定性估计的局限性,并提出基于百分位数的统计量和可视化方法,以更好地评估运行间性能变异。案例研究展示了该方法在PPO、SAC、TD-MPC、DQN和Rainbow算法上的应用。

0 人收藏 0 人点赞
#uncertainty

LLM代理中的忠实不确定性:实践中校准与效用权衡

Reddit r/MachineLearning · 2026-06-04

一位从业者讨论了LLM代理中的校准与效用权衡,分享了基于验证器的流水线经验,该流水线将幻觉工具调用减少了约60%,但引入了延迟成本并丢失了简单的正确答案。

0 人收藏 0 人点赞
#uncertainty

基于信息增益的LLM代理中的不确定性感知澄清

arXiv cs.AI · 2026-06-03 缓存

提出了一种目标导向的澄清框架,利用信息增益奖励训练LLM代理,在用户指令不明确的情况下提出有效的澄清问题,在仅增加少量交互开销的情况下,将任务成功率提升了3.7%。

0 人收藏 0 人点赞
#uncertainty

论概率概念的演化:理性演化的镜像

arXiv cs.AI · 2026-06-02 缓存

本文认为概率理论是一种历史演变的理性形式,追溯了其从组合博弈到贝叶斯推断的发展,并与模糊逻辑和深度学习进行了对比。

0 人收藏 0 人点赞
#uncertainty

基于重试的策略梯度强化学习中探索的涌现

arXiv cs.LG · 2026-06-02 缓存

本文提出ReMax,一种新的强化学习目标函数,通过基于多个样本的期望最大回报来评估策略,从而将探索作为涌现属性引入,无需显式的探索奖励。作者推导了策略梯度公式,并提出了RePPO,一种PPO变体,在MinAtar和Craftax基准测试上实现了高效探索。

0 人收藏 0 人点赞
#uncertainty

这波AI到底要走向何方?

Reddit r/ArtificialInteligence · 2026-05-30

作者反思了AI行业释放的混乱信号,指出高额投入并未带来相应的生产力提升,而Anthropic一边限制Claude Code的访问权限、一边大规模融资,让人怀疑AI革命性宣言的真实方向。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈