uncertainty-calibration

标签

Cards List
#uncertainty-calibration

SAGE:面向口头不确定性对齐的答案条件不确定性目标

arXiv cs.CL · 21小时前 缓存

SAGE 提出了一种群体级别的不确定性目标,该目标在采样响应上构建基于答案条件的不确定性几何结构,以改进大语言模型中的口头不确定性对齐,并引入了 GUPO 进行训练。跨推理任务的实验表明,不确定性排序得到改善,过度自信有所减少。

0 人收藏 0 人点赞
#uncertainty-calibration

UNIQ:面向离线强化学习的共形校准自适应保守性方法

arXiv cs.LG · 2天前 缓存

UNIQ引入了一种用于离线强化学习的共形校准方法,该方法基于不确定性对每个状态自适应调整保守性,在部分D4RL基准测试上优于IQL,同时保持内存效率。

0 人收藏 0 人点赞
#uncertainty-calibration

UCCI: 校准不确定性实现成本最优的LLM级联路由

arXiv cs.LG · 2026-05-20 缓存

UCCI提出了一种校准优先的路由器,用于LLM级联,它使用等渗回归将令牌级别的边际不确定性映射到错误概率,在生产级NER任务中实现了31%的成本降低,同时保持微F1=0.91,并将期望校准误差从0.12降至0.03。

0 人收藏 0 人点赞
#uncertainty-calibration

Agent-BRACE:通过语言化状态不确定性在长视距任务中分离信念与行动

arXiv cs.CL · 2026-05-13 缓存

本文介绍了 Agent-BRACE,该方法将大型语言模型(LLM)智能体解耦为信念状态模型和策略模型,以处理部分可观测环境中的长视距任务。通过语言化状态不确定性,该方法在保持上下文窗口大小恒定的同时,相比基线方法实现了显著的性能提升。

0 人收藏 0 人点赞
#uncertainty-calibration

BitCal-TTS:面向量化推理模型的比特校准测试时扩展

arXiv cs.AI · 2026-05-08 缓存

本文介绍了 BitCal-TTS,这是一种运行时控制器,通过在测试时扩展期间校准置信度信号,提高了量化推理模型的准确性并减少了过早终止的问题。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈