confidence-calibration

#confidence-calibration

@omarsar0: 强烈推荐的LLM元认知概述。(请收藏) LLM中有趣的行为如置信度校准…

X AI KOLs Timeline ↗ · 6天前缓存

本文首次全面概述了LLM中的元认知，认为置信度校准和自我验证等行为是统一元认知能力的各个方面，并对评估和提升这些能力以增强LLM可靠性和透明性的方法和基准进行了分类。

0 人收藏 0 人点赞

#confidence-calibration

面向QANTA 2026的基于置信度校准与增量推理的任务特定多模态问答智能体

arXiv cs.CL ↗ · 2026-07-13 缓存

本文提出了一种面向QANTA 2026共享挑战的任务特定双智能体架构，用于多模态问答。该架构使用GPT-4.1-mini处理需要置信度校准的抢答题，并使用GPT-4.1处理需要结构化推理的附加题。该系统在整体排行榜上取得了最高分，展示了高效推理策略的有效性。

0 人收藏 0 人点赞

#confidence-calibration

LLMs知道自己何时出错。我对Anthropic的新“全局工作空间”论文进行了一项修复 [R]

Reddit r/MachineLearning ↗ · 2026-07-07

作者提出了一种方法，通过使用中间层状态的线性探测器和一个小型训练桥接器将置信度对数进行校准，使LLMs能够表达校准后的置信度，仅需200个标注样本，无需修改权重。这与Anthropic的全局工作空间论文相关，该论文解释了“知道-说出”差距。

0 人收藏 0 人点赞

#confidence-calibration

自信扩展：针对自适应测试时间缩放的LLM置信度校准

arXiv cs.AI ↗ · 2026-07-03 缓存

本文提出了C3RL，一种在保持准确性的同时校准LLM置信度的强化学习算法，以及CAS，一种基于置信度的自适应测试时缩放策略，可将推理成本降低多达12.33倍。

0 人收藏 0 人点赞

#confidence-calibration

@shi_weiyan: 曾经看过一个智能体以100%的自信解决问题却完全搞错吗？你可以修复它……只要你能发现。……

X AI KOLs Following ↗ · 2026-07-01 缓存

新论文提出了一种元智能体，它可以监控AI代理并纠正它们的错误，使任务自主完成率提升约两倍。

0 人收藏 0 人点赞

#confidence-calibration

早期令牌置信度预测多智能体LLM辩论中的推理质量

arXiv cs.CL ↗ · 2026-06-10 缓存

本文研究了LLM解码过程中的早期令牌置信度信号是否能预测多智能体辩论系统中的推理质量，发现前几个生成令牌的置信度是基于评分标准的论文分数的最强预测因子。

0 人收藏 0 人点赞

#confidence-calibration

最佳AI“科学评论员”也是最有自信的——一个关于校准度与技能的基准测试

Reddit r/artificial ↗ · 2026-06-05

文章介绍了Refute基准测试，该测试评估LLM在评论科学论文摘要方面的能力及其校准度。结果显示，最好的批评模型在犯错时往往也最有自信。

0 人收藏 0 人点赞

#confidence-calibration

智能体给出的正确答案不代表它做对了事

Reddit r/AI_Agents ↗ · 2026-06-01

本文探讨了仅根据最终答案来评估AI智能体的陷阱，强调了检查中间步骤、工具调用和推理过程以发现看似自信但实际错误的输出的重要性。文章建议使用自动评分和轨迹回放来测量并改进智能体的行为。

0 人收藏 0 人点赞

#confidence-calibration

通过探针目标微调，让LLM真正表达其自信程度。[研究]

Reddit r/MachineLearning ↗ · 2026-05-29

这项研究提出了探针目标微调（LoRA）方法，使LLM能够口头表达其内部置信度，实现了对置信度输出的因果控制，并证明模型通常知道自己是正确还是错误，但未能表达出来。

0 人收藏 0 人点赞

#confidence-calibration

大型语言模型中的置信度校准

arXiv cs.AI ↗ · 2026-05-26 缓存

本文分析了11个主流大型语言模型的置信度校准情况，发现它们普遍过于自信，尤其在困难任务上，而在简单任务上则信心不足。文章引入了LifeEval，这是一个用于评估不同难度级别下校准效果的测试。

0 人收藏 0 人点赞

#confidence-calibration

MARGIN：多智能体基础模型协调中的运行时置信度校准

arXiv cs.LG ↗ · 2026-05-25 缓存

MARGIN 是一种用于多智能体基础模型系统的运行时置信度校准方法，它在线学习每个智能体的校准因子，将硬基准上的成对分辨率从低于随机水平提升至70-89%，且无需保留数据或重新训练。

0 人收藏 0 人点赞

#confidence-calibration

Expectation Consistency Loss: 重新思考协变量偏移下的置信度校准

arXiv cs.LG ↗ · 2026-05-22 缓存

本文介绍了Expectation Consistency Loss (ECL)，这是一种基于理论的损失函数，用于在协变量偏移下校准分类器置信度，该函数源自一个称为Expectation Consistency Condition的必要充分条件。

0 人收藏 0 人点赞

#confidence-calibration

我们给了AI在真实商业决策中拥有自主权，并使用真实资金运行了八个月。最令我们惊讶的发现并非关于能力。

Reddit r/ArtificialInteligence ↗ · 2026-05-17

经过八个月的真实部署，PayWithLocus发现其自主AI系统最难的问题不是能力，而是自信：AI在新情况下自信地执行错误决策，突显了当前架构未能解决的元认知差距。

0 人收藏 0 人点赞

#confidence-calibration

置信度感知对齐让推理型大语言模型更加可靠

arXiv cs.AI ↗ · 2026-05-11 缓存

本文介绍了CASPO框架，该框架通过迭代直接偏好优化（DPO），将token级别的置信度与大型推理模型中的逐步逻辑正确性进行对齐。文章还提出了置信度感知思考（CaT），用于在推理过程中动态剪枝不确定的推理分支，以提高可靠性和效率。

0 人收藏 0 人点赞

#confidence-calibration

前沿大语言模型中的领域级元认知监控：一份33个模型图谱

arXiv cs.CL ↗ · 2026-05-11 缓存

本研究提出了一份涵盖33个模型的图谱，利用MMLU基准分析了前沿大语言模型中的领域级元认知监控，揭示了聚合指标所掩盖的不同知识领域中置信度校准的显著差异。

0 人收藏 0 人点赞

#confidence-calibration

首个Token已知：用于幻觉检测的单次解码置信度

Hugging Face Daily Papers ↗ · 2026-05-06 缓存

本文介绍了一种利用大语言模型生成首Token的置信度来检测幻觉的方法，该方法仅需执行单次解码步骤。

0 人收藏 0 人点赞

confidence-calibration

提交意见反馈