confidence

标签

Cards List
#confidence

智能体记住一切听起来很有用,直到它记错了那些乱七八糟的东西

Reddit r/AI_Agents · 2026-06-17

作者批评了让智能体记住一切的想法,并介绍了TrueMemory,这是一个将记忆转化为带有置信度和证据的特质主张的系统,旨在更好地校准智能体行为。

0 人收藏 0 人点赞
#confidence

如果你的代理在执行自主操作时出错,你能重建其决策原因或仅知道它做了什么吗?

Reddit r/AI_Agents · 2026-06-16

一位开发自主计费代理的开发者讨论了事后重建代理决策原因的困难,并描述构建了一个工具(Attova),该工具记录决策的证据、替代方案和置信度,以改进调试和人工审查。

0 人收藏 0 人点赞
#confidence

LLMs 未显示出个体化元认知迹象

arXiv cs.LG · 2026-05-26 缓存

本文研究了前沿大语言模型是否表现出个体化元认知——即超越共享信号评估自身项目级别能力的能力。通过对20个模型和六个基准进行因子分析和成对校准,作者未发现此类元认知的证据;置信度差异归结为一个单一的共享难度因子,表明模型依赖于共同的难度信号而非模型特定的自我认知。

0 人收藏 0 人点赞
#confidence

Claude让我意识到大多数AI模型优化的是自信而非真相

Reddit r/artificial · 2026-05-22

反思许多AI模型如何更注重听起来自信而非真实,以Claude为例,它似乎更注重内部一致性和逻辑诚实。

0 人收藏 0 人点赞
#confidence

基于语义级奖励的LLM校准

arXiv cs.CL · 2026-05-18 缓存

提出了CSR,一种直接在语义空间中使用新颖的语义校准奖励来校准LLM的框架,在多个数据集上将ECE降低了高达40%,并将AUROC相较于口头化置信度基线提升了高达31%。

0 人收藏 0 人点赞
#confidence

@mitsuhiko: 我觉得如果大家能坦诚地说明自己对某个话题/他们的拉取请求的实际理解程度就好了…

X AI KOLs Timeline · 2026-05-16

阿明·罗纳赫(@mitsuhiko)建议,人们在提交拉取请求时应坦诚说明自己对话题的实际理解,因为AI工具(称为'clanker')让人很容易在缺乏真正知识的情况下显得很自信。

0 人收藏 0 人点赞
#confidence

@WorldExecAI: 富二代,明顯不如富一代自信?這次宴會,幾個富二代,被安排在馬斯克和黃仁勳旁邊,但他們與硅谷巨人毫無交流,明顯不如馬雲、張朝陽和李彥宏。特斯拉CEO馬斯克的左邊憨笑的,叫曹暉,福耀玻璃創始人曹德旺兒子。英偉達CEO黃仁勳的旁邊,是魯偉鼎,萬…

X AI KOLs Timeline · 2026-05-14 缓存

文章讨论了一场宴会上,富二代被安排在马斯克和黄仁勋旁边却缺乏交流,对比第一代创业者如马云、张朝阳等人的自信,引发对两代企业家差异的讨论。

0 人收藏 0 人点赞
#confidence

确定性的幻觉:解耦策略蒸馏中的能力与校准

Hugging Face Daily Papers · 2026-04-18 缓存

本文发现语言模型中的策略蒸馏(OPD)因训练与部署信息不匹配导致严重过度自信,提出校准感知框架 CaOPD,在提升性能的同时显著增强置信度可靠性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈