confidence-signals

标签

Cards List
#confidence-signals

自信的撒谎者:利用对数概率和LLM-as-Judge诊断多智能体辩论

arXiv cs.CL · 昨天 缓存

本文研究了多智能体辩论系统中令牌级对数概率分布、LLM-as-judge评分标准分数和最终任务准确性之间的关系。它发现了一致的四阶段置信度轨迹以及Constructor与Auditor智能体之间的角色不对称性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈