confidence-signals

#confidence-signals

自信的撒谎者：利用对数概率和LLM-as-Judge诊断多智能体辩论

arXiv cs.CL ↗ · 2026-06-10 缓存

本文研究了多智能体辩论系统中令牌级对数概率分布、LLM-as-judge评分标准分数和最终任务准确性之间的关系。它发现了一致的四阶段置信度轨迹以及Constructor与Auditor智能体之间的角色不对称性。

0 人收藏 0 人点赞