compliance-bias

#compliance-bias

基准测试未衡量的：论自主智能体弃权能力的评估

arXiv cs.AI ↗ · 5天前缓存

本文认为，目前的自主智能体基准测试未能评估智能体是否应该继续执行任务，从而引入了'合规偏见'。作者提出了一个需要弃权的场景分类法，以及新的评估协议（Safety Rate, Usability Rate, Informed Refusal Rate），初步结果显示，不同模型家族的安全性与可用性之间存在可调节的权衡。

0 人收藏 0 人点赞

compliance-bias

基准测试未衡量的：论自主智能体弃权能力的评估

提交意见反馈