reasoning-language-models

标签

Cards List
#reasoning-language-models

指令层级失效之处:诊断与修复推理语言模型中的故障

arXiv cs.AI · 昨天 缓存

本文引入了一个白盒诊断框架,将推理语言模型中的指令层级故障定位为识别、冲突解决和响应实现三个阶段。该框架评估了多个模型,并提出了两种无需训练的自我监控机制,可将违规率降低81%–99%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈