knowledge-regulation

标签

#knowledge-regulation

元认知作为奖励：通过知识与调控信号强化大语言模型推理

arXiv cs.CL ↗ · 2026-05-25 缓存

介绍了元认知即奖励（MaR），一个基于元认知知识与调控信号指导大语言模型推理的强化学习框架，在推理基准上相比基准方法最高提升11%。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈