confidence-rationale-alignment

标签

Cards List
#confidence-rationale-alignment

CoRA: 面向可靠思维链推理的置信度-理由对齐

arXiv cs.CL · 2026-06-16 缓存

本文介绍了CoRA,一种基于GRPO的强化学习框架,旨在将LLM的置信度与生成的理由对齐,以提高思维链推理的可靠性,在多个基准测试中将不对齐误差降低了高达26.51%。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈