标签
RASFT是一种新颖的大型语言模型监督微调框架,它根据模型自身的推理能力调整专家监督,在数学和代码推理基准测试中相比标准SFT和强化学习方法取得了更好的性能。
LongAttnComp 通过微调轻量级交叉注意力层并引入 token 级分块、top-p 算法、位置重排序和查询解析器,将 AttnComp 适配到长上下文推理。它在代码调试等长上下文任务上取得了强劲性能,并能跨多个模型家族迁移。
爱丁堡大学研究人员提出了一种利用 Liquid Haskell 进行形式化验证的自博弈框架,用于训练 LLMs 的语义等价推理能力,同步发布了 OpInstruct-HSx 数据集(28k 个程序),并在 EquiBench 上实现了 13.3 个百分点的准确率提升。