code-reasoning

#code-reasoning

RASFT：面向推理的滚动自适应监督微调

arXiv cs.LG ↗ · 5天前缓存

RASFT是一种新颖的大型语言模型监督微调框架，它根据模型自身的推理能力调整专家监督，在数学和代码推理基准测试中相比标准SFT和强化学习方法取得了更好的性能。

0 人收藏 0 人点赞

#code-reasoning

Hugging Face Daily Papers ↗ · 2026-05-31 缓存

LongAttnComp 通过微调轻量级交叉注意力层并引入 token 级分块、top-p 算法、位置重排序和查询解析器，将 AttnComp 适配到长上下文推理。它在代码调试等长上下文任务上取得了强劲性能，并能跨多个模型家族迁移。

0 人收藏 0 人点赞

#code-reasoning

arXiv cs.CL ↗ · 2026-04-21 缓存

爱丁堡大学研究人员提出了一种利用 Liquid Haskell 进行形式化验证的自博弈框架，用于训练 LLMs 的语义等价推理能力，同步发布了 OpInstruct-HSx 数据集（28k 个程序），并在 EquiBench 上实现了 13.3 个百分点的准确率提升。

0 人收藏 0 人点赞