code-reasoning

标签

Cards List
#code-reasoning

RASFT:面向推理的滚动自适应监督微调

arXiv cs.LG · 5天前 缓存

RASFT是一种新颖的大型语言模型监督微调框架,它根据模型自身的推理能力调整专家监督,在数学和代码推理基准测试中相比标准SFT和强化学习方法取得了更好的性能。

0 人收藏 0 人点赞
#code-reasoning

LongAttnComp: 面向长上下文推理的跨家族上下文压缩

Hugging Face Daily Papers · 2026-05-31 缓存

LongAttnComp 通过微调轻量级交叉注意力层并引入 token 级分块、top-p 算法、位置重排序和查询解析器,将 AttnComp 适配到长上下文推理。它在代码调试等长上下文任务上取得了强劲性能,并能跨多个模型家族迁移。

0 人收藏 0 人点赞
#code-reasoning

# 结合语义等价自博弈与形式化验证提升 LLM 代码推理能力

arXiv cs.CL · 2026-04-21 缓存

爱丁堡大学研究人员提出了一种利用 Liquid Haskell 进行形式化验证的自博弈框架,用于训练 LLMs 的语义等价推理能力,同步发布了 OpInstruct-HSx 数据集(28k 个程序),并在 EquiBench 上实现了 13.3 个百分点的准确率提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈