BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
mid-training
标签
Cards
List
#mid-training
在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能
arXiv cs.AI
↗
· 2026-05-12
缓存
本文探讨了在大型语言模型的中间训练阶段使用多样化的自生成数据如何提高强化学习的有效性,尤其是在推理任务方面。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交