BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
data-scheduler
标签
Cards
List
#data-scheduler
基于多目标强化学习的LLM预训练整体数据调度器
Hugging Face Daily Papers
↗
· 2天前
缓存
介绍了一种基于强化学习的整体数据调度器(HDS),该框架利用多目标奖励函数在LLM预训练过程中动态调整数据混合策略,使达到目标困惑度所需的迭代次数减少44%,并在MMLU上提升7.2%。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交