reward-shaping

标签

Cards List
#reward-shaping

OracleTSC:用于交通信号控制的 Oracle 信息奖励门槛与不确定性正则化

arXiv cs.AI · 昨天 缓存

本文介绍了 OracleTSC,该方法利用 Oracle 信息奖励门槛和不确定性正则化来稳定大语言模型(LLMs)在交通信号控制中的强化微调。实验表明,该方法在使用 LLaMA-3-8B 模型的同时保持了可解释性,并在 LibSignal 基准测试中显著提升了交通流量指标。

0 人收藏 0 人点赞
#reward-shaping

超越 GRPO 与策略内蒸馏:语言模型后训练的经验性“稀疏至稠密”奖励原则

Hugging Face Daily Papers · 昨天 缓存

本文提出了一种用于语言模型后训练的经验性“稀疏至稠密”奖励原则,主张应使用稀疏奖励配合稀缺的标注数据进行教师模型发现,并使用稠密奖励通过蒸馏进行学生模型压缩。作者证明,这种连接稀疏强化学习与策略内蒸馏的分阶段方法,在数学基准测试中优于在部署规模模型上直接运行 GRPO 的效果。

0 人收藏 0 人点赞
#reward-shaping

# 在弱反馈的代理代码修复中为 GRPO 进行信号重塑

arXiv cs.AI · 2天前 缓存

本文提出了一种针对组相对策略优化(GRPO)的信号重塑方法,以改进弱反馈的代理代码修复,在编译和语义准确性方面取得了显著提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈