reward-shaping

#reward-shaping

OracleTSC：用于交通信号控制的 Oracle 信息奖励门槛与不确定性正则化

arXiv cs.AI ↗ · 昨天缓存

本文介绍了 OracleTSC，该方法利用 Oracle 信息奖励门槛和不确定性正则化来稳定大语言模型（LLMs）在交通信号控制中的强化微调。实验表明，该方法在使用 LLaMA-3-8B 模型的同时保持了可解释性，并在 LibSignal 基准测试中显著提升了交通流量指标。

0 人收藏 0 人点赞

#reward-shaping

Hugging Face Daily Papers ↗ · 昨天缓存

本文提出了一种用于语言模型后训练的经验性“稀疏至稠密”奖励原则，主张应使用稀疏奖励配合稀缺的标注数据进行教师模型发现，并使用稠密奖励通过蒸馏进行学生模型压缩。作者证明，这种连接稀疏强化学习与策略内蒸馏的分阶段方法，在数学基准测试中优于在部署规模模型上直接运行 GRPO 的效果。

0 人收藏 0 人点赞

#reward-shaping

arXiv cs.AI ↗ · 2天前缓存

本文提出了一种针对组相对策略优化（GRPO）的信号重塑方法，以改进弱反馈的代理代码修复，在编译和语义准确性方面取得了显著提升。

0 人收藏 0 人点赞