trajectory-optimization

#trajectory-optimization

ExTra：面向语言模型强化学习的探索性轨迹优化

arXiv cs.LG ↗ · 2026-06-25 缓存

ExTra 引入了面向语言模型强化学习的探索性轨迹优化，结合新颖性奖励和熵引导的前缀重生成，在数学推理基准上同时提升单样本准确率和推理时覆盖率。

0 人收藏 0 人点赞

#trajectory-optimization

arXiv cs.LG ↗ · 2026-06-25 缓存

本文提出了一种基于信道知识地图（CKM）的多无人机巡检轨迹规划框架，利用扩散模型重建高保真信道质量图，并结合图注意力网络与软演员-评论家算法实现通信感知路径规划。

0 人收藏 0 人点赞

#trajectory-optimization

arXiv cs.CL ↗ · 2026-06-04 缓存

本文介绍了 CAPR（缓存摊销路径精化），一种用于扩散大语言模型的强化学习算法。该算法无需完整树展开的计算开销，即可从去噪轨迹中提取类树状监督信号。CAPR 在 GSM8K、Math500、数独和倒计时等推理基准测试上达到了最先进的性能，计算成本仅为平坦展开方式的约 0.75 倍。

0 人收藏 0 人点赞

#trajectory-optimization

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

本文提出了 FATE，这是一种基于策略（on-policy）的框架，它利用失败轨迹通过自我进化和感知帕累托前沿的优化来增强使用工具的 LLM 智能体的安全性和性能。

0 人收藏 0 人点赞

#trajectory-optimization

OpenAI Blog ↗ · 2018-11-05 缓存

OpenAI 提出 POLO（在线规划，离线学习）框架，结合基于模型的控制、价值函数学习和协调探索，能够在人形机器人运动和灵巧手部操纵等复杂控制任务中实现高效学习，同时最小化真实世界经验需求。

0 人收藏 0 人点赞

#trajectory-optimization

OpenAI Blog ↗ · 2017-03-12 缓存

OpenAI 推出了一种使用深度生成模型在时间段上学习复杂非线性系统动力学的方法，能够实现稳定的长期预测和可微分的轨迹优化以进行基于模型的控制。

0 人收藏 0 人点赞