decision-oriented-training

标签

Cards List
#decision-oriented-training

超越下一观测预测:面向顺序决策的智能体自主世界建模

arXiv cs.CL · 2天前 缓存

本文提出了一种名为“智能体自主世界建模”(AAWM)的训练流程,该流程基于策略自身的决策需求构建世界模型监督,而非依赖下一观测预测,从而使学习目标与有效决策所需的动态特性对齐。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈