environment-simulation

标签

Cards List
#environment-simulation

EnvSimBench:用于评估和改善基于大语言模型的环境模拟的基准

arXiv cs.AI · 2026-05-11 缓存

本文介绍了 EnvSimBench,这是一个用于评估大语言模型在智能体训练中模拟环境能力的基准。它指出了当前大语言模型中存在的“状态变化悬崖”问题,并提出了一种约束驱动的流水线以减少幻觉和降低成本。

0 人收藏 0 人点赞
#environment-simulation

Ecom-RLVE:面向电商对话代理的自适应可验证环境

Hugging Face Blog · 2026-04-16 缓存

Huggingface 推出 EcomRLVE-GYM,这是一个提供八个可验证环境的框架,用于在复杂电商任务上训练强化学习智能体。该工具具备自适应难度课程和算法化奖励机制,以提升购物助手的任务完成率,并已通过训练 Qwen 3 8B 模型进行了验证。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈