action-trajectories

#action-trajectories

PreAct-Bench: 对LLM进行预测性监控的基准测试

arXiv cs.LG ↗ · 2026-06-10 缓存

PreAct-Bench是一个包含五个领域、1000对道德与不道德行动轨迹的基准测试，旨在评估LLM从部分轨迹中预测有害结果的能力（预测性监控）。结果表明，虽然人类表现良好，但当前的LLM仍存在困难，凸显了未来导向的风险推理的必要性。

0 人收藏 0 人点赞