state-conflict

标签

Cards List
#state-conflict

ClawForge:为命令行智能体生成可执行的交互式基准测试

arXiv cs.AI · 2026-05-15 缓存

ClawForge 是一个基于生成器的基准测试框架,用于在状态冲突下生成可执行的命令行工作流,通过在17个场景中评估LLM智能体处理预先存在的部分、过时或冲突工件的能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈