标签
本立场论文认为,交互式AI评估应被视为一种设计科学范式,提出了用于通过轨迹评估动态系统行为的双轴分类法和报告标准。
ClawForge 是一个基于生成器的基准测试框架,用于在状态冲突下生成可执行的命令行工作流,通过在17个场景中评估LLM智能体处理预先存在的部分、过时或冲突工件的能力。