interactive-evaluation

#interactive-evaluation

交互式评估需要设计科学

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

本立场论文认为，交互式AI评估应被视为一种设计科学范式，提出了用于通过轨迹评估动态系统行为的双轴分类法和报告标准。

0 人收藏 0 人点赞

#interactive-evaluation

arXiv cs.AI ↗ · 2026-05-15 缓存

ClawForge 是一个基于生成器的基准测试框架，用于在状态冲突下生成可执行的命令行工作流，通过在17个场景中评估LLM智能体处理预先存在的部分、过时或冲突工件的能力。

0 人收藏 0 人点赞