interactive-evaluation

标签

Cards List
#interactive-evaluation

交互式评估需要设计科学

Hugging Face Daily Papers · 2026-05-18 缓存

本立场论文认为,交互式AI评估应被视为一种设计科学范式,提出了用于通过轨迹评估动态系统行为的双轴分类法和报告标准。

0 人收藏 0 人点赞
#interactive-evaluation

ClawForge:为命令行智能体生成可执行的交互式基准测试

arXiv cs.AI · 2026-05-15 缓存

ClawForge 是一个基于生成器的基准测试框架,用于在状态冲突下生成可执行的命令行工作流,通过在17个场景中评估LLM智能体处理预先存在的部分、过时或冲突工件的能力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈