iterative-improvement

标签

Cards List
#iterative-improvement

AutoLab:前沿模型能否解决长周期自动研究与工程任务?

Hugging Face Daily Papers · 2026-06-03 缓存

AutoLab提出了一个基准,用于评估前沿模型在多个领域中的长周期迭代优化能力。结果表明,持续性和时间意识比初始性能更为关键,其中claude-opus-4.6展现了强大的能力,而许多模型过早终止。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈