标签
AutoLab提出了一个基准,用于评估前沿模型在多个领域中的长周期迭代优化能力。结果表明,持续性和时间意识比初始性能更为关键,其中claude-opus-4.6展现了强大的能力,而许多模型过早终止。
一个团队利用具备连续时间感知能力的AI模型,在本地Trivia之夜中屡获胜利。