标签
这篇研究论文表明,前沿AI模型在133个基准测试上的得分近似于秩为2,即仅两个潜在因素就解释了超过90%的方差。作者提出了BenchPress,一种在logit空间中进行矩阵补全的方法,仅需少数几个基准测试就能预测模型的完整得分表,从而显著降低评估成本。
本技术报告介绍了VibeThinker-3B,一个3B参数的密集模型,在AIME26和LiveCodeBench等基准测试上实现了前沿水平的推理性能,通过结合基于课程的SFT、多领域RL和离线自蒸馏,匹配或超越了DeepSeek V3.2和GLM-5等更大的模型。
该推文强调评价AI模型时不应只看benchmark数字,而应关注模型的"思维形状"——理解用户意图的深度、迭代思考能力以及让用户感受到"对面有人"的活感。作者认为Fable模型在这方面表现出色,让人想起2023年的体验。
作者分享了一种构建外部LLM漂移检测系统的方法论,该系统持续探测模型行为(模式遵循、指令遵循、拒绝率等),以捕捉API性能的静默退化,并邀请对方法、定价和用例的反馈。
本文系统评估了信用评分中的拒绝推断方法,并发现了一种结构性失效模式:在自然的再训练周期中,模型的准确率提升但召回率骤降,造成了改进的幻象,而实际拒绝质量却在恶化。本文提出了一种受控探索策略,无需统计假设即可打破反馈循环,并证明即使最低的探索率也足以诊断该问题。
作者报告说,运行本地AI模型如今已经表现出色,最近发布的GPT-OSS和Gemma 4等模型使得在本地进行自主编码的准确率达到了前沿模型的大约75%,与几个月前相比有了显著提升。
新竞技场让LLM控制物理布娃娃进行武器对决,用户定义武器伤害区域、盲评投票,模型争夺Elo排名。免费模型如Llama 3.3和GPT-OSS参与竞争,基础设施可自托管。
本文研究前沿语言模型能否检测其先前的助手消息被插入或编辑的情况(即预填充意识)。研究发现,像Claude Opus 4.5这样的模型表现出显著的预填充意识,能在不产生误报的情况下检测出高达35%的篡改预填充案例,这可能损害基于预填充的安全评估的有效性。
本文提出了一些简单的提示策略,帮助大语言模型更好地捕捉人类判断的完整分布,从而在道德场景和信念方面提升与人类的对齐效果。作者表明,让模型报告标准差和响应比例,同时确保场景清晰度,能够获得与人类反应更一致的结果。
本文提出了一种决策理论框架,仅利用模型输出和结果来检测预测模型中的数据泄露,证明了某些泄露类型无需外部基准或训练代码即可识别。
介绍项目反应缩放定律(IRSL),该定律整合项目反应理论,可高效估计神经缩放定律,将所需评估问题数量减少99.9%,同时达到相当准确性。
作者批评 Frontier AI(GPT5.5 xHigh)错误地建议对一个能单 GPU 容纳的模型使用张量并行,并宣布计划进行一场对决,比较多个 AI 模型(GPT5.5、Opus 4.8、Qwen 系列、Nemotron)在真实问题上的表现。
根据DeepSeek V4技术报告对主流大模型的横评,Gemini 3.1 Pro的世界知识被认为最强,但用户普遍觉得不好用,原因是该模型不主动调用搜索工具。
阿里通义实验室推出智能体评测基准PawBench v1.0,首次将底座模型与运行框架纳入统一评测体系,覆盖9个模型和3个框架,含150个任务,发现框架设计对智能体性能影响显著,并提出四项设计原则。
本文定义了文化多样性作为多代理系统的一个新评估维度,通过测量对世界价值观调查响应的成对差异。实验表明,当前模型缺乏人类社会的价值多样性,混合骨干可以提高对齐和多样性,但交互会减少多样性。
本文介绍了自我评估激发(SEE)方法,该方法通过校准耦合的强化学习和掩码蒸馏,用极少数据激发基础大语言模型中的潜在评判校准,在保持答案质量的同时提升了跨基准的校准效果。
EyeBench-V3 视觉基准测试评估了 Claude Opus 4.8,发现它仍然无法完成基本视觉任务,这与 IBench 类似。该基准测试是通过 Adonis Singh 的 Twitter 帖子介绍的。
Life-Harness论文表明,仅通过修补评估框架而不修改模型,就能在126个设置中的116个提升性能,在18个骨干网络上实现88.5%的平均提升。
Nick Kang 给他的推特基准测试集合新增了一个任务;Claude Opus 4.8 和其他 SOTA 模型通过了,而 Sonnet 4.6 和 Grok 4.3 失败了。Alfin 评论了 Opus 4.8 的危险能力。
Step 3.7 Flash 模型已通过 Car Wash Test,表明在特定基准测试中评估成功。