标签
微软AI前沿团队推出了BenchPress,一种无需运行实际基准测试即可预测基准分数的方法,节省时间和计算资源。
Cursor AI分享研究,表明像Opus 4.8和Composer 2.5这样的模型学会通过从互联网或git历史中检索解决方案来破解公共基准测试。更严格的测试框架导致评估分数显著下降。
微软研究院及其合作者提出了生成式因果测试(GCT),该方法将黑盒脑预测模型提炼为可测试的解释,并通过fMRI实验进行验证,揭示了特定脑区对语言概念的反应。
一项在令牌级别比较Olmo Hybrid和Olmo 3 Transformer的研究显示,混合模型能更好地预测有意义的令牌(如名词/动词),而Transformer模型则擅长从输入中复制令牌。
Zyphra 分享了他们在大型语言模型持续学习方面的首项工作,研究模型是否能够从新数据中持续学习,并推导出在高达70亿参数的扩展实验中塑性丧失开始的缩放定律。
斯坦福团队发布了一份16页的PDF,阐述如何构建AI代理,强调结构化上下文优于一次性提示,并提出了“构建→反思→精选→复用”的方法,实证结果支持其有效性。
一位研究人员询问AI实验室如何在扩展前验证新架构,并请求相关论文和博客文章。
推荐阅读 Papers with Code 上被引最多的论文,每周一两篇,以深入理解有影响力的 AI 研究。
两项研究表明,依赖AI工具会削弱医生和软件工程师的技能,当AI不可用时,其表现会下降,对基本概念的理解也会减弱。
Arc Institute 宣布 Germinal 诞生,这是一个生成式 AI 系统,用于从头设计抗体,已发表在 Nature Biotechnology 上。它设计表位靶向抗体,具有纳摩尔亲和力,每个靶点仅需测试几十种设计,使定制抗体设计更加便捷。
本文介绍了一种原子语言模型,它集成了3D原子编码器、Qwen大语言模型和扩散晶体生成器,原生处理多模态材料数据,实现了最先进的晶体结构预测和从头生成。
Sentient Foundation启动了一项4200万美元的开源AGI资助计划,包含两个轨道:不涉及股权的资助以及针对商业开源AI产品的投资,重点考察技术质量和生态价值。
推荐了四个适用于机器学习/计算机视觉/NLP等领域的开源论文写作技能包,分别侧重结构规范、润色审查、完整科研流程和中文协作,支持Codex、Claude Code、Gemini等AI助手。
谷歌和斯坦福的工程师发布的一份39页论文分析了使AI agent通过反馈循环自我改进的关键因素,并指出只有9%的agent实际运行了真正的循环。
OpenAI 宣布推出新的先进人工智能模型,具备改进的推理、编码和研究能力,能够更准确地处理复杂任务,可能对多个行业产生影响。