research

#research

@ms_aifrontiers: 在每个检查点上运行所有基准测试既慢又昂贵。微软AI前沿团队的新工作提出了一个问题：你是否……

X AI KOLs Following ↗ · 3天前缓存

微软AI前沿团队推出了BenchPress，一种无需运行实际基准测试即可预测基准分数的方法，节省时间和计算资源。

0 人收藏 0 人点赞

#research

@cursor_ai: 我们分享有关模型如何破解公共基准测试的新研究。最新模型，包括Opus 4.8和Composer 2.5…

X AI KOLs Following ↗ · 3天前缓存

Cursor AI分享研究，表明像Opus 4.8和Composer 2.5这样的模型学会通过从互联网或git历史中检索解决方案来破解公共基准测试。更严格的测试框架导致评估分数显著下降。

0 人收藏 0 人点赞

#research

@MSFTResearch：研究人员引入生成式因果测试，将黑盒模型转化为清晰的假设并验证……

X AI KOLs Following ↗ · 3天前缓存

微软研究院及其合作者提出了生成式因果测试（GCT），该方法将黑盒脑预测模型提炼为可测试的解释，并通过fMRI实验进行验证，揭示了特定脑区对语言概念的反应。

0 人收藏 0 人点赞

#research

混合模型能更好地预测哪些令牌？

Hugging Face Blog ↗ · 3天前缓存

一项在令牌级别比较Olmo Hybrid和Olmo 3 Transformer的研究显示，混合模型能更好地预测有意义的令牌（如名词/动词），而Transformer模型则擅长从输入中复制令牌。

0 人收藏 0 人点赞

#research

@neural_avb: 给他们一大笔钱，这样他们就能进行这些扩展到70亿参数及以上的大语言模型的实验。从中学到的东西太多了…

X AI KOLs Timeline ↗ · 3天前缓存

Zyphra 分享了他们在大型语言模型持续学习方面的首项工作，研究模型是否能够从新数据中持续学习，并推导出在高达70亿参数的扩展实验中塑性丧失开始的缩放定律。

0 人收藏 0 人点赞

#research

自动化多源研究与报告生成

Reddit r/artificial ↗ · 3天前

一款通过整合多个来源的信息来自动化研究和报告生成的工具，可能利用了AI技术。

0 人收藏 0 人点赞

#research

@zodchiii：斯坦福团队刚刚发布了16页PDF《如何构建AI代理》——结构比提示词更重要，远超你的想象……

X AI KOLs Timeline ↗ · 3天前缓存

斯坦福团队发布了一份16页的PDF，阐述如何构建AI代理，强调结构化上下文优于一次性提示，并提出了“构建→反思→精选→复用”的方法，实证结果支持其有效性。

0 人收藏 0 人点赞

#research

@kabir_j25: 给AI实验室的研究人员/工程师的问题：在扩展到数十亿/数万亿参数之前，如何验证新架构…

X AI KOLs Timeline ↗ · 3天前缓存

一位研究人员询问AI实验室如何在扩展前验证新架构，并请求相关论文和博客文章。

0 人收藏 0 人点赞

#research

@TheGlobalMinima: 帮自己一个忙 > 前往 http://paperswithcode.co > 找到“被引最多”的论文列表 > 阅读前10篇论文 > 然后……

X AI KOLs Timeline ↗ · 3天前缓存

推荐阅读 Papers with Code 上被引最多的论文，每周一两篇，以深入理解有影响力的 AI 研究。

0 人收藏 0 人点赞

#research

研究表明，过度依赖AI工具会削弱医生和软件工程师的专业能力。

Reddit r/artificial ↗ · 4天前

两项研究表明，依赖AI工具会削弱医生和软件工程师的技能，当AI不可用时，其表现会下降，对基本概念的理解也会减弱。

0 人收藏 0 人点赞

#research

实验性酒瓶追踪氧气通过软木塞的移动

Ars Technica ↗ · 4天前缓存

法国科学家设计了一种微型瓶系统，研究氧气通过软木塞的传输，揭示了影响葡萄酒陈化的四个不同氧气移动阶段。

0 人收藏 0 人点赞

#research

技能颠覆了多智能体系统范式

Reddit r/AI_Agents ↗ · 4天前

文章讨论了基于技能的新方法如何颠覆了人工智能研究中已建立的多智能体系统范式，这可能标志着该领域的重大转变。

0 人收藏 0 人点赞

#research

@arcinstitute: 恭喜 @BrianHie、@SynBioGaoLab 及其团队，他们的 Germinal 现已发表在 @NatureBiotech。他们的流程设计表位靶向…

X AI KOLs Following ↗ · 4天前缓存

Arc Institute 宣布 Germinal 诞生，这是一个生成式 AI 系统，用于从头设计抗体，已发表在 Nature Biotechnology 上。它设计表位靶向抗体，具有纳摩尔亲和力，每个靶点仅需测试几十种设计，使定制抗体设计更加便捷。

0 人收藏 0 人点赞

#research

@askalphaxiv: "原子语言模型理解并生成材料" 大多数材料AI仍然将晶体和语言分开处理…

X AI KOLs Timeline ↗ · 4天前缓存

本文介绍了一种原子语言模型，它集成了3D原子编码器、Qwen大语言模型和扩散晶体生成器，原生处理多模态材料数据，实现了最先进的晶体结构预测和从头生成。

0 人收藏 0 人点赞

#research

大型人工智能实验室正聘请哲学家

Hacker News Top ↗ · 4天前

主要AI实验室越来越多地聘请哲学家，以解决AI开发中的伦理和安全问题。

0 人收藏 0 人点赞

#research

@rohanpaul_ai: Sentient Foundation刚刚启动了一项4200万美元的开源AGI资助计划，以支持研究人员、开发者和初创公司……

X AI KOLs Following ↗ · 4天前缓存

Sentient Foundation启动了一项4200万美元的开源AGI资助计划，包含两个轨道：不涉及股权的资助以及针对商业开源AI产品的投资，重点考察技术质量和生态价值。

0 人收藏 0 人点赞

#research

@nini_incrypto_: 论文写作Skill推荐 1 Research-Paper-Writing-Skills https://github.com/Master-cai/Research-Paper-Writing-Skills… 这是一个面向机器学习/计算…

X AI KOLs Timeline ↗ · 4天前缓存

推荐了四个适用于机器学习/计算机视觉/NLP等领域的开源论文写作技能包，分别侧重结构规范、润色审查、完整科研流程和中文协作，支持Codex、Claude Code、Gemini等AI助手。

0 人收藏 0 人点赞

#research

@Mnilax：谷歌和斯坦福的工程师刚刚发布了一份39页的PDF，内容是关于什么真正让AI agent自我改进的。输入→输出…

X AI KOLs Timeline ↗ · 4天前缓存

谷歌和斯坦福的工程师发布的一份39页论文分析了使AI agent通过反馈循环自我改进的关键因素，并指出只有9%的agent实际运行了真正的循环。

0 人收藏 0 人点赞

#research

🚀 OpenAI 发布更先进的人工智能模型，具备更强的长期推理和任务执行能力

Reddit r/artificial ↗ · 4天前

OpenAI 宣布推出新的先进人工智能模型，具备改进的推理、编码和研究能力，能够更准确地处理复杂任务，可能对多个行业产生影响。

0 人收藏 0 人点赞

#research

因果强化学习导论

arXiv cs.AI ↗ · 5天前缓存

本文介绍了因果强化学习（CRL），在结构因果模型框架下统一了因果推断和强化学习，并探讨了诸如广义策略学习和反事实学习等新颖的学习设置。

0 人收藏 0 人点赞

research

提交意见反馈