标签
华盛顿特区的一起联邦诉讼挑战美国政府将托管AI模型访问作为出口管制进行监管的权力,辩称在不转移权重的情况下提供输出并不构成出口。此案测试了此类管制的法律依据。
作者将在 aiDotEngineer 上演讲,探讨如何利用像 nanogpt 这样的速通方式来评估 AI 研究能力。
这篇研究论文表明,前沿AI模型在133个基准测试上的得分近似于秩为2,即仅两个潜在因素就解释了超过90%的方差。作者提出了BenchPress,一种在logit空间中进行矩阵补全的方法,仅需少数几个基准测试就能预测模型的完整得分表,从而显著降低评估成本。
本文区分了前沿AI模型(如大型语言模型)和专门的AI研究(如AlphaFold、癌症检测),认为出于安全原因暂停前者不应阻碍后者,后者提供了明确的社会效益。
BharatGen 承诺参与 Project Tapestry,这是一个用于构建前沿 AI 模型的开放联合项目,印度借此锚定其在 AI 联盟倡议中的参与。
Sakana AI 发布了 Fugu Ultra,这是一个多智能体编排系统,可通过单一模型 API 访问,其性能与 Fable 和 Mythos 模型相当。
Steve Yegge 认为当前前沿的人工智能模型正变得危险地强大,并预测超级智能将很快像核武器一样受到控制,只有少数组织能够访问顶尖模型。他提出,由于供应链限制,开源模型将无法追赶,从而导致一个充斥着平庸模型的世界。
Sakana AI 推出 AB-MCTS,一种推理时缩放算法,使多个前沿 AI 模型(Gemini 2.5 Pro、o4-mini、DeepSeek-R1-0528)协同工作,在 ARC-AGI-2 基准测试中显著优于单个模型。
谷歌面临人才流失,关键研究人员跳槽至OpenAI和Anthropic,其Gemini-3.1-Pro模型也已落后。文章推测即将推出的Gemini-3.5-Pro能否帮助谷歌迎头赶上,并对发布时间、能力及定价做出预测。
美国一项出口管制指令迫使Anthropic切断其Fable 5和Mythos 5模型的外国访问权限,引发了对主权AI以及训练前沿模型高昂成本的讨论。本文认为,真正的教训是多个供应商的弹性,而非建立国家级的ChatGPT。
Phil Schmid 指出,Google 的 Gemma 4 模型支持本地自主编码,准确率/速度约为前沿模型的 75%,并引用了 Vicki Boykis 的文章。
欧盟领导人将与包括Dario Amodei、Sam Altman、Demis Hassabis和Arthur Mensch在内的顶级AI CEO在G7午餐会上会面,讨论AI使用权限和安全问题。此前,美国禁止欧盟公民使用Anthropic的最新模型,会议旨在促进合作而非对抗。
文章质疑为何OpenAI和Anthropic等前沿AI实验室不公开其训练数据规模,暗示模型性能提升可能源于数据量而非真正的智能。
本文系统研究了推理时计算(token预算、上下文压缩、重复提交)如何影响前沿LLM在具有挑战性的基准上的性能,表明得分是协议相关的,并提倡评估应将能力表示为推理计算的函数。
这篇技术指南解释了为什么组织应该基于开源AI模型构建自己的学习循环,而不是从前沿实验室租用智能,并引用了金融、机器人和生物技术领域的案例研究。
这篇文章认为,各国构建自主前沿AI模型的窗口已经关闭,因为Anthropic的Mythos和Fable模型代表了一种新的加速范式,其中领先模型帮助生产下一代,使欧洲和其他国家依赖外部系统。
作者构建了一个个人AI代理,它使用前沿模型(Codex)进行高层次规划,同时在双RTX 3090系统上本地运行大部分token处理,支持长时间任务并具备确定性验证。该代理支持三个可互换的层级:规划器、本地和高级,并以开源仓库形式提供。
美国政府已对Anthropic最强大的AI模型Fable 5和Mythos 5实施出口管制,要求这些模型不得向外国公民开放。这一先例将前沿AI视同先进硬件,形成了两级全球访问体系,并引发了主权担忧。
美国政府迫使Anthropic在发布仅数天后撤下了其最强大的模型Fable 5。OpenRouter的新基准测试显示,融合的预算模型面板能以一半的成本达到或超过Fable 5的性能,引发了对前沿模型价值的质疑。
关于Anthropic的Claude Fable是如何构建的分析,认为关键的护城河是可验证的训练信号而非架构秘密,该模型使用静态和交互式最优数据进行强化学习。