来自 Blog 的文章
Inception Labs 发布了 Mercury 2,这是一个扩散语言模型,每秒可生成约1000个token,在 AIME 2026 基准测试中以 90% 对 69.1% 的得分优于 Google 的 DiffusionGemma,不过 DiffusionGemma 是免费且开源权重的,而 Mercury 2 是付费且闭源权重的 API 模型。
Sakana AI 推出 AB-MCTS,一种推理时缩放算法,使多个前沿 AI 模型(Gemini 2.5 Pro、o4-mini、DeepSeek-R1-0528)协同工作,在 ARC-AGI-2 基准测试中显著优于单个模型。
sqlite-utils 4.0rc1 是一个候选发布版本,新增了内置数据库迁移(从 sqlite-migrate 移植而来)以及通过 db.atomic() 实现的嵌套事务,同时包含少量不向后兼容的更改。
三星电子正在向全球员工部署OpenAI的ChatGPT Enterprise和Codex,这是OpenAI规模最大的企业部署之一,旨在提升研发、营销和制造领域的工作效率。
Cloudflare宣布推出临时账户,允许开发者在无需注册的情况下将Workers部署到临时项目中,账户有效期为60分钟,并可选择申请永久保留,主要面向AI代理,但具有广泛用途。
Anthropic 发布带有严格防护措施的 Claude Fable 5,以及美国政府随后对该模型实施的出口管制,引发了人们对 AI 主权和专有 AI 平台稳定性的担忧。
据报,DeepSeek在其74亿美元融资轮中,要求投资者承诺不挖走其人才,凸显了中国人工智能工程师领域的激烈竞争。
Baseten是一家估值130亿美元的AI初创公司,为使用低成本AI模型替代OpenAI和Anthropic的企业提供软件和计算能力。
Mistral AI 正在为其 Vibe (Le Chat) 网络平台增加专门的代码和应用部分,将其从对话界面转变为开发和应用程序构建环境。一款新的、大型稀疏混合专家模型也确认将在夏季以开放权重形式发布。
Yann LeCun称Elon Musk的xAI是'失败之作',并警告高昂的AI支出可能导致'巨大泡沫破裂',批评该公司与OpenAI和Anthropic竞争的能力。
谷歌正在采用英伟达的策略来打造有竞争力的AI芯片业务,向Anthropic出租TPU计算能力,并提升推理性能以与英伟达的主导地位竞争。
ZPPO在LLMs/VLMs的强化学习中为难题引入了回放缓冲区,允许反复接触,逐步提高rollout准确性,而不会导致策略漂移。该方法比GRPO解决了更多难题,尤其是那些初始准确率接近零的问题。
OpenAI研究人员表明,针对有益特质(诚实、透明、可纠正性)在现实场景中进行强化学习,能在数十个对齐基准上产生广泛改进,且这些改进能够泛化到训练领域之外,并在对抗压力下持续存在。
Perplexity Brain是一个记忆系统,它构建了一个跨任务、项目、决策、文件和来源的持久上下文图,使智能体能够从相关上下文开始,而不是从头开始,从而提高答案正确性并降低任务成本。
Midjourney以其人工智能图像生成器闻名,宣布推出全身超声波扫描仪,可在60秒内完成全身扫描,该设备与Butterfly Network合作开发。公司计划开设水疗中心提供服务,并力争在2031年前获得FDA批准并在全球部署。
OpenAI 正准备发布 GPT-5.6 系列,包括标准版、Mini 和 Pro 版本,传闻具有 150 万个 token 的上下文窗口和改进的自主编码能力,目标在周二发布,与 Anthropic 竞争激烈。