Meta 从开放权重转向,大型制药公司押注AI,监管碎片化,模拟人类群体
摘要
Andrew Ng 讨论了随着编码速度加快,AI原生软件工程团队面临新的瓶颈(产品管理、营销、法律),并主张工程师和产品经理培养跨职能技能。
The Batch AI News and Insights: AI原生软件工程团队的运作方式与传统团队截然不同。
查看缓存全文
缓存时间: 2026/05/08 06:24
# Meta 从开放权重转向闭源,大型制药公司押注AI,监管碎片化,以及更多……
来源:https://www.deeplearning.ai/the-batch/issue-349/
亲爱的朋友们,
AI原生的软件工程团队的运作方式与传统团队截然不同。最明显的区别是,AI原生团队使用编码代理来更快地构建产品,但这导致了我们在运作方式上的许多其他变化。例如,一些优秀的工程师现在扮演的角色比仅仅编写代码更广泛。他们部分承担了产品经理、设计师,有时甚至是市场营销的工作。此外,在同一办公室工作的小团队,能够进行面对面交流,他们的行动速度可以快得惊人。
因为我们现在可以快速构建,所以需要花更多的时间来决定要构建什么。为了应对这个项目管理瓶颈(https://www.deeplearning.ai/the-batch/how-to-get-through-the-product-management-bottleneck/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9ba7SZPLTYcWbHrlRKD05ucogXrde1c9KoPu5WbkwIITNfbpLycYOhdrjoliVV80Uh_GJ-),一些团队正在将工程师与产品经理(PM)的配比从,比如说,8:1降低到低至1:1。但我们可以做得更好:如果我们有一位PM决定要构建什么,和一位工程师去构建它,他们之间的沟通就会变成一个瓶颈。这就是为什么我看到的最快速发展的团队,往往是由那些知道如何做一部分产品工作的工程师(以及,可选地,知道如何做一部分工程工作的产品经理)组成的。当一个工程师理解用户,能够决定构建什么并直接构建它时,他们可以执行得极其快速。
我看到工程师成功地将他们的角色扩展到包括产品决策,而PM也将角色扩展到构建软件。科技行业的工程师比PM多,但这两条路都很有前景。如果你是工程师,你会发现学习一些产品管理技能很有用;如果你是PM,请学习如何构建!
除了产品管理瓶颈,我还看到了设计、市场营销、法律合规等方面的瓶颈。当我们把编码速度提高10倍或100倍时,其他一切相比之下都变慢了。例如,我的一些团队构建了很棒的功能,速度快得让市场营销部门不知所措,不知道如何向用户传达这些功能——这就是市场营销瓶颈。或者,当一个团队可以在一天内构建出软件,而法律部门需要一周时间来审查时,这就是法律合规瓶颈。这样看来,代理式编码不仅改变了软件工程的工作流程,也改变了其周围的所有团队。
一位工程师疯狂地在椅子上旋转,与同事讨论“转椅瓶颈”(swivel-chair bottleneck)。当更小型的、由AI赋能的团队能够完成更多工作时,通才大放异彩。传统公司需要将来自多个专业领域(工程、产品管理、设计、市场营销、法律等)的人员聚集在一起,才能执行项目并创造价值。这导致了由专家组成的大型团队协同工作。但是,如果一个两人团队要完成需要5种不同专业技能的工作,那么其中一些人就必须扮演超越单一专业的角色。在一些小团队中,个人确实拥有深厚的专长。例如,一个可能是出色的工程师,另一个是出色的PM。但他们也理解推进项目所需的其他关键职能,并且能够在需要时切入思考其他类型的问题。当然,熟练掌握AI工具大有帮助,因为它帮助我们思考涉及不同角色的问题。
即使在两人团队中,为了快速行动,也必须最小化沟通瓶颈。这就是为什么我重视在同一地点工作的团队。远程团队也可以表现良好,但最高速度是通过让所有人都在同一个房间里,能够即时沟通解决问题来实现的。
这封信主要关注大约2-10人的AI原生团队,但并非所有事情都能由一个小团队完成。我将来会讨论更大团队的协调问题。
我意识到这些工作角色的转变对很多人来说难以适应。同时,我也感到鼓舞的是,愿意学习相关技能的个人和小团队现在能够完成比以前多得多的事情。这是学习和构建的黄金时代!
保持构建,
Andrew
---
## DEEPLEARNING.AI 消息
Promo banner for: "Spec-Driven Development" (https://www.deeplearning.ai/short-courses/spec-driven-development)在“规范驱动开发”(Spec-Driven Development)中,你将学习一种与编码代理合作的有纪律的工作流程。编写规范,逐步指导实现,并掌控你所构建的内容。免费加入
## 新闻
A table compares AI models, highlighting Muse Spark's performance across multimodal and health benchmarks.## Llama之后的生活
Meta 从其开放权重策略转向,推出了一款闭源的替代品。
**最新动态:** Meta 发布了(https://ai.meta.com/blog/introducing-muse-spark-msl/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9ba7SZPLTYcWbHrlRKD05ucogXrde1c9KoPu5WbkwIITNfbpLycYOhdrjoliVV80Uh_GJ-)其一年来的首个AI模型,也是其成立九个月的超级智能实验室(Superintelligence Labs)的首个产品。Muse Spark 是一个原生多模态推理模型,支持工具使用和多智能体编排。它在一些健康和跨模态基准测试中处于领先地位,但在编码和智能体工作方面有所不足,Meta 将此视为验证其架构重新设计的一步,公司计划在此基础之上构建更大的模型。
- **输入/输出:** 文本、图像、语音输入(最多262,000个token),文本输出
- **性能:** 在 Artificial Analysis(https://artificialanalysis.ai/articles/muse-spark-everything-you-need-to-know?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9ba7SZPLTYcWbHrlRKD05ucogXrde1c9KoPu5WbkwIITNfbpLycYOhdrjoliVV80Uh_GJ-)智能指数(Intelligence Index)上排名第四
- **可用性:** 通过 meta.ai(https://meta.ai/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9ba7SZPLTYcWbHrlRKD05ucogXrde1c9KoPu5WbkwIITNfbpLycYOhdrjoliVV80Uh_GJ-)和 Meta AI 应用免费使用;即将登陆 WhatsApp、Instagram、Facebook、Messenger 和 Ray-Ban Meta AI 眼镜;API 预览版面向特定合作伙伴
- **特性:** 三种推理模式(即时、思考、沉思),购物模式
- **未公开:** 参数量、架构、训练数据和方法、输出大小限制
**工作原理:** Meta 披露了关于 Muse Spark 的有限技术细节,但强调了训练效率和多智能体编排方面的提升,以及对健康领域的专项投入。
- 该公司重新设计了预训练方法、模型架构、优化和数据策展。Meta 表示,Muse Spark 能够匹配 Llama 4 Maverick 的能力,而用于训练的处理量却减少了一个数量级以上。
- 后训练涉及强化学习,团队对模型使用过多推理 token 进行惩罚,团队称之为“思想压缩”(thought compression)。在此惩罚下,模型首先通过更长时间的推理来改进,然后学习压缩其推理,再然后扩展其推理以进一步改进。
- 沉思模式并非处理单个思维链,而是启动多个智能体,它们提出解决方案、进行优化,并并行汇总结果。Meta 表示,这实现了更好的性能,同时延迟相当。
- 为了改进健康推理,Meta 招募了超过1000名医生来帮助策展训练数据,旨在生成更准确、更全面的健康回应。
**结果:** Muse Spark 的基准测试表现普遍具有竞争力,并且在 token 使用效率方面尤为突出。Meta 承认其在编码和智能体性能方面存在差距。
- 在 Artificial Analysis(https://artificialanalysis.ai/articles/muse-spark-everything-you-need-to-know?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9ba7SZPLTYcWbHrlRKD05ucogXrde1c9KoPu5WbkwIITNfbpLycYOhdrjoliVV80Uh_GJ-)智能指数(由10个经济上实用任务的基准测试组成)中,设置为“推理”模式的 Muse Spark(52分)总体排名第四,落后于并列第三的 Gemini 3.1 Pro Preview(设置为“高推理”模式)和 GPT-5.4(设置为“极高推理”模式)(均为57分),以及 Claude Opus 4.6(设置为“最大推理”模式)(53分)。Muse Spark 完成该指数使用了大约5900万 token,而 Claude Opus 4.6 使用了约1.58亿 token,GPT-5.4 使用了1.16亿 token。
- 至少在一个跨模态基准测试中,Muse Spark 获得了最高分。根据 Meta 的数据,在 CharXiv Reasoning(理解图表和图形)上,Muse Spark(86.4%)优于 GPT-5.4(82.8%)和 Gemini 3.1 Pro(80.2%)。根据 Artificial Analysis 的数据,在 MMMU Pro(解决多学科视觉问题)上,Muse Spark(81%)排名第二,仅次于 Gemini 3.1 Pro(82%)。
- 在 Artificial Analysis 的编程指数(编程基准测试的加权平均值)上,Muse Spark(47分)落后于 GPT-5.4(57分)、Gemini 3.1 Pro Preview(56分)和设置为“最大推理”模式的 Claude Sonnet 4.6(51分)。
- Artificial Analysis 独立测量(https://artificialanalysis.ai/articles/muse-spark-everything-you-need-to-know?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9ba7SZPLTYcWbHrlRKD05ucogXrde1c9KoPu5WbkwIITNfbpLycYOhdrjoliVV80Uh_GJ-)了 Muse Spark 在“思考”模式下在“人类最后的考试”(Humanity's Last Exam)上的表现为39.9%,落后于 Gemini 3.1 Pro Preview(44.7%)和 GPT-5.4(41.6%)。然而,Meta 报告称,当 Muse Spark 使用“沉思”模式时,得分为58%。
- 在 Meta 的测试中,Muse Spark 在 HealthBench Hard(OpenAI 健康基准的一个子集)上以42.8%的成绩优于所有模型,领先于第二名的 GPT-5.4(40.1%)。Muse Spark 还在 DeepSearchQA(一个智能体浏览评估)中以74.8%的成绩领先,高于 Claude Opus 4.6 Max(73.7%)。
**新闻背景:** Muse Spark 是 Meta 自重组(https://www.deeplearning.ai/the-batch/metas-hiring-spree-pushes-up-salaries-for-ai-engineers-across-the-industry/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9ba7SZPLTYcWbHrlRKD05ucogXrde1c9KoPu5WbkwIITNfbpLycYOhdrjoliVV80Uh_GJ-)其 AI 实验室以来推出的首个新模型。此前有批评者指控 Llama 4 的训练数据被基准测试答案污染。2025年6月,Meta 斥资143亿美元收购了 Scale AI 49%的股份,联合创始人 Alexandr Wang 担任首席AI官,并启动了规模空前的招聘,薪酬方案价值数亿美元。此次发布的闭源模型引起了开发者的担忧,其中许多人一直基于开放权重的 Llama 模型构建项目。
**为何重要:** Meta 正在投资对其产品雄心最重要的能力:为数十亿配备摄像头的用户提供多模态感知,为最常见的 AI 查询类别之一提供健康推理,以及为多步骤任务提供多智能体协调。随着私有 API 预览版的进行,它正将自己定位为与 OpenAI、Google 和 Anthropic 争夺企业客户。然而,它从美国开放权重领导者的转向,对开发者社区来说是一个重大损失。
**我们的思考:** Muse Spark 的沉思模式和 Kimi K2.5(https://www.deeplearning.ai/the-batch/moonshot-ais-kimi-k2-5-takes-the-open-model-crown-with-vision-updates-aided-by-subagents/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9ba7SZPLTYcWbHrlRKD05ucogXrde1c9KoPu5WbkwIITNfbpLycYOhdrjoliVV80Uh_GJ-)的 Agent Swarm 指向一种新兴模式:越来越多的实验室正在通过训练模型在推理时编排多个智能体来扩展性能,而不是训练单一的、越来越大的模型。
---
Diagram showing AI-driven drug discovery process, from lung fibrosis data to molecule generation.生成式AI已经证明它可以生成文本、图像、音频、视频和代码。全球最具价值的制药公司正在押注数十亿美元,相信它也能生产药物。
**最新动态:** 制药巨头礼来(Eli Lilly)同意(https://insilico.com/news/uiy12zcjg1-insilico-medicine-announces-global-rampd?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9ba7SZPLTYcWbHrlRKD05ucogXrde1c9KoPu5WbkwIITNfbpLycYOhdrjoliVV80Uh_GJ-)向香港生物技术公司 Insilico Medicine 支付高达27.5亿美元,后者在其整个药物发现流程中应用生成式AI。据 *Fierce Biotech* 报道(https://www.fiercebiotech.com/biotech/lilly-signs-275b-partnership-insilicos-ai-engine-pursuit-oral-therapeutics?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9ba7SZPLTYcWbHrlRKD05ucogXrde1c9KoPu5WbkwIITNfbpLycYOhdrjoliVV80Uh_GJ-),礼来最初将支付1.15亿美元,以获得开发及销售尚未进行人体测试的未公开药物的独家权利,而进一步的付款将与研发、监管和商业里程碑挂钩。这是两家公司之间的第三项协议,此前于2023年签署了AI软件许可协议,并于2025年11月签订了价值1亿美元的研究合作。
**AI药物发现:** Insilico 成立于2014年,已利用AI开发(https://www.cnbc.com/2026/03/29/eli-lilly-reaches-deal-to-bring-ai-developed-drugs-to-global-market.html?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9ba7SZPLTYcWbHrlRKD05ucogXrde1c9KoPu5WbkwIITNfbpLycYOhdrjoliVV80Uh_GJ-)了28种候选药物,其中大约一半处于临床试验阶段。进展最快的是 Rentosertib,针对特发性肺纤维化(IPF),这是一种因疤痕形成而逐渐降低肺功能的疾病。一项2a期试验(早期、小规模的疗效测试)显示(https://www.nature.com/articles/s41591-025-03743-2?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9ba7SZPLTYcWbHrlRKD05ucogXrde1c9KoPu5WbkwIITNfbpLycYOhdrjoliVV80Uh_GJ-)了积极的结果。第二种药物 Garutadustat,旨在治疗炎症性肠病,于2026年1月进入了(https://insilico.com/news/gyjl5gbtd1-insilico-medicine-completes-first-patient?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9ba7SZPLTYcWbHrlRKD05ucogXrde1c9KoPu5WbkwIITNfbpLycYOhdrjoliVV80Uh_GJ-)2a期试验。
**工作原理:** 在选定一种疾病后,Insilico 应用(https://www.nature.com/articles/s41587-024-02143-0?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9ba7SZPLTYcWbHrlRKD05ucogXrde1c9KoPu5WbkwIITNfbpLycYOhdrjoliVV80Uh_GJ-)其专有的生成模型于药物发现的两个阶段:确定要靶向哪个蛋白质,以及设计一个作用于该蛋白质的分子。
- 为了寻找靶点,Insilico 使用一种名为 PandaOmics 的工具来分析生物数据集、已发表的研究、专利、临床试验和资助申请。深度学习模型根据与疾病的相关性、作为药物靶点的适宜性以及新颖性对候选靶点进行排序。对于 IPF,PandaOmics 将 TNIK(一种参与 IPF 及相关疾病中疤痕形成的蛋白质)确定为最佳候选者。此前没有人尝试通过阻断 TNIK 来治疗 IPF。
- 为了设计一个分子来阻断 TNIK,研究团队使用了 Chemistry42。大约30个生成模型并行运行,以产生候选分子结构,每个结构都针对结合强度、毒性、溶解度等特性进行了优化。科学家们通过多轮评估和优化输出。该过程产生了先导分子,而 Insilico 合成和测试的化合物不到80个。在传统的药物发现中,
相似文章
新开放权重领导者,大型AI的政治影响力,疾病预测,更快的推理
本期涵盖新开放权重AI领导者、AI日益增长的政治影响力、利用AI预测疾病以及更快的推理模型。吴恩达还讨论了AI创造新就业机会的潜力以及他个人对AI代理的使用。
我评估了250+个真实的AI落地案例,有些结果令我意外...
作者分享了在评估250多个真实AI落地案例中的洞察,指出工程和财务领域处于采用领先地位,而大多数成果侧重于提升速度,而非降低成本或增加收入。
Anthropic的Claude神话问题、暗DNA揭示、辅助模型的陷阱、模拟流体动力学
DeepLearning.ai新闻简报讨论了AI进步下软件工程的未来,探讨了产品管理瓶颈、就业市场影响,并宣传即将举办的AI开发者大会。
The Download:编程的未来、‘类固醇奥运会’与AI驱动的科学
《麻省理工科技评论》的新闻简报报道了三则重要故事:Anthropic的Code with Claude活动显示开发者越来越多地未经审核就直接部署AI编写的代码;即将举行的Enhanced Games允许运动员使用兴奋剂;以及Google I/O转向以代理型AI驱动科学,推出了Gemini for Science。
智能体购物,重新定义智能,图片文字优化,高参与度意味着对齐更差
吴恩达讨论美国政策如何促使盟友转向主权AI和开源模型,并以DeepSeek、Qwen和K2 Think为例。他认为开源AI可以帮助各国减少对美国技术的依赖。