Claude Code 源代码泄露，OpenAI 退出视频生成领域，Gemini 增加音乐生成功能，LLMs 在推理时学习

The Batch 2026/04/03 07:00 新闻

ai-news claude-code openai gemini llm-inference voice-ai

摘要

本期通讯涵盖多则 AI 新闻：Claude Code 源代码泄露，OpenAI 退出视频生成领域，Gemini 增加音乐生成功能，研究显示 LLMs 可在推理时学习。此外，评论文章还探讨了基于语音的 AI 用户界面的未来。

《The Batch》AI 新闻与洞察：可以与之对话的语音 AI 正在快速进步，然而大多数人对语音用户界面 (UI) 将变得多么普及仍缺乏认知。

查看原文

查看缓存全文

缓存时间: 2026/05/08 06:25

# Claude Code 源码泄露，OpenAI 退出视频生成，Gemini 新增音乐生成，以及更多... 来源：https://www.deeplearning.ai/the-batch/issue-347/ 亲爱的朋友们，能够进行语音对话的 AI 正在快速进步，但大多数人仍未意识到语音用户界面 (UI) 将变得多么普及。如今，我们主要使用键盘和鼠标来控制大多数桌面和网络应用。未来，我希望我们还能通过语音与这些应用进行交互，从而操控它们。我特别期待Vocal Bridge (https://vocalbridgeai.com/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-8h3eeKBactZgoshsMC1724_ahK7yv8aRFr6n41yPK8tB4hh6ngiFjaR0SPeJRfsp0vtHab)（AI Fund 投资组合公司）的工作，其 CEO Ashwyn Sharma 正致力于提供开发者工具来实现这一目标。每一次重大的 UI 变革都催生了大量新应用，并使我们能够升级现有应用。鼠标使点击操作成为可能。触摸和滑动手势开启了新一类移动应用。直到最近，语音 UI 还饱受高错误率和/或高延迟的困扰，但随着其可靠性日益提升，它们将开辟许多新的应用场景。例如，我为女儿制作了一个简单的数学测验应用。她很喜欢用键盘玩这个游戏（回答正确时会显示一只可爱的猫咪图形，因为她超爱猫！🐱）。添加语音 UI 后，应用可以用友好的方式对她进行口头提问，她也能口头回答，这消除了操作摩擦，改变了体验感受。绝大多数人发现说话和倾听远比书写和阅读容易。由于大多数开发者都受过良好教育（*The Batch* 的读者也是如此），很容易忘记许多人在书写方面有多困难。事实上，与成人一起生活的孩子会自然学会说话和倾听，但除非接受专门教导，否则他们不会自动学会阅读或写作。过去几十年的科幻电影，如《星际迷航》，经常描绘人们与电脑对话，而非在电脑上打字。这是一个值得努力构建的未来愿景！喵喵数学应用显示一个乘法问题。功能包括答案输入、检查按钮和语音交互。我曾撰写 (https://www.deeplearning.ai/the-batch/what-ive-learned-building-voice-applications/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-8h3eeKBactZgoshsMC1724_ahK7yv8aRFr6n41yPK8tB4hh6ngiFjaR0SPeJRfsp0vtHab) 关于延迟与智能之间权衡的文章。核心问题是，虽然语音输入-语音输出模型具有低延迟（这对口头交流很重要），但它们难以控制且可靠性/智能性较低。相比之下，语音转文本 → LLM/代理式 AI → 文本转语音的流程可靠性高，但引入了过多的延迟。Vocal Bridge 实现了一种自定义架构，使用前台代理与用户实时对话——确保低延迟，同时使用后台代理管理复杂的代理工作流、推理、应用护栏、调用工具以及执行其他所需操作以生成高质量的答案和行动——从而确保高智能。我不认为语音 UI 会完全取代旧式界面。相反，它们将作为补充，就像鼠标补充键盘一样。在某些场景下，例如在他人附近工作时，用户可能更愿意打字而非说话。但语音 UI 的潜力远不止于当前主流的自动客服中心和替代打字输入。在我的数学测验应用中，应用可以说话，还能根据语音（或打字）输入更新屏幕上显示的问题和动画。这种多模态的视觉+语音交互创造了比许多语音 AI 公司专注于的纯语音交互更丰富的用户体验。使其工作的关键之一是一个后台代理循环，它可以双向接收来自 UI 的输入，并能调用工具来更新 UI。构建语音 UI 可能比你想象的要简单。从我之前的非语音版数学测验应用出发，使用 Claude Code，我花了不到一小时就添加了语音功能。在 DeepLearning.AI 和 AI Fund 最近举办的黑客马拉松中，开发者使用 Vocal Bridge 构建了语音驱动的应用，包括癌症患者的临床试验匹配器、对话式投资组合顾问，以及为现有基于文本的代理添加的交互式语音层。我对这种新 UI 带来的创造力感到欣喜。语音 UI 将成为 AI 应用的重要构建模块。全球只有极少数开发者曾经创建过语音应用，因此这是一个充满机遇的领域。如果你也想为应用添加语音功能，可以在此处 (http://vocalbridgeai.com/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-8h3eeKBactZgoshsMC1724_ahK7yv8aRFr6n41yPK8tB4hh6ngiFjaR0SPeJRfsp0vtHab) 免费试用 Vocal Bridge。继续构建！ Andrew --- ## DEEPLEARNING.AI 的消息 AI Dev 26 议程的宣传横幅 (https://ai-dev.deeplearning.ai/#schedule)我们刚刚发布了 AI Dev 26 议程！聆听来自 Google DeepMind、Oracle、AMD 等团队在两天的演讲、工作坊和演示中的分享——由 Andrew Ng 主持。查看活动安排并开始规划你的行程 (https://ai-dev.deeplearning.ai/#schedule) ## 新闻一个带有红色标志的黑盒子被打开，露出内部发光的部分，象征着安全漏洞。## Claude Code 内部探秘广受欢迎的编码代理 Claude Code 的内部工作机制现已公之于众。 **最新动态：**Claude Code 较新版本的 Node.js 包意外包含了一个密钥，揭示了 (https://arstechnica.com/ai/2026/03/entire-claude-code-cli-source-code-leaks-thanks-to-exposed-map-file/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag) 其命令行界面背后的代码。区块链初创公司 Solayer Labs 的实习生 Chaofan Shou 解锁了这些代码并将其公开。工程师们迅速解读了其中的秘密。 **事件经过：**通常，当软件公司发布闭源代码时，打包工具会混淆源文件。但 Anthropic 在 3 月 30 日向 Claude Code 的 npm 注册表发布 2.1.88 版本时，包含了一个作为翻译密钥的源映射文件，用于解码文件。 - Shou 发现了这个源映射，解码了文件，并在 X 社交网络上发布 (https://x.com/Fried_rice/status/2038894956459290963?s=20&utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag) 了它们，暴露了超过 512,000 行代码，分布在 1,900 个文件中。 - Anthropic 迅速从 npm 注册表和 GitHub 移除了该包。但该包已被 fork 超过 40,000 次。 - Anthropic 发言人确认 (https://www.cnbc.com/2026/03/31/anthropic-leak-claude-code-internal-source.html?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag) 了此次泄露，称其为“由人为错误导致的发布打包问题，并非安全漏洞”，并表示没有用户或客户数据被泄露。 **Claude Code 的工作原理：**研究过源代码的工程师表示 (https://thenewstack.io/claude-code-source-leak?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag)，Claude Code 的构建更像是一个小巧、专用的操作系统，而非聊天机器人包装器。 - 超过 40 种不同的工具（用于读取文件、执行 bash 命令、从网络获取信息等）各自拥有独立的模块和权限门，将它们与语言模型和用户计算机隔离开来。后台进程管理内存，权限门阻止代理运行定义资源之外的任意代码。 - Claude Code 会生成子代理群，这些子代理作为支持代理，拥有自己的工具集和资源。一个控制器代理负责委派它们的权限和子任务。每个代理群都有一个共享内存，用于协调其行动。 - Claude Code 的内存分为三个层级 (https://x.com/himanshustwts/status/2038924027411222533?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag)。(i) 名为 MEMORY.MD 的内存索引始终加载，但仅包含指向 (ii) Markdown 内存文件的指针，这些文件仅在需要时调用。此外，(iii) JSON 转录文件记录文件更改。这些文件不会加载到活动上下文中，但可以搜索相关文本行。这种三层结构防止了内存膨胀，将不相关或不完整的信息排除在上下文窗口之外，并解决了代理内存与文件实际状态之间的所有冲突。 - Claude Code 使用三阶段策略 (https://wavespeed.ai/blog/posts/claude-code-architecture-leaked-source-deep-dive/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag) 来压缩记忆并将对话保持在上下文限制内。(i) 第一阶段在本地截断缓存的工具输出。(ii) 当对话接近上下文限制时，第二阶段生成一个结构化的、20,000 令牌的最近会话摘要。(iii) 第三阶段压缩整个对话，然后添加最近访问的文件（每个文件最多 5,000 令牌）、活跃计划和相关技能。 **未来可能的功能？：**源映射还揭示了 Anthropic 可能为 Claude 制定的部分计划 (https://venturebeat.com/technology/claude-codes-source-code-appears-to-have-leaked-heres-what-we-know?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag)。例如，一些未公开的功能隐藏在编译后为“false”的标志之后，表明这些功能正在开发中，可能会包含在未来版本中。 - 一个名为 Kairos（希腊语，意为“及时”）的子系统将作为始终在线的后台代理运行。其逻辑系统名为 autoDream，负责合并重复记忆、消除矛盾、解决推测，并以其他方式修剪记忆，使存储的数据更适合行动。 - 其他隐藏功能包括语音界面、一个名为 Ultraplan 的将资源密集型任务发送到云端的子代理，以及一个名为 Buddy 的角色，它会评论你的工作，推测是为了提高参与度。 - Claude Code 有一个此前未公开的“卧底模式”，允许代理在不留下签名或其他活动迹象的情况下，将文件提交到公共 git 仓库。这一功能可能使 Anthropic 能够在无意中泄露这些活动的情况下，测试高级模型并与尚未公开宣布的合作伙伴合作。 - 文件中提到了一个代号为 Capybara 的 Claude 4.6 变体，以及一个未发布的模型 Numbat。Capybara 第 8 版大约有 30% 的时间会做出虚假或夸大的陈述，远高于早期版本的 16.7%，这表明该模型的最新版本被调整得更倾向于武断下结论，而非保持审慎。 **为何重要：**这次泄露让我们得以一窥当今最先进、最流行的代理系统之一的内部工作原理。我们可以了解 Claude Code 如何工作以及未来可能如何工作，据此调整我们自己的系统，或通过做出不同选择来实现产品差异化。 **我们的思考：**AI 社区理所当然地担心软件代理可能意外删除代码库或发布私人文件。人类也会犯同样的错误！ --- 一个光线昏暗的工作室，闲置的摄像机和发光的出口门，标志着 OpenAI 退出视频领域。OpenAI 计划关闭其视频生成器 Sora，突然退出视频市场。 **最新动态：**据《华尔街日报》报道 (https://www.wsj.com/tech/ai/the-sudden-fall-of-openais-most-hyped-product-since-chatgpt-64c730c9?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag)，OpenAI 将停止 Sora 的运营——这是 ChatGPT 之后备受瞩目的后续产品，公司曾希望它成为另一个大众市场热点——以便将资源重新分配给更有利可图的投资。通过网页和应用程序对该模型的访问将于 4 月 26 日结束 (https://help.openai.com/en/articles/20001152-what-to-know-about-the-sora-discontinuation?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag)，API 将于 9 月 24 日关闭。Sora 团队将被重新分配到更长期的项目，如世界模型和机器人技术。此外，《华尔街日报》在另一篇报道中写道 (https://www.wsj.com/tech/openai-plans-launch-of-desktop-superapp-to-refocus-simplify-user-experience-9e19931d?mod=article_inline&utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag)，OpenAI 将把其浏览器、编码工具 Codex 和 ChatGPT 应用程序整合到一个单一的桌面应用中。 **工作原理：**Sora 能够生成最长 25 秒的高清视频，因其逼真度和视觉质量而获得赞誉。然而，生成每个片段需要几分钟，并且比生成文本或图像需要更多的处理能力。OpenAI 于 2024 年 2 月预览 (https://www.deeplearning.ai/the-batch/openais-sora-a-new-player-in-text-to-video-generation/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag) 了该模型，并于 2025 年 9 月更新 (https://openai.com/index/sora-2/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag) 模型并通过 iOS 应用提供。 - Sora 的大部分收入来自 OpenAI 付费计划的订阅用户。Sora 分为三个层级：应用用户每天大约可以免费生成 5 个 10 秒的视频（仅限邀请）。ChatGPT Plus 订阅用户（每月 20 美元）可以使用 Sora 2 生成有限数量的 15 秒片段，分辨率为 1280x720 像素。ChatGPT Pro 订阅用户（每月 200 美元）可以使用更高级的 Sora 2 Pro 模型，生成最长 25 秒、分辨率为 1920x1080 像素的视频。 - Sora 每天亏损约 100 万美元。其每日活跃用户数在移动应用推出后不久达到约 1,000,000 的峰值，但很快降至不到该数字的一半。 - 在 X 社交网络上宣布 (https://x.com/soraofficialapp/status/2036532795984715896?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag) 关闭之前，据报道 OpenAI 将 Sora 的处理资源转移到运行一个新的 AI 模型上，该模型代号为 Spud，为各种编码和企业产品提供支持。 - Sora 团队曾提议训练一个新模型，使其能够在 ChatGPT 内部生成视频，可能是作为 Sora 应用的替代方案。面对训练另一个视频模型的高昂成本，公司选择了取消视频生成功能。

Claude Code 源代码泄露，OpenAI 退出视频生成领域，Gemini 增加音乐生成功能，LLMs 在推理时学习

相似文章

AI 新闻：Anthropic 泄露揭示 AI 未来

Google 所有新 AI 更新一网打尽（NotebookLM、Gemini 等）

AI周报（2026年5月23–30日）：Claude Opus 4.8 Fast模式降价3倍，Qwen 3.7 Max半价超越Claude，ChatGPT入驻Excel

AI音乐生成、AI视频工具和语音AI正缓慢融合成一个生态系统

2026年学习人工智能的实用指南

提交意见反馈