Claude Code 源代码泄露,OpenAI 退出视频生成领域,Gemini 增加音乐生成功能,LLMs 在推理时学习

The Batch 新闻

摘要

本期通讯涵盖多则 AI 新闻:Claude Code 源代码泄露,OpenAI 退出视频生成领域,Gemini 增加音乐生成功能,研究显示 LLMs 可在推理时学习。此外,评论文章还探讨了基于语音的 AI 用户界面的未来。

《The Batch》AI 新闻与洞察:可以与之对话的语音 AI 正在快速进步,然而大多数人对语音用户界面 (UI) 将变得多么普及仍缺乏认知。
查看原文
查看缓存全文

缓存时间: 2026/05/08 06:25

# Claude Code 源码泄露,OpenAI 退出视频生成,Gemini 新增音乐生成,以及更多... 来源:https://www.deeplearning.ai/the-batch/issue-347/ 亲爱的朋友们, 能够进行语音对话的 AI 正在快速进步,但大多数人仍未意识到语音用户界面 (UI) 将变得多么普及。如今,我们主要使用键盘和鼠标来控制大多数桌面和网络应用。未来,我希望我们还能通过语音与这些应用进行交互,从而操控它们。我特别期待Vocal Bridge (https://vocalbridgeai.com/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-8h3eeKBactZgoshsMC1724_ahK7yv8aRFr6n41yPK8tB4hh6ngiFjaR0SPeJRfsp0vtHab)(AI Fund 投资组合公司)的工作,其 CEO Ashwyn Sharma 正致力于提供开发者工具来实现这一目标。 每一次重大的 UI 变革都催生了大量新应用,并使我们能够升级现有应用。鼠标使点击操作成为可能。触摸和滑动手势开启了新一类移动应用。直到最近,语音 UI 还饱受高错误率和/或高延迟的困扰,但随着其可靠性日益提升,它们将开辟许多新的应用场景。 例如,我为女儿制作了一个简单的数学测验应用。她很喜欢用键盘玩这个游戏(回答正确时会显示一只可爱的猫咪图形,因为她超爱猫!🐱)。添加语音 UI 后,应用可以用友好的方式对她进行口头提问,她也能口头回答,这消除了操作摩擦,改变了体验感受。 绝大多数人发现说话和倾听远比书写和阅读容易。由于大多数开发者都受过良好教育(*The Batch* 的读者也是如此),很容易忘记许多人在书写方面有多困难。事实上,与成人一起生活的孩子会自然学会说话和倾听,但除非接受专门教导,否则他们不会自动学会阅读或写作。过去几十年的科幻电影,如《星际迷航》,经常描绘人们与电脑对话,而非在电脑上打字。这是一个值得努力构建的未来愿景! 喵喵数学应用显示一个乘法问题。功能包括答案输入、检查按钮和语音交互。我曾撰写 (https://www.deeplearning.ai/the-batch/what-ive-learned-building-voice-applications/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-8h3eeKBactZgoshsMC1724_ahK7yv8aRFr6n41yPK8tB4hh6ngiFjaR0SPeJRfsp0vtHab) 关于延迟与智能之间权衡的文章。核心问题是,虽然语音输入-语音输出模型具有低延迟(这对口头交流很重要),但它们难以控制且可靠性/智能性较低。相比之下,语音转文本 → LLM/代理式 AI → 文本转语音的流程可靠性高,但引入了过多的延迟。Vocal Bridge 实现了一种自定义架构,使用前台代理与用户实时对话——确保低延迟,同时使用后台代理管理复杂的代理工作流、推理、应用护栏、调用工具以及执行其他所需操作以生成高质量的答案和行动——从而确保高智能。 我不认为语音 UI 会完全取代旧式界面。相反,它们将作为补充,就像鼠标补充键盘一样。在某些场景下,例如在他人附近工作时,用户可能更愿意打字而非说话。但语音 UI 的潜力远不止于当前主流的自动客服中心和替代打字输入。在我的数学测验应用中,应用可以说话,还能根据语音(或打字)输入更新屏幕上显示的问题和动画。这种多模态的视觉+语音交互创造了比许多语音 AI 公司专注于的纯语音交互更丰富的用户体验。使其工作的关键之一是一个后台代理循环,它可以双向接收来自 UI 的输入,并能调用工具来更新 UI。 构建语音 UI 可能比你想象的要简单。从我之前的非语音版数学测验应用出发,使用 Claude Code,我花了不到一小时就添加了语音功能。在 DeepLearning.AI 和 AI Fund 最近举办的黑客马拉松中,开发者使用 Vocal Bridge 构建了语音驱动的应用,包括癌症患者的临床试验匹配器、对话式投资组合顾问,以及为现有基于文本的代理添加的交互式语音层。我对这种新 UI 带来的创造力感到欣喜。 语音 UI 将成为 AI 应用的重要构建模块。全球只有极少数开发者曾经创建过语音应用,因此这是一个充满机遇的领域。如果你也想为应用添加语音功能,可以在此处 (http://vocalbridgeai.com/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-8h3eeKBactZgoshsMC1724_ahK7yv8aRFr6n41yPK8tB4hh6ngiFjaR0SPeJRfsp0vtHab) 免费试用 Vocal Bridge。 继续构建! Andrew --- ## DEEPLEARNING.AI 的消息 AI Dev 26 议程的宣传横幅 (https://ai-dev.deeplearning.ai/#schedule)我们刚刚发布了 AI Dev 26 议程!聆听来自 Google DeepMind、Oracle、AMD 等团队在两天的演讲、工作坊和演示中的分享——由 Andrew Ng 主持。查看活动安排并开始规划你的行程 (https://ai-dev.deeplearning.ai/#schedule) ## 新闻 一个带有红色标志的黑盒子被打开,露出内部发光的部分,象征着安全漏洞。## Claude Code 内部探秘 广受欢迎的编码代理 Claude Code 的内部工作机制现已公之于众。 **最新动态:**Claude Code 较新版本的 Node.js 包意外包含了一个密钥,揭示了 (https://arstechnica.com/ai/2026/03/entire-claude-code-cli-source-code-leaks-thanks-to-exposed-map-file/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag) 其命令行界面背后的代码。区块链初创公司 Solayer Labs 的实习生 Chaofan Shou 解锁了这些代码并将其公开。工程师们迅速解读了其中的秘密。 **事件经过:**通常,当软件公司发布闭源代码时,打包工具会混淆源文件。但 Anthropic 在 3 月 30 日向 Claude Code 的 npm 注册表发布 2.1.88 版本时,包含了一个作为翻译密钥的源映射文件,用于解码文件。 - Shou 发现了这个源映射,解码了文件,并在 X 社交网络上发布 (https://x.com/Fried_rice/status/2038894956459290963?s=20&utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag) 了它们,暴露了超过 512,000 行代码,分布在 1,900 个文件中。 - Anthropic 迅速从 npm 注册表和 GitHub 移除了该包。但该包已被 fork 超过 40,000 次。 - Anthropic 发言人确认 (https://www.cnbc.com/2026/03/31/anthropic-leak-claude-code-internal-source.html?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag) 了此次泄露,称其为“由人为错误导致的发布打包问题,并非安全漏洞”,并表示没有用户或客户数据被泄露。 **Claude Code 的工作原理:**研究过源代码的工程师表示 (https://thenewstack.io/claude-code-source-leak?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag),Claude Code 的构建更像是一个小巧、专用的操作系统,而非聊天机器人包装器。 - 超过 40 种不同的工具(用于读取文件、执行 bash 命令、从网络获取信息等)各自拥有独立的模块和权限门,将它们与语言模型和用户计算机隔离开来。后台进程管理内存,权限门阻止代理运行定义资源之外的任意代码。 - Claude Code 会生成子代理群,这些子代理作为支持代理,拥有自己的工具集和资源。一个控制器代理负责委派它们的权限和子任务。每个代理群都有一个共享内存,用于协调其行动。 - Claude Code 的内存分为三个层级 (https://x.com/himanshustwts/status/2038924027411222533?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag)。(i) 名为 MEMORY.MD 的内存索引始终加载,但仅包含指向 (ii) Markdown 内存文件的指针,这些文件仅在需要时调用。此外,(iii) JSON 转录文件记录文件更改。这些文件不会加载到活动上下文中,但可以搜索相关文本行。这种三层结构防止了内存膨胀,将不相关或不完整的信息排除在上下文窗口之外,并解决了代理内存与文件实际状态之间的所有冲突。 - Claude Code 使用三阶段策略 (https://wavespeed.ai/blog/posts/claude-code-architecture-leaked-source-deep-dive/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag) 来压缩记忆并将对话保持在上下文限制内。(i) 第一阶段在本地截断缓存的工具输出。(ii) 当对话接近上下文限制时,第二阶段生成一个结构化的、20,000 令牌的最近会话摘要。(iii) 第三阶段压缩整个对话,然后添加最近访问的文件(每个文件最多 5,000 令牌)、活跃计划和相关技能。 **未来可能的功能?:**源映射还揭示了 Anthropic 可能为 Claude 制定的部分计划 (https://venturebeat.com/technology/claude-codes-source-code-appears-to-have-leaked-heres-what-we-know?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag)。例如,一些未公开的功能隐藏在编译后为“false”的标志之后,表明这些功能正在开发中,可能会包含在未来版本中。 - 一个名为 Kairos(希腊语,意为“及时”)的子系统将作为始终在线的后台代理运行。其逻辑系统名为 autoDream,负责合并重复记忆、消除矛盾、解决推测,并以其他方式修剪记忆,使存储的数据更适合行动。 - 其他隐藏功能包括语音界面、一个名为 Ultraplan 的将资源密集型任务发送到云端的子代理,以及一个名为 Buddy 的角色,它会评论你的工作,推测是为了提高参与度。 - Claude Code 有一个此前未公开的“卧底模式”,允许代理在不留下签名或其他活动迹象的情况下,将文件提交到公共 git 仓库。这一功能可能使 Anthropic 能够在无意中泄露这些活动的情况下,测试高级模型并与尚未公开宣布的合作伙伴合作。 - 文件中提到了一个代号为 Capybara 的 Claude 4.6 变体,以及一个未发布的模型 Numbat。Capybara 第 8 版大约有 30% 的时间会做出虚假或夸大的陈述,远高于早期版本的 16.7%,这表明该模型的最新版本被调整得更倾向于武断下结论,而非保持审慎。 **为何重要:**这次泄露让我们得以一窥当今最先进、最流行的代理系统之一的内部工作原理。我们可以了解 Claude Code 如何工作以及未来可能如何工作,据此调整我们自己的系统,或通过做出不同选择来实现产品差异化。 **我们的思考:**AI 社区理所当然地担心软件代理可能意外删除代码库或发布私人文件。人类也会犯同样的错误! --- 一个光线昏暗的工作室,闲置的摄像机和发光的出口门,标志着 OpenAI 退出视频领域。OpenAI 计划关闭其视频生成器 Sora,突然退出视频市场。 **最新动态:**据《华尔街日报》报道 (https://www.wsj.com/tech/ai/the-sudden-fall-of-openais-most-hyped-product-since-chatgpt-64c730c9?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag),OpenAI 将停止 Sora 的运营——这是 ChatGPT 之后备受瞩目的后续产品,公司曾希望它成为另一个大众市场热点——以便将资源重新分配给更有利可图的投资。通过网页和应用程序对该模型的访问将于 4 月 26 日结束 (https://help.openai.com/en/articles/20001152-what-to-know-about-the-sora-discontinuation?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag),API 将于 9 月 24 日关闭。Sora 团队将被重新分配到更长期的项目,如世界模型和机器人技术。此外,《华尔街日报》在另一篇报道中写道 (https://www.wsj.com/tech/openai-plans-launch-of-desktop-superapp-to-refocus-simplify-user-experience-9e19931d?mod=article_inline&utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag),OpenAI 将把其浏览器、编码工具 Codex 和 ChatGPT 应用程序整合到一个单一的桌面应用中。 **工作原理:**Sora 能够生成最长 25 秒的高清视频,因其逼真度和视觉质量而获得赞誉。然而,生成每个片段需要几分钟,并且比生成文本或图像需要更多的处理能力。OpenAI 于 2024 年 2 月预览 (https://www.deeplearning.ai/the-batch/openais-sora-a-new-player-in-text-to-video-generation/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag) 了该模型,并于 2025 年 9 月更新 (https://openai.com/index/sora-2/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag) 模型并通过 iOS 应用提供。 - Sora 的大部分收入来自 OpenAI 付费计划的订阅用户。Sora 分为三个层级:应用用户每天大约可以免费生成 5 个 10 秒的视频(仅限邀请)。ChatGPT Plus 订阅用户(每月 20 美元)可以使用 Sora 2 生成有限数量的 15 秒片段,分辨率为 1280x720 像素。ChatGPT Pro 订阅用户(每月 200 美元)可以使用更高级的 Sora 2 Pro 模型,生成最长 25 秒、分辨率为 1920x1080 像素的视频。 - Sora 每天亏损约 100 万美元。其每日活跃用户数在移动应用推出后不久达到约 1,000,000 的峰值,但很快降至不到该数字的一半。 - 在 X 社交网络上宣布 (https://x.com/soraofficialapp/status/2036532795984715896?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-9SKOdKwZtszt2gyZnkk-z2Pc5ri4XwTsPdzj93-7ldUp5XLi9VCALlqgWZ3fVVC1T5uOag) 关闭之前,据报道 OpenAI 将 Sora 的处理资源转移到运行一个新的 AI 模型上,该模型代号为 Spud,为各种编码和企业产品提供支持。 - Sora 团队曾提议训练一个新模型,使其能够在 ChatGPT 内部生成视频,可能是作为 Sora 应用的替代方案。面对训练另一个视频模型的高昂成本,公司选择了取消视频生成功能。

相似文章

AI 新闻:Anthropic 泄露揭示 AI 未来

YouTube AI Channels

泄露的 Claude Code 仓库曝光 Anthropic 的自主“恶魔模式”智能体与三层记忆系统,同时 OpenAI 完成创纪录的 1220 亿美元融资,微软发布 MAI-Transcribe-1。

Google 所有新 AI 更新一网打尽(NotebookLM、Gemini 等)

YouTube AI Channels

Google 推出了一系列重要的 AI 更新,最引人注目的是 NotebookLM 新增的由 Gemini 3 Pro 驱动的电影级视频生成功能以及代码驱动的动画效果。此次更新还包括 Gemini 的音乐创作能力、增强的演示文稿编辑功能,以及让免费用户更便捷地访问各种模型。

2026年学习人工智能的实用指南

YouTube AI Channels

本视频指南提供了一种循序渐进的方法来掌握2026年的人工智能,强调深度而非频繁切换工具,并涵盖ChatGPT、Gemini和Claude等生态系统。