大语言模型“坦诚相告”、自动化科学研究、Copilot 用户真正想要什么、降低推理成本

The Batch 新闻

摘要

DeepLearning.AI 推出《Build with Andrew》课程,帮助零编程基础的用户在 30 分钟内利用 AI 构建 Web 应用;同时,最新研究聚焦大语言模型的透明度问题,涵盖模型诚实性与自动化科学研究能力等方向。

《The Batch》AI 资讯与深度解析:我们刚刚推出一门新课程,教从未接触过代码的用户如何在 30 分钟内用自然语言描述应用构思,并借助 AI 完成开发。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 02:13

# LLMs 去“认罪”,自动化科研,Copilot 用户所求,以及更多内容... 来源:https://www.deeplearning.ai/the-batch/issue-335/ 亲爱的朋友们, 我们刚刚上线了一门课程,在不到 30 分钟的时间里,向从未写过代码的人展示如何描述一个 App 创意并利用 AI 将其构建出来。现在是每个人——营销人员、产品专家、运营专员、分析师和学生——利用 AI 构建软件应用的时候了! 我经常谈到为什么每个人都应该学习编程(https://www.deeplearning.ai/the-batch/learn-the-language-of-software/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts)。我观察到,懂编程的人和不懂编程的人之间,生产力差距正在迅速拉大。对于我招聘的许多岗位,我现在都要求至少具备基础的编程知识。很多次,当我向非技术受众讲解利用 AI 构建软件的重要性后,人们都会问我该如何入门。过去,我没有很好的答案。这促使 DeepLearning.AI 团队开发了《Build with Andrew》(https://www.deeplearning.ai/courses/build-with-andrew/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts)。这正是想尝试 vibe coding 的用户最好的起步方式! 这门课程不需要任何 AI 或编程的前期知识。而且它是厂商无关的。具体来说,学习者可以使用他们最熟悉的任何工具来实践这些技巧(比如 ChatGPT、Gemini、Claude,或者 DeepLearning.AI 平台内置的聊天机器人)。 一张生日卡生成器表单显示,字段中填满了幽默的数据,聊天气泡提示需要帮助。如果你参加这门课程,你将构建一个可运行的 Web 应用:一个有趣的互动生日祝福生成器,它可以在你的浏览器中运行,并能分享给朋友。你可以通过告诉 AI 你想如何修改它来自定义它,并反复调整直到符合你的预期。到结束时,你将掌握一套可复用的流程,能够用于构建各种各样的应用。 DeepLearning.AI 的使命是赋能每个人使用 AI 进行构建。这门课程只是实现这一使命的众多举措之一。 如果你已经是开发者,请鼓励你的非开发者朋友也让 AI 帮他们写写代码。这不仅有助于提升他们的生产力,而且他们会发现这个过程非常有趣。欢迎邀请你的朋友一起来跟我一起构建项目!(https://www.deeplearning.ai/courses/build-with-andrew?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts)! 继续构建, Andrew --- ## DEEPLEARNING.AI 的消息 Promo banner for: "Build with Andrew" (https://www.deeplearning.ai/courses/build-with-andrew/)构建 App 并不需要学习编程。在《Build with Andrew》中,吴恩达将展示如何把你用自然语言描述的创意转化为可运行的 Web 应用。非常适合初学者,也很容易分享给你那些一直在等待上手的朋友。立即探索课程!(https://www.deeplearning.ai/courses/build-with-andrew/) ## 行业资讯 一段对话显示模型承认回答错误,且编写的代码违背了指令。## 教模型讲真话 大语言模型有时会掩盖自己未能遵守训练或提示中所设约束的事实。研究人员训练了一个 LLM 使其在违规时主动承认。 **最新动态:**OpenAI 的 Manas Joglekar、Jeremy Chen、Gabriel Wu 及其同事对 GPT-5 Thinking 进行了微调,使其学会就违反指令或策略的行为进行“坦白”(https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts)。应请求,该微调模型会透露其在生成最新回复过程中所犯下的任何违规行为。 **核心洞见:**在使用强化学习进行训练以鼓励准确性、风格、合规性等过程中,模型可能会无意中习得优先追求奖励而非预训练或提示目标。在某些情况下,这可能导致其产生幻觉、撒谎、谋划或其他不当行为。通过特定提示词引导模型为其不当行为“忏悔”并给予奖励,可以训练模型主动承认错误,且不会影响其原有性能。 **工作原理:**作者按照常规方式使用强化学习对 GPT-5 Thinking 进行微调,同时让其生成“忏悔”。 - 在指定比例的时间内,给定提示词后,模型会根据其回复的“正确性、风格、有用性、合规性、安全性等”获得奖励。 - 其余时间,在模型生成回复后,作者提示它生成一份“忏悔报告”。报告内容包括:(i) 回复应满足的所有约束、指令和目标(显式或隐式),(ii) 回复在多大程度上满足了这些标准,以及 (iii) 标准中存在的任何歧义或不确定性。 - 根据查询、回复和忏悔报告,一个未具名的奖励模型会根据报告的完整性和准确性对模型进行奖励——这衡量了模型坦白的诚实度,因为报告中缺失或伪造的项目可被视为谎言。 **结果:**作者从遵循指令、抵御越狱、生成准确输出以及完成不可能任务(编写一个几乎耗时 0 秒就能运行的脚本)四个方面对模型进行了 12 项评估。在其中的 11 项评估中,当微调模型出现不当行为时,其认罪率至少达到一半。例如,在 5 项幻觉测试中,它要么不产生幻觉,要么承认自身幻觉的比例高达 81.4%: - 模型未产生幻觉也未“坦白”的情况占 42.2%。 - 模型产生了幻觉并承认错误的情况占 39.2%。 - 模型未产生幻觉但虚假认罪的情况占 11%。 - 模型产生幻觉但未认罪的情况占 2.9%。 **不过:**正如作者指出,即使模型变得坦诚,“坦白”也并非万能药。模型不会对自己不知道是错误的行为进行忏悔。 **为何重要:**在推理阶段,可用于监控模型行为并阻止不良行为的“忏悔”。思维链监控(https://arxiv.org/abs/2503.11926?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts)也可以用于对模型可能在思维链中描述的不良行为进行分类监测,但与此方法不同,作者的这种方法旨在训练模型主动揭示它们可能在思维链中故意省略(https://www.deeplearning.ai/the-batch/anthropic-finds-chain-of-thought-reasoning-traces-may-omit-key-influences/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts)的不当行为。 **我们的思考:**我们总是倾向于避免将人类特征拟人化到模型行为上,但这项工作可能是赋予 AI 模型某种类似“良知”事物的重要一步。 --- 一张示意图展示了 SCP 中心节点连接客户端、数据库、工具、AI 代理及实验室设备以开展实验的场景。## 科学实验室的通用语 一项开放协议旨在使 AI 代理能够跨越学科和机构界限自主开展科学研究。 **最新动态:**上海人工智能实验室(SAIL)发布了科学上下文协议(SCP)(https://arxiv.org/abs/2512.24189?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts),这是一个开源标准,能够将代理与本地客户端、中心枢纽和边缘服务器连接起来,以开展自动化科学探究。SCP 采用 Apache 2.0 许可证发布,允许商业使用和修改。 **工作原理:**SCP 力求使使用 AI 代理和机器人设备的实验尽可能具备可重复性。类似于模型上下文协议(MCP)(https://www.deeplearning.ai/the-batch/openai-adopts-model-context-protocol-to-boost-llm-tool-integration/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts),它使代理能够与外部资源交互。但与独立运作的 MCP 服务器不同,SCP 的设计需要集中式的枢纽来管理其他服务器以及供用户访问它们的客户端应用程序。此外,作者表示,SCP 的结构通过对消息和工具的更严格管控提供了更高的安全性,这对于科学实验而言至关重要。 - SCP 的基本数据单元是“实验”。每个实验都存储为一个带有持久标识符的 JSON 结构化数据文件,记录了实验的类型、目标、数据和配置。这种格式使得实验可追溯、可版本控制、机器可读,并与管理机构数据的政策保持一致。 - SCP 客户端对用户进行身份验证,并授予他们访问机构资源的权限。研究人员可以用自然语言描述实验目标(例如,“提高这种荧光蛋白的亮度”),或者上传完整的文本/PDF 研究计划,供其所属的枢纽分析。 - SCP 枢纽接收目标或其他请求,并利用大语言模型生成一系列包含执行步骤的实验方案。枢纽会根据每个步骤的资源需求、成本和风险对各方案进行衡量和排序。用户选择一个方案后,枢纽随即编排并调度多个代理和服务器来执行实验。实验完成后,枢纽将其归档,供研究人员查阅、修改或重复操作。 - 边缘服务器负责管理由枢纽规划好的实验,并将数据流式传输回枢纽(随后再返回给客户端)。服务器可能属于某个机构,也可能专为某个特定学科(如生物化学或数学)服务,各自拥有专用的工具和数据库。 - 该协议目前包含超过 1,600 种工具(https://yankai96.github.io/SCP_Tool_List/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts),实际上涵盖了实验中可使用的一切资源。这些可以是搜索类软件应用,也可以是机器人、实验室硬件或人工技术人员。作者希望为所有实验中使用的工具建立统一标准。 **背后故事:**SCP 借鉴了早期针对通用 AI 代理和科学探究的数据管理工作。它在 MCP 的基础上增加了更严格的安全机制、实验管理功能,并为科学工具提供专用驱动。它还建立在早期的科研协议之上,包括材料科学的 A-Lab(https://www.nature.com/articles/s41586-023-06734-w?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts)、生物学的 OriGene(https://www.biorxiv.org/content/10.1101/2025.06.03.657658v1?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts)、基于 LLM 的方法 Agent Laboratory(https://arxiv.org/abs/2501.04227?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts),以及面向特定任务的代理 Biomni(https://www.deeplearning.ai/the-batch/biomni-an-ai-agent-for-multidisciplinary-biology-research/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts)(生物学假设与分析)。然而,SCP 旨在比这些特定领域或工具专用的资源更具通用性,允许各个科学领域的研究人员标准化他们的方法,从而更好地促进跨学科协作。 **为何重要:**科学研究依赖于人类与技术的协同工作。SCP 旨在标准化两者之间的连接。它既能管理仅使用计算资源的虚拟实验,也能协调涉及机器人和其他实验室设备的实体实验。它还通过在更大网络上支持专用服务器,促进了机构与学科间的更好沟通。这些区别(人/机器人、数字/物理、学科差异)正逐渐模糊。SCP 正是迈向这一未来的一步。 **我们的思考:**AI 有潜力极大加速科学研究。SCP 提供了一种标准化方式来连接专用模型(如 AlphaFold(https://www.deeplearning.ai/the-batch/deepminds-alphafold-3-enhances-3d-biomolecular-modeling/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts))、自动生成假设的系统(如 AI Co-scientist(https://www.deeplearning.ai/the-batch/ai-co-scientist-an-agent-that-generates-research-hypotheses-aiding-drug-discovery/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts)),以及测试这些假设的机器人实验室(如 RoboChem(https://www.deeplearning.ai/the-batch/robochem-a-system-that-outshines-human-chemists-in-chemical-synthesis-efficiency/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts))。这种自动化的实验工作流有望以机器速度推进科学发现。 --- 一张包含 10 条彩色折线的图表按月显示了主题排名,基于微软对 Copilot 使用情况的调查。## Copilot 用户的需求随时间与场景变化 用户对 AI 有什么期待?一项新研究表明,答案取决于他们使用的时机和方式。 **最新动态:**微软的一项研究(https://microsoft.ai/news/its-about-time-the-copilot-usage-report-2025/?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts)揭示,人们在夜间用手机使用 Copilot 的方式与工作日在笔记本电脑上的使用方式截然不同。聚焦生产力和职业的话题更常出现在白天和桌面设备上,而健康、游戏和哲学类问题则主导了非工作时间的对话。随着 2025 年的推进,越来越多的用户向 AI 代理寻求个人建议。 **工作原理:**研究人员分析了(https://microsoft.ai/wp-content/uploads/2025/12/What_people_do_with_Copilot-8.pdf?utm_campaign=The%20Batch&utm_source=hs_email&utm_medium=email&_hsenc=p2ANqtz-99VppkXT5SHe8e4x7M-CxUjsZHBf0FlxMW6ySYYJshI6A-vLOEEz8L4aGXrkPL35RSVZts)2025 年 1 月至 9 月期间 3,750 万条 Copilot 对话的匿名摘要,以研究用户如何使用该系统,这也是迄今为止同类规模最大的研究。作者得出结论:AI 已更加深入地融入社会生活,因为用户开始在工作的其他生活方面使用它。 - 作者审查了 Copilot

相似文章

"Excuse me, may I say something..." CoLabScience,一个用于生物医学发现和大语言模型-专家协作的主动型AI助手

arXiv cs.CL

CoLabScience介绍了一个用于生物医学研究的主动型大语言模型助手,它使用PULI(正无标签学习干预)这一新颖的强化学习框架,在科学讨论中自主进行干预,决定何时以及如何提供上下文感知的见解。该工作还包括BSDD,一个新的基准数据集,由基于PubMed文章的模拟研究对话和干预点组成。

学习如何让大语言模型进行推理

OpenAI Blog

OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。

AMD AI ENGAGE

Reddit r/ArtificialInteligence

本文讨论了 AMD AI Engage 计划,这是一个面向 AI 开发者的社区倡议,为构建大语言模型(LLM)应用和生成式 AI 工作流提供奖金、积分以及交流机会。