Hermes vs. OpenClaw，网络安全警报拉响，更具交互性的对话，AI能否胜任人类工作？

The Batch 2026/05/22 14:00 新闻

education grade-inflation deeplearning-ai andrew-ng harvard online-learning

摘要

吴恩达讨论了哈佛大学限制A等级评分的决定，他认为不应以限制成绩膨胀为由阻碍学生成功，并主张教育体系应帮助所有学生学习和取得成功。

The Batch AI新闻与洞察：哈佛大学刚刚投票决定，将本科课程中A等级评分的学生比例限制在约20%。

查看原文

查看缓存全文

缓存时间: 2026/05/22 18:13

# 赫尔墨斯 vs. 开爪鹰，网络安全警报响起，更具交互性的对话，智能体能否胜任人类工作？来源：https://www.deeplearning.ai/the-batch/issue-354 亲爱的朋友们，哈佛大学刚刚投票决定将本科生课程中A等级的比例限制在班级的20%左右。我不赞同这个做法。这与我心中的教育理念背道而驰。我们应该设定高标准，同时竭尽全力支持100%的学习者取得成功，而不是只让一小部分人成功。哈佛的管理层——不顾大部分学生群体的反对——采取了这一措施，以对抗分数通胀。分数通胀是真实存在的：许多大学给越来越多的学生授予A和B等级，这使得平均绩点作为学生技能的指标变得不那么有用。同时，我们也希望学生能够成功。问题的核心在于教育机构的角色。我们的目标应该是： - 帮助学生成功？ - 还是评判学生？两者都有其价值。但我在教育领域工作时，几乎完全专注于帮助学生成功。对我来说，很明显很多人都想学习，想被赋能，想建立技能去做新的事情！这正是我们在DeepLearning.AI所关注的重点。也是为什么我的在线课程（追溯到我在Coursera上早期的斯坦福在线课程）允许对评分作业进行无限次重试。我相信允许——甚至鼓励——某人重做某事直到成功为止。这与评判他们第一次没做对是相反的。此外，我认为作业的设计主要应该帮助人们练习和学习，而不是评判他们的技能水平。这就是为什么我更倾向于创建“练习题”——那些当你思考时，能帮助你获得练习并巩固所学知识的问题。而不是主要为了评判技能而设计的“评估题”。一堆批改过的机器学习考试试卷放在桌上，分数和反馈清晰可见，旁边放着笔和咖啡杯。而且，作业应该旨在帮助人们练习和学习，而不是评判他们的技能水平。这也是为什么我经常创建练习题——帮助学生练习并巩固所学知识的问题——而不是主要为了评判其技能而设计的评估题。但是，哈佛的举措不会让GPA更有意义，从而帮助潜在雇主识别出优秀的候选人吗？我在哈佛和其他机构雇佣过很多人，我可以肯定地说，GPA并不是一个重要的信号。筛选和面试过程是判断一个人是否真正有技能的更准确方式。我不需要通过申请者GPA分数更大的跨度来判断谁真的优秀！需要明确的是，评估也有其价值。尽管标准化测试备受诟病，但像SAT、ACT、GRE、TOEFL等高质量的测试提供了领域内能力的客观衡量标准。我发现大多数人想要学习并取得成功。也有人需要严格的评估（例如，为了申请学校入学），但这是次要的需求，并非我构建教育产品时的重点。哈佛常被称为“精英”教育机构。成为精英有两种方式：一种是限制招生人数，然后在已录取的学生中，将表现优秀的人数上限设为20%。我更愿意走另一条路：设定高标准，教授精英、前沿的技能，但坚持不懈地帮助每个人成功。这样，精英的定义就不是排斥人，而是帮助尽可能多的人变得卓越。继续学习吧！ Andrew --- ## DEEPLEARNING.AI 的消息 Google 和 DeepLearning.AI 联合推出的AI图像与视频生成新课程广告，带有彩色波浪设计。构建能够生成图像和视频、评估自身输出并迭代改进结果的AI智能体。在这门新的短课程中，你将应用图像-文本相似度评分、LLM评判和结构化评分标准，同时为UI模型和多场景视频讲解构建视觉媒体智能体。免费注册 ## 新闻一位身着武术装备的女性在赛博朋克城市景观中与一只卡通龙虾对峙。## Hermes 智能体挑战 OpenClaw OpenClaw，这个极受欢迎的AI智能体，正面临快速崛起的竞争对手。 **最新动态：** Hermes Agent，由纽约AI实验室Nous Research于2月推出的开源智能体，近期在追踪智能体每日消耗token数量的排行榜上超越了OpenClaw，该排行榜由AI模型平台OpenRouter统计。一些用户抱怨Hermes Agent的token效率较低，但其定义和优化新技能的能力，引发了人们对自我改进作为核心智能体能力的关注。你可以在这里下载。 **工作原理：** Hermes Agent的能力与OpenClaw有很大重叠。Hermes Agent的主要区别在于其记忆架构和自动构建技能的能力。它设计为可在本地或云端运行，支持多种大型语言模型，并与约20种消息服务集成。使用本地运行的模型（或通过浏览器登录后生成新访问令牌的模型），可以在不存储API密钥的情况下启动并运行。它通过智能体通信协议与集成开发环境协作。 - **智能体循环：** 与OpenClaw类似，Hermes Agent的智能体循环工作如下：(i) 智能体根据其定义的性格、指令、工具、技能、记忆、用户知识以及包含最新消息的对话历史来组装提示。 (ii) 如果提示超过关联LLM的输入限制，它会要求LLM总结对话历史中的旧消息以减小大小。 (iii) 它将组装好的提示发送给LLM，然后调用工具、调用技能或响应用户。 (iv) 如果它调用技能或工具，则执行该调用，这也会输出一个工具调用、技能调用或给用户的响应。这个循环重复，直到模型生成给用户的响应。 - **技能：** Hermes Agent使用标准的SKILL.md格式的指令文件，告诉智能体如何通过调用运行bash脚本、搜索网络或文件、查询数据库等工具来完成一项任务。它带有内置技能，并且可以从Skills Hub获得额外技能（目前该Hub远小于OpenClaw庞大的众包技能库）。然而，它也会自动创建新技能。当Hermes Agent长时间处理一个问题或修正一个错误，并决定已成功完成任务时，它会调用一个工具来创建技能。为了防止智能体生成的技能失控，一个名为Curator的额外后台系统 (i) 将超过90天未使用的每个技能归档到单独的文件夹中，并且 (ii) 使用LLM决定每个技能是应该保留原样、与其他技能合并，还是归档。 - **记忆：** Hermes Agent维护两个添加到提示中的通用记忆文件。一个详细记录用户偏好，另一个包含工作流程和经验教训的信息。它调用内置的记忆工具来添加这些文件内容。当它决定添加一条记忆时，它会检查该记忆是否值得添加，以及应该添加到哪个文件中。（例如，如果已有类似记忆或记忆过于模糊，它不会添加。）当它判断添加该记忆会超过预设的文件长度时，它会检查相关的记忆文件并合并相关条目。Hermes Agent还维护一个对话数据库，可以使用单独的工具进行搜索。此外，它还可以利用外部记忆提供者，例如Honcho，后者在每条消息后分析用户身份，以推导出偏好、目标和模式。 - **持久目标跟踪：** 用户可以在消息中指定一个目标。一旦智能体完成响应，它会调用一个评判模型来评估目标是否完成。如果没有完成，它会继续工作。这个循环一直持续到目标被判定为完成或智能体达到最大轮次。Anthropic Claude Code、OpenAI Codex和OpenClaw（通过插件）提供了类似的能力。 **新闻背景：** 随着大型语言模型具备多步骤规划、反思早期输出以及使用外部工具在线执行操作的能力，智能体能力得以涌现。像Anthropic的Claude Code和OpenAI的Codex这样的编码智能体在2025年获得了软件开发者的青睐，激发了人们对更自主AI系统的热情。2026年初，OpenClaw凭借一个持续运行以执行在线任务并通过WhatsApp和Telegram等消息平台交互的个人智能体，成为了开源现象；其发明者随后加入了OpenAI。OpenClaw的流行，以及其发布时的安全问题，引发了一波“Claw”类智能体的涌现，其中包括2026年2月的Hermes Agent。在4月底和5月，随着连续发布的版本使其更易于使用，且其自我改进行为更加稳健，人们的兴趣加速增长。 **为何重要：** 通用智能体正在迅速扩展AI驱动能力的版图。一组典型特征开始显现，但新功能仍在涌现。Hermes Agent凭借其更复杂的记忆和将成功行为转化为技能的能力，就是一个很好的例子。它标志着一个转变：从无状态的AI助手转向那些能积累经验、适应用户、并超越孤立任务自动化持续工作的智能体。 **我们的思考：** 这或许看似理所当然，但那些不绑定于特定LLM、消息平台或技能格式的开源智能体尤其有价值。这些智能体可在你常用的消息渠道中使用，并能利用在其框架限制内可用的最佳AI模型。 --- 性能数据表格显示了对话模型的指标，突出了TML-Interaction-Small的结果。## 内置的会话交互性对话模型通常等待轮到它们时才响应。Thinking Machines Lab 的一个系统会同时监听、观察和回复。 **最新动态：** TML-Interaction-Small 是一个多模态系统，它并发处理音频、视频和文本输入并生成输出，而不是等待用户说完。该系统目前正在测试中，Thinking Machines Lab 预计将在今年晚些时候提供。 - **输入/输出：** 并发音频、视频、文本输入，并发音频和文本输出 - **架构：** 混合专家变换器（总计2760亿参数，每token激活120亿参数），独立的背景推理模型（架构未公开） - **特性：** 实时轮流对话和打断，同时输入输出（例如，实时翻译），基于视觉线索的主动插话，以及一个在不中断对话的情况下进行推理和调用工具的独立模型 - **性能：** 在交互性基准测试中领先于其他语音模型，但在智能基准测试上落后于GPT-Realtime-2的最强推理模式 - **可用性：** 未来几个月内封闭研究预览，2026年晚些时候更广泛发布 - **未公开：** 训练数据和方法、知识截止日期、上下文窗口、定价、背景模型架构 **工作原理：** TML-Interaction-Small 结合了两个组件：一个处理实时对话的快速交互模型，以及一个执行推理的异步后台模型。交互模型将200毫秒的输入处理块和输出生成块交错进行，Thinking Machines Lab 称之为微轮次，而不是在典型的输入和输出轮次之间交替。它将音频、视频和文本作为并行流处理，消除了输入结束和输出生成之间的感知界限。 - 交互模型接收离散化的音频token、40x40像素图像块的嵌入（由分层多层感知器产生）以及文本嵌入。 - 它通过流匹配解码器生成音频和文本。Thinking Machines Lab 将这种方法称为*无编码器早期融合*，因为它跳过了许多多模态系统所需的大型预训练编码器（如OpenAI Whisper用于音频、视觉变换器用于图像）。团队从头开始一起训练了变换器、感知器和解码器。 - 交互模型将推理、网页浏览和工具调用委托给异步运行的后台模型。两者共享相同的上下文。交互模型在适当时将后台模型的输出编织到对话中。 **性能：** 在Thinking Machines Lab的测试中，TML-Interaction-Small 在评估交互性的基准测试上优于其他语音模型，但在智能测试上落后于GPT-Realtime-2的最强推理模式。 - 在FD-bench V1上（衡量对话轮次中的音频延迟），TML-Interaction-Small 响应时间为0.40秒，显著快于设置为最小推理的Gemini-3.1-flash-live-preview（0.57秒）和设置为最小推理的GPT-Realtime-2（1.18秒）。 - 在FD-bench V1.5上（评估模型处理打断、插话如“嗯哼”以及前景与背景语音的能力），TML-Interaction-Small 的平均质量为77.8，远高于设置为xhigh推理的GPT-Realtime-2（平均质量47.8）和设置为高推理的Gemini-3.1-flash-live-preview（平均质量45.5）。 - 在Audio MultiChallenge上（测试多轮音频对话中的推理和遵循指令），TML-Interaction-Small 的APR（平均通过率，即模型满足所有条件的对话百分比）为43.4%，落后于设置为xhigh推理的GPT-Realtime-2（48.5% APR），但领先于设置为高推理的Gemini-3.1-flash-live-preview（36.1% APR）。 - 在BigBench Audio上（音频推理测试），TML-Interaction-Small 在激活后台模型的情况下达到96.5%的准确率，略低于设置为高推理的GPT-Realtime-2和设置为高推理的Gemini-3.1-flash-live-preview（两者并列96.6%准确率）。 **新闻背景：** TML-Interaction-Small 在Mira Murati创立Thinking Machines Lab大约15个月后问世，有望成为该公司的首个公开模型。这家初创公司曾发布过一个名为Tinker的微调API。

Hermes vs. OpenClaw，网络安全警报拉响，更具交互性的对话，AI能否胜任人类工作？

相似文章

@AndrewYNg：哈佛大学刚刚投票决定将本科生课程中获得A等级的比例限制在约20%……

Hermes vs Openclaw：影响你最终选择的 5 个真实差异

@garrytan：Clawvisor 将成为推动 AI 智能体世界——尤其是 OpenClaw/Hermes 时代——走向成熟的最重要工具之一……

@JulianGoldieSEO: OpenClaw = 员工。Hermes = 记忆。Paperclip = 公司。这是理解目前最疯狂开源 AI 智能体堆栈的...

@ChrisWangwy: https://x.com/ChrisWangwy/status/2057406034973733234

提交意见反馈