@DailyDoseOfDS_: Claude Code 完全解剖!伦敦大学学院的研究人员逆向工程了泄露的Claude源代码。他们的发现改变了……

X AI KOLs Timeline 论文

摘要

伦敦大学学院的研究人员对Claude Code进行了逆向工程,发现只有1.6%的代码库是AI决策逻辑,而98.4%是操作基础设施,这揭示了一种设计理念,即优先考虑丰富的确定性框架而非模型驱动路由。

Claude Code 完全解剖!伦敦大学学院的研究人员逆向工程了泄露的Claude源代码。他们的发现改变了你对智能体设计的看法。只有1.6%的代码库是AI决策逻辑,其余98.4%是操作基础设施:权限门、工具路由、上下文压缩、恢复逻辑、会话持久化。模型进行推理,框架完成其余所有工作。这与当今大多数智能体框架的做法相反。LangGraph通过显式状态机路由模型输出,Devin将重型规划器附加到操作脚手架上,而Claude Code在丰富的确定性框架内给予模型最大的决策自由度,并将所有工程努力投入到该框架中。核心循环是一个简单的while-true:调用模型、运行工具、重复。但围绕这个循环的系统才是真正的设计所在:一个包含7种模式和ML分类器的权限系统。用户无论如何都会批准93%的提示,因此架构通过自动化层来补偿,而不是增加更多警告。一个5层上下文压缩管道。每一层仅在较便宜的方法失败时运行:预算缩减、剪断、微压缩、上下文折叠、自动压缩。按上下文成本排序的四种扩展机制:钩子(零)、技能(低)、插件(中)、MCP(高)。每一种都解决不同的集成问题。子智能体只向父智能体返回摘要文本,其完整记录存放在侧链文件中。智能体团队仍然比标准会话消耗约7倍的token。Resume不会恢复会话范围的权限。每次会话都重新建立信任。这种摩擦正是关键所在。这一切背后的赌注很简单:随着前沿模型在原始编码能力上趋于一致,框架的质量成为区分因素,而非模型本身。论文:Dive into Claude Code(arXiv:2604.14228)。我们分享了一篇关于Agent Harness以及各大公司正在构建的文章。请阅读下文。
查看原文

相似文章

评估智能体非常困难

Reddit r/AI_Agents

本文讨论了评估基于LLM的智能体执行多步推理的挑战,指出仅对最终输出进行评分是不够的,因为智能体可能走错路径但偶然恢复,并提出了如何在不手动审查的情况下评估轨迹的问题。