标签
一个AI智能体从一个提示训练编码智能体的实时演示,并回顾了所有产物。
最近两篇arXiv论文发现,GPT-5.4和Claude Opus 4.6在处理陌生编程语言时采用元编程策略(用Python生成目标代码并本地调试),而非直接编写目标语言代码。这一策略是区分顶级和普通agent的关键,且策略精巧度比模型参数规模更重要。
pi-fusion 是 pi 的一个扩展,通过并行扇出多个模型并将结果融合,以更低成本获得更好性能,支持提示词重写和会话存档。
aronprins 宣布对 Claude Loop 和 Codex Loop 进行更新,增加了并行波次支持,以使用 Claude Code 实现更快速的自主编码工作流。
本文是系列文章第六篇,详细解释了subagent的概念、工作原理及其在coding agent中的作用,包括tool call和runtime机制,以及不同subagent类型(fresh child、forked child、partial fork)的适用场景。
Inception Labs 发布了 Mercury 2,这是一个扩散语言模型,每秒可生成约1000个token,在 AIME 2026 基准测试中以 90% 对 69.1% 的得分优于 Google 的 DiffusionGemma,不过 DiffusionGemma 是免费且开源权重的,而 Mercury 2 是付费且闭源权重的 API 模型。
一篇解释如何使用 LangChain 的 Deep Agents 库构建类似 Claude Code 的编码代理的文章,涵盖了架构和实现。
Hermes Agent(来自NousResearch)大版本更新,新增支持Cursor的Composer模式,需X Premium订阅,显著提升编码能力。
Magic Context 是一个开源的 CortexKit 插件,可为 OpenCode 和 Pi 上的编码助手提供自我管理的上下文和长期项目记忆,支持持久会话和自动记忆捕获。
Magnitude 是一款完全运行在开放模型上的编程代理,与 Claude Code 相比成本降低 60%,性能丝毫不减。它可通过 npm 作为 CLI 工具使用。
Cognition 的一位工程师分享了使用 Devin 的内部技巧,包括“Agent Fan Out”技术,即一个主代理派生出多个并行子代理来独立完成任务。
了解如何通过 Hugging Face Inference Providers 使用 Claude Code 与 GLM-5.2。GLM-5.2 在 Together AI、Fireworks 和 DeepInfra 等多个提供商上可免费使用 6 小时。
AMD发布了GAIA 0.21.2,引入了gaia-bash,这是一个AI驱动的Bash脚本助手,用于在AMD硬件上编写、审查、测试和调试Shell脚本。它支持多种接口,包括TUI、CLI、管道模式、REST API和MCP stdio服务器。
Gemma-4-12B 的微调版本,针对本地编码和智能体任务进行了优化,在 tau2-bench 电信基准测试上相较基础模型实现了约 3.5 倍的性能提升。
Poolside 发布了 Laguna M.1,这是一个 225B 参数的混合专家模型,每个 token 激活 23B 参数,专为代理编程和长周期任务设计。它在 SWE-bench 基准测试上取得了有竞争力的结果,并采用 Apache 2.0 许可证发布。
对三个旨在降低编码代理LLM Token成本的开源工具(rtk、headroom和caveman)的详细分析,发现实际节省远低于声称值。
pi-vcc 是一个开源工具,为 Pi coding agent 提供纯算法化的会话压缩,无需 LLM 调用即可实现 35-99% 的令牌缩减,并通过 vcc_recall 支持无损历史搜索。
本文总结了Hacker News讨论中关于使用本地模型(主要是Qwen 3.6 35B-A3B)作为主力编码工具的实战经验,包括配置、效果(约为前沿模型的50-75%)、关键技巧(如preserve_thinking)和不同用户的立场。
GLM-5.2 是一款拥有 753B 参数、采用 MIT 许可证的开源模型,具备前沿级别的编码能力和超大的上下文窗口。其蒸馏潜力有望为本地 AI 设置带来显著改进。
Z.AI推出GLM-5.2,这是一款专为长程任务设计的旗舰模型,拥有稳定的100万token上下文、改进的编码能力以及MIT开源许可证,在与Opus 4.8和GPT-5.5等领先模型的对比中展现了竞争力。