标签
作者构建了一个基准测试框架,用于评估本地LLM在自动生成Go代码方面的能力,重点聚焦SIEM流水线的日志解析器生成,并发布了对比质量与速度的测试结果。
Reddit 用户称 Qwen 3.6-27B 表现出罕见的主动行为,无需提示就自主编写、测试并修复代码。
Anthropic 推出了一种由两部分组成的解决方案,使用初始化代理和编码代理,使 Claude Agent SDK 能够有效处理跨多个上下文窗口的长时间运行任务,并通过保持干净、增量的状态来实现。
Anthropic工程师详细介绍了一种多智能体Harness设计,利用生成器与评估器智能体提升Claude在长时间内自主构建完整、高质量前端应用的能力。
Wasmer 借助 OpenAI Codex,仅用两周就为边缘 WebAssembly 打造出 C++ JavaScript 运行时,估算节省一年工期;Codex 化身自主队友,负责调试并基本取代传统 IDE。