标签
Zig 语言的创造者 Andrew Kelley 认为,通过独特的错误和一种“数字气味”,可以检测出由大语言模型(LLM)辅助的贡献,他将其比作在非吸烟房屋中吸烟。
研究人员发布 OpenGame,一个专为游戏开发打造的开放代理式编码框架。
开发者借助 Qwen3.6-35B 4-bit MLX 模型与 pi.dev 工具,在当前硬件上实现了高效的本地智能体编程,顺利完成了实际项目工单。
阿里巴巴发布 Qwen3.6-27B-FP8,一款 27B 参数的 FP8 量化模型,在代理式编码与推理基准上表现强劲,现已上架 Hugging Face。
Qwen 在 Hugging Face 上发布了开源权重模型 Qwen3.6-27B,该模型具备更高的稳定性、强大的智能体编程能力以及思维链保留特性,有助于提升开发者的工作效率。
OpenGame 是一个开源的智能体框架,旨在实现端到端的网页游戏创建。该框架由专用的 GameCoder-27B 模型驱动,并通过全新的 OpenGame-Bench 基准进行评估。
# 论文页面 - 精准调试基准:你的模型在调试还是在重写? 来源:[https://huggingface.co/papers/2604.17338](https://huggingface.co/papers/2604.17338) ## 摘要 前沿大模型在测试通过率上表现优异,但在调试任务中的精准度却很低,暴露出功能正确与精准定位缺陷之间的鸿沟。与代码补全不同,调试需定位错误并做针对性修改。我们观察到,前沿大模型在调试时往往重写出正确却过度修改的代码。
一种面向代理式编码的测试时扩展框架,可将 rollout 轨迹压缩为结构化摘要,并通过递归投票/PDR 将 Claude-4.5-Opus 在 SWE-Bench Verified 上的成绩提升至 77.6%。
Qwen 发布 Qwen3.6-35B-A3B,一款开源权重的混合专家(MoE)模型,总参数量 35B,激活参数量 3B,在智能体编码和推理能力保持方面实现显著提升。
Steve Yegge 声称谷歌的AI应用落后于行业标准,大多数工程师仍在使用基础聊天工具,但谷歌高管 Addy Osmani 和 Demis Hassabis 公开反驳了这一说法,称每周有超过4万名工程师使用智能编码工具。
OpenAI 发布了 GPT-5.2-Codex,这是一个先进的代理型编码模型,针对复杂软件工程任务进行了优化,在长上下文理解、Windows 支持和网络安全能力方面有所改进。该模型在 SWE-Bench Pro 和 Terminal-Bench 2.0 上取得了最先进的性能,现已向付费 ChatGPT 用户开放,API 访问将在未来几周内提供。
DeepCode 是一个完全自主的框架,用于从文档到代码库的合成,通过原则性的信息流管理将科学论文转化为生产级代码,在 PaperBench 上取得了最先进的结果,并超越了博士级人类专家。
本文提出了首个针对智能体编程工具中使用的代理上下文文件(README)的大规模实证研究,分析了其结构、维护模式和内容。研究表明,虽然功能性上下文得到了充分覆盖,但安全性和性能等非功能性需求却很少被明确指定。