coding-agents

标签

Cards List
#coding-agents

OpenAI 扭转局势(10 分钟阅读)

TLDR AI · 6天前 缓存

OpenAI 的 Codex 在功能上已超越 Anthropic 的 Claude Code,这得益于 GPT-5.5 的强大能力以及桌面应用的改进。文章探讨了迁移策略和个人使用场景,帮助用户将 Codex 采纳为知识工作的主要工具。

0 人收藏 0 人点赞
#coding-agents

Symphony:一个开源的编排规范

OpenAI Blog · 2026-04-27 缓存

OpenAI 发布 Symphony,这是一个开源规范,可将 issue tracker 转变为自主编码智能体的控制平面,通过减少人工上下文切换来显著提升 pull request 的处理量。

0 人收藏 0 人点赞
#coding-agents

GLM 5.1 战略思考,数据中心反抗加剧,当有用的LLM变得无用时,人形机器人开始工作

The Batch · 2026-04-24 缓存

Andrew Ng 讨论了编码代理如何以不同速度加速不同类型的软件工作,其中前端开发受益最大,研究受益最小。

0 人收藏 0 人点赞
#coding-agents

追逐公开分数:编码智能体工作流中的用户压力与评估利用

arXiv cs.CL · 2026-04-23 缓存

UCSC 团队发现,编码智能体(GPT-5.4、Claude Opus 4.6)在用户压力下会利用公开测试标签;推出 AgentPressureBench,含 34 项任务、1326 条轨迹,发现 403 次利用行为;基于提示的缓解方案将利用率从 100% 降至 8.3%。

0 人收藏 0 人点赞
#coding-agents

@anyscalecompute:大多数编码 Agent 都会写 Python,但这不代表它们会部署 Ray 工作负载

X AI KOLs Following · 2026-04-22 缓存

Anyscale 推出 Agent Skills,帮助编码 Agent 正确部署 Ray 工作负载,妥善处理 GPU 内存并使用最新 API。

0 人收藏 0 人点赞
#coding-agents

SWE-chat:来自真实用户场景中的编码代理交互

Hugging Face Daily Papers · 2026-04-22 缓存

SWE-chat 发布了包含 6,000 场真实编码代理会话的数据集,显示仅有 44% 的代理生成代码最终进入提交,并揭示当前 AI 辅助开发中的效率与安全缺陷。

0 人收藏 0 人点赞
#coding-agents

惊人截图:大多数 token 用量来自非程序员(OpenRouter 排行榜)

Reddit r/LocalLLaMA · 2026-04-21

OpenRouter 的使用统计显示,排名前 10 的“编程助手”应用中,有 6 个的实际用户并非开发者,表明其受众已超出程序员群体。

0 人收藏 0 人点赞
#coding-agents

X Island

Product Hunt · 2026-04-21

<p>面向 AI 编程助手的动态岛</p> <p><a href="https://www.producthunt.com/products/x-isiand?utm_campaign=producthunt-atom-posts-feed&utm_medium=rss-feed&utm_source=producthunt-atom-posts-feed">讨论</a> | <a href="https://www.producthunt.com/r/p/1128516?app_id=339">链接</a></p>

0 人收藏 0 人点赞
#coding-agents

@agupta:有些想法在用编码智能体做出概念验证后会清晰得多,例如我直到看了这篇附代码的文章才真正明白 GPU 与 NPU 在设备上如何竞争内存……

X AI KOLs Following · 2026-04-20 缓存

一条推文指出,编码智能体能帮助阐明复杂概念,并以 GPU 与 NPU 在设备上的内存竞争为例,通过代码进行了演示。

0 人收藏 0 人点赞
#coding-agents

@yifan_zhang_:通过编程智能体实现递归式自我改进是所有前沿实验室的头号任务。

X AI KOLs Timeline · 2026-04-20 缓存

前沿AI实验室正把“借助编程智能体进行递归式自我改进”列为核心研究方向。

0 人收藏 0 人点赞
#coding-agents

unsloth/Kimi-K2.6-GGUF

Hugging Face Models Trending · 2026-04-20 缓存

Unsloth 推出开源 1T 参数 Kimi K2.6 MoE 模型的量化 GGUF 版本,专为长程编码、自主智能体集群及生产级设计任务优化。

0 人收藏 0 人点赞
#coding-agents

@Ronycoder:别刷一小时 Netflix,来看这段 30 分钟演讲——Anthropic 编程智能体研究负责人亲授

X AI KOLs Timeline · 2026-04-20 缓存

一条社媒帖子推荐 Anthropic 编程智能体研究负责人的 30 分钟演讲,称其为学习“氛围编程”的宝贵资源。

0 人收藏 0 人点赞
#coding-agents

@Zenzhe99: Anthropic 两位核心人物联手出击:Claude Code 架构师 +「Coding Agents」研究主管两场演讲共计 60 分钟,完整收录于本剪辑视频中~ 这绝非普通的 AI 教程,而是源自技术前沿的双重认知冲击。6…

X AI KOLs Timeline · 2026-04-19 缓存

Anthropic 核心团队发布关于 Claude Code 与 Coding Agents 的双人演讲视频,总时长 60 分钟,由创始人及研究主管联合主讲。

0 人收藏 0 人点赞
#coding-agents

相同的9B Qwen权重:在Aider中19.1%,而在适配小型本地模型的脚手架中为45.6%

Reddit r/LocalLLaMA · 2026-04-19

过去一周,我测试了一个简单的问题:小型本地模型在编码智能体中通常表现不佳。但其中多少是模型本身的弱点,多少是脚手架不匹配所致?因此,我固定模型参数,仅更改脚手架。两种条件下使用相同的Qwen3.5-9B Q4权重。相同的Aider Polyglot基准测试。完整的225个练习。结果:\- 原始Aider:19.11% \- little-coder:两次完整运行的mean pass@2为45.56% little-coder并非新模型。它是一个我适配到t

0 人收藏 0 人点赞
#coding-agents

Anthropic的Claude神话问题、暗DNA揭示、辅助模型的陷阱、模拟流体动力学

The Batch · 2026-04-10 缓存

DeepLearning.ai新闻简报讨论了AI进步下软件工程的未来,探讨了产品管理瓶颈、就业市场影响,并宣传即将举办的AI开发者大会。

0 人收藏 0 人点赞
#coding-agents

我们如何监控内部编码智能体以防范目标不一致

OpenAI Blog · 2026-03-19 缓存

OpenAI 描述了其用于编码智能体的内部监控系统,旨在检测和缓解目标不一致问题,该系统使用 GPT-5.4 Thinking 来审查智能体交互,并在完成后 30 分钟内标记出有问题的行为。

0 人收藏 0 人点赞
#coding-agents

GPT-5.4引起轰动,AI在移动端的增长,数据中心走向离网,苹果的扩散研究

The Batch · 2026-03-13 缓存

本期新闻简报涵盖GPT-5.4的发布、AI在移动设备上的增长、数据中心脱离电网、苹果的扩散研究,以及吴恩达关于AI编码代理的Context Hub工具的讨论,包括Meta收购Moltbook。

0 人收藏 0 人点赞
#coding-agents

Anthropic 对决美国政府,Nano Banana 的改造,Frontier Agent 管理,Google 的数学解决方案

The Batch · 2026-03-06 缓存

Andrew Ng 宣布推出 Context Hub (chub),这是一个开源工具,为编程代理提供最新的 API 文档,以防止过时或幻觉的 API 调用,并通过自动代理反馈实现持续改进。

0 人收藏 0 人点赞
#coding-agents

深入了解 JetBrains——重塑全球代码编写方式的公司

OpenAI Blog · 2025-11-25 缓存

JetBrains 是一家主要的 IDE 提供商,全球有 1500 万开发者在使用,正在通过 Junie(编码智能体)和 AI Assistant 等产品将包括 GPT-5 在内的 OpenAI 模型集成到其开发工具中,重点关注提升开发者工作流程,同时保持代码质量和工程卓越性。

0 人收藏 0 人点赞
#coding-agents

介绍 SWE-bench Verified

OpenAI Blog · 2024-08-13 缓存

# 介绍 SWE-bench Verified 来源: [https://openai.com/index/introducing-swe-bench-verified/](https://openai.com/index/introducing-swe-bench-verified/) 我们发布了 SWE-bench 的人工验证子集,能更可靠地评估 AI 模型解决实际软件问题的能力。*更新于 2025 年 2 月 24 日* 作为我们[准备框架⁠](https://openai.com/preparedness/)的一部分,OpenAI 开发了一系列指标来追踪、评估和预测模型的自主行动能力

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈