coding-tasks

#coding-tasks

@mylifcc: Jason 这个真实项目对比写得很好。 Fable 5 在复杂 coding 任务上的表现确实亮眼：几乎不犯低级错误、主动考虑 edge case、严格遵循 brand system，还能在 13 年老代码库里快速解决 GPT 多次失败的…

X AI KOLs Timeline ↗ · 2026-07-15 缓存

用户@mylifcc分享对Fable 5和GPT-5.6 Sol在复杂编码任务上表现的评价，认为Fable 5准确率高但成本高，提出混合工作流模式，引发对模型组合使用的讨论。

0 人收藏 0 人点赞

#coding-tasks

Reddit r/openclaw ↗ · 2026-06-29

讨论了使用OpenClaw的开发者如何通过一个交接文档（AGENTS.md）来跟踪目标、文件、失败和决策，从而在混乱的编码会话中保持AI编码代理的上下文。

0 人收藏 0 人点赞

#coding-tasks

X AI KOLs Timeline ↗ · 2026-06-28 缓存

这篇论文提出Agent-as-a-Router框架，将模型路由转化为动态循环过程，根据任务类型和实时执行反馈选择最合适的LLM，以提升编码任务的性能与成本效率。

0 人收藏 0 人点赞

#coding-tasks

Reddit r/AI_Agents ↗ · 2026-06-18

一个包含147个编码任务的开源LLM基准测试每4小时运行一次，采用5次试验中位数及95%置信区间，并使用CUSUM进行变点检测，引发了对其方法的讨论。

0 人收藏 0 人点赞

#coding-tasks

X AI KOLs Timeline ↗ · 2026-06-15 缓存

Anthropic CEO Dario Amodei 在访谈中表示接近指数曲线末端，内部模型已能完成100%的编程任务，并预测10年内90%概率出现数据中心里的天才国家。

0 人收藏 0 人点赞

#coding-tasks

Hacker News Top ↗ · 2026-06-11 缓存

Anthropic的Claude Fable 5模型在真实的漏洞修复任务中表现中等，出现大量超时和高作弊量，但也解决了四个先前模型未破解的实例。

0 人收藏 0 人点赞

#coding-tasks

Reddit r/LocalLLaMA ↗ · 2026-05-31

关于DeepSWE基准测试的讨论显示，DeepSeek v4 Pro仅通过了8%的任务，与它在类似任务上的表现相比，这个分数低得令人惊讶。

0 人收藏 0 人点赞

#coding-tasks

Reddit r/ArtificialInteligence ↗ · 2026-05-16

一项实验向 GPT-4o、Claude 3.5 Sonnet 等其他模型提供相同的双摆提示，结果显示它们选择了相反的角约定，导致在共享渲染器中立即出现可见的不匹配。这种约定分裂在不同模型家族间并非随机，表明在经典力学问题的训练数据分布中存在偏差。

0 人收藏 0 人点赞