模型在软件工程领域正遭遇收益递减

Reddit r/ArtificialInteligence 新闻

摘要

一位超大规模公司的杰出工程师认为,AI 模型在软件工程任务中正遭遇收益递减,他发现 Claude 的 Fable 5 与之前的 Opus 模型之间几乎没有差别,并预测本地模型很快将提供可媲美的价值。

先说下背景:我是一家超大规模公司的杰出工程师,从事这个领域。最近 Claude 发布了 Fable 5,我也尝试了一下。到目前为止,如果进行盲测,我无法分辨出我使用的是哪个模型。如果你把 Opus 4.6、4.7、4.8 和 Fable 都放到我的 Claude Code 设置中,根据我的工作内容和工作方式,我根本分不清谁是谁。原因很简单,我从来不会一次性完成整个项目。由于我需要深入了解每个组件,所以我以小模块的方式工作——而且不只是我这样。此外,模型已经能访问互联网上大量的信息,例如 API 文档、最佳实践等——这为模型输出添加了某种形式的“智能”。当我们观察行业中的软件工程师如何工作时,我们处理的是单个抽象,测试这些抽象,然后继续前进。如今,我几乎可以使用本地的 Gemma 4 模型做到这一点。对于系统架构问题也是如此,理解每个组件至关重要。而 Fable 在这方面仍然会幻觉。例如:Fable 完全错误且自信地描述了 AWS ALB/ECS 的排空行为。我之所以能发现,是因为我早就熟悉这两个组件是如何协同工作的。总之,简而言之,我们正在达到一个渐近极限。我从每次模型发布中获得的价值不再增加,我的工作方式也没有改变。我与那些重度 AI 爱好者的同事交流过,他们的经历也与我的看法一致。根据我的经验,到明年这个时候,我相信会有可以在 128GB MacBook Pro 上运行的本地模型,能够提供 Claude 目前在我软件工程工作中所增加价值的 90%。我从现有的开源模型套件中已经能看到这一趋势了。
查看原文

相似文章

模型不再是瓶颈(6分钟阅读)

TLDR AI

Anthropic 的通用AI模型 Claude(未经化学微调)在核磁共振分析中表现优于 ChemDraw 和 MestReNova 等专业软件,这表明科学AI领域的瓶颈已从模型能力转向工作流设计。

科技公司能否学会青睐更便宜的AI模型?

TechCrunch AI

TechCrunch报道称,随着成本不断攀升,企业开始考虑转向更便宜、更小的AI模型,而非始终使用最强大的模型,这可能引发行业转变。布赖恩·阿姆斯特朗等人的预测表明,12-18个月内,80%的工作负载可能运行在价格便宜99%的模型上,这将严重冲击OpenAI和Anthropic等主要AI实验室。

专注打磨,推动本地模型

Armin Ronacher

本文批评了当前用于编程助手的本地AI模型现状,认为虽然可运行性有所改善,但由于缺少工具参数流式传输等功能以及推理引擎间的过度碎片化,用户体验大打折扣,远不如使用托管API那般精致。