为什么评估初创公司会失败(2025)

Hacker News Top 新闻

摘要

本文探讨了为何独立的人工智能评估初创公司很少能成功,原因包括人才流向技术栈中更有利可图的部分、客户群体狭窄,以及优化压力削弱了评估的效用。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/24 10:50

# 为什么独立评估初创公司如此之少? 来源:https://thomasliao.com/eval-startups 2025年5月8日 *为什么独立评估初创公司如此之少?* 每当出现新的人工智能趋势,比如智能体、语音或语音智能体,开发者就会面临一大堆选择。其中一部分人坚信,识别最佳模型并将这些知识卖给其他开发者是一项商业机会——也就是销售评估(evals)。从我们还称其为生成式AI之前开始,每一波生成式AI浪潮中我都见过这种情况。除了安全评估这个小众领域,我还没见过任何成功案例。 我有几个理论解释为什么独立评估初创公司会消亡。第一,能够设计并运行良好评估的人,在模型开发栈的其他部分可以赚更多钱、拥有更大影响力,因此人才流失。第二,评估初创公司很难找到客户,因为客户必须是那些想要基于API构建的技术型开发者,但同时又要技术不够好,不能自己运行评估。第三,评估初创公司面临巨大的优化压力,这种压力既来自普通的山峰攀登(hill climbing),也来自模型开发者的施压,导致评估变得毫无用处。 ## 评估人才更适合别处 优秀的评估人才会流向开发栈的其他部分,因为做好评估所需的技能同样适用于后训练和应用程序开发,而这些领域能捕获更多价值(即赚更多钱),并直接影响模型开发(即更有声望和趣味)。 例如,构建一个好的评估需要收集高质量数据,无论是通过运营人工反馈管道还是使用合成数据。收集高质量数据是后训练的主要瓶颈。评估中的数据量始终比后训练收集的数据量小几个数量级。因此,从实际意义上看,假设每个数据点的价值相等,那么为评估收集数据所产生的价值,比起为后训练收集数据所产生的价值是有上限的。此外,一个好的后训练带来的财务回报可能非常高,高达数亿甚至数十亿美元,而评估的财务回报则受限于最大评估合同的大小,远远不及。这种动态对于聪明的年轻研究人员来说显而易见,他们恰好理解机会成本的概念。一个例证是三位研究人员,他们辞去了Epoch AI评估智能体的工作,转而创办了一家构建智能体后训练工具的初创公司[\[0\]](https://thomasliao.com/eval-startups#ref-0)。 ## 评估客户不够多 即使评估初创公司留住了人才,它仍然难以找到客户,因为“基于模型API构建”和“无法评估模型”这两个圈子的维恩图交集面积可以忽略不计。 当你看到市场研究公司Gartner的供应商比较图表时,X轴是幻想出来的,Y轴是虚构的——简而言之,这些图表是设计给那些技术能力与公司高管相当的幼儿看的。如果你认为我夸大其词,我建议你谷歌一下“Gartner Magic Quadrant AI”,然后向图表犯罪部门举报他们。同样的困境也困扰着AI评估初创公司。任何正在进行后训练的客户肯定在自行构建评估。一个理解AIME 2024上提高10%的含义(不使用工具,采用最佳N计算)的开发者,距离自己运行这个评估也并不遥远。如果他们分不清GPT-4o和GPT-4.1的区别,那么他们就是那种想要解决方案而不是功能(更不是ELO解释)的客户。Gartner可以为高管们简化内容,因为他们要决定与云提供商签订大合同,但评估初创公司似乎总是想卖给开发者。因此,我对评估初创公司的市场规模持怀疑态度,即使AI服务的需求在增长。 ## 大实验室搞坏评估(Goodharting) 克服了这两个障碍的评估初创公司,现在必须面对大实验室本身。大实验室有强烈动机去攀爬公开评估,并施加压力和技巧来提升自己的数字。一旦基准成为目标,模型就能迅速改进,无论这种改进是来自良性调整(如包含更多多样化数据)还是直接在测试数据上训练(Meta对Llama 1就这么做过[\[1\]](https://thomasliao.com/eval-startups#ref-1),据传Llama 4也是如此[\[2\]](https://thomasliao.com/eval-startups#ref-2))。因此,评估初创公司必须警惕与大实验室之间潜在的对抗关系——大实验室不想失去自己的客户,并且会利用其不公平优势。大实验室使用的其他技巧包括:让员工在公共排行榜上为自己投票、从评估初创公司挖人、以免费计算资源换取更好结果、索取关于模型性能的内部洞察……花样繁多。 一个立场坚定的团队可以抵抗这些诡计,但猜疑的阴影很难驱散。两年来,每个研究人员都在问自己——为什么每次新模型发布总是排到LMSys Chatbot Arena排行榜榜首?Cohere主导的一份新报告表明,原因是系统性作弊,声称Meta在发布Llama 4之前测试了27种不同的模型变体[\[3\]](https://thomasliao.com/eval-startups#ref-3)。顺便说一下,Meta此前宣传其小巧的Llama 4 Maverick模型性能优于GPT-4.5,后来才透露该结果是用专门针对Chatbot Arena优化的版本获得的,而非实际发布的版本——后者排名极差。古德哈特定律:当一个指标成为目标时,它就不再是一个好指标。而所有评估初创公司能卖的,恰恰是指标。 ## 安全评估是个例外 我认为,当评估初创公司专门针对安全基准时,它们可以成功。想要从事安全评估的研究人员往往在意识形态上反对从事能力研究,这意味着他们不会因为金钱激励而转向后训练或应用程序。(大实验室内部的安全评估部门正是这样留住人才的。)他们可以为有能力自行复制这些服务的技术客户提供服务,因为安全评估尤其需要由外部供应商提供,而不是仅仅内部进行。他们也可以卖给政策制定者,或者如果外部模型审计提案通过,法律也能保证业务。安全评估初创公司仍然容易受到Goodharting的影响,但如果实验室对安全评估进行Goodharting,那就还有其他需要担心的事情了。因此,安全评估具有一些特殊特征,使其比其他评估更适合创业。 我提出了三个原因来解释为什么评估初创公司难以生存。其中最严重的是第一个:擅长评估的公司或工程师有更好的机会,但另外两个也构成了严重的阻力。我对评估初创公司没有恶意,我支持它们,但我并不指望它们能成功。 ❖ ❖ ❖ ## 补充评论 以上内容针对的是以应用为中心的评估,即那些希望在模型API之上构建的开发者使用的评估。还有一些初创公司想向大实验室销售研究评估。这些会失败,因为研究评估的主要目的是设定研究方向,而大实验室绝不会把制定研究议程外包出去。此外,外包研究评估会给模型迭代增加大量延迟,而速度就是一切。 添加于*2025年5月21日*。销售评估和销售评估工具之间存在区别。就像销售人工标签与销售收集人工标签的工具不同——前者是运营业务,具有运营利润率;后者是SaaS业务,具有SaaS利润率——销售评估和销售评估工具的经济模式完全不同。Chatbot Arena背后的组织LM Arena今天宣布了一轮1亿美元的种子轮融资[\[4\]](https://thomasliao.com/eval-startups#ref-4)。这是一笔巨款。作为对比,法国前沿模型训练公司Mistral在2023年的种子轮融资只多了一点点[\[5\]](https://thomasliao.com/eval-startups#ref-5)。LM Arena的优势在于拥有数百万志愿者免费标注,有效补偿方式是让他们接触否则昂贵的尖端模型,但我仍然认为销售评估对他们来说不是一个好生意。我认为如果他们做得好,那将是依靠提供附加服务,比如销售软件或销售数据流访问权限。 ❖ ❖ ❖ ## 相关链接 [0]: https://thomasliao.com/eval-startups#ref-0 [1]: https://thomasliao.com/eval-startups#ref-1 [2]: https://thomasliao.com/eval-startups#ref-2 [3]: https://thomasliao.com/eval-startups#ref-3 [4]: https://thomasliao.com/eval-startups#ref-4 [5]: https://thomasliao.com/eval-startups#ref-5 ❖ ❖ ❖ Thomas Liao's toucan seal

相似文章

AI系统常以测试中不显现的方式失败?

Reddit r/AI_Agents

讨论AI工作流中干净的基准测试环境与混乱的真实世界使用之间的常见差距,导致生产环境失败,并提及评估平台如Confident AI、Braintrust和Langfuse。

评估如何推动企业AI的下一个篇章

OpenAI Blog

OpenAI 发布了一个面向业务领导者的框架,说明如何使用 AI 评估(evals)来衡量和改进组织环境中 AI 系统的性能,区分用于模型开发的前沿评估和为特定业务工作流定制的上下文评估。

大多数AI代理初创公司将在两年内消失

Reddit r/AI_Agents

文章认为,大多数AI代理初创公司并非真正的代理,并将在两年内消失;像Claude Code这样的开源工具使独立开发者能够构建过去需要整个团队才能完成的产品,优势正从模型规模转向执行力和可靠性。