为什么评估初创公司会失败（2025）

Hacker News Top 2026/06/22 23:20 新闻

ai-evaluation startups ai-startups llm-evals evaluation ai-industry analysis

摘要

本文探讨了为何独立的人工智能评估初创公司很少能成功，原因包括人才流向技术栈中更有利可图的部分、客户群体狭窄，以及优化压力削弱了评估的效用。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/24 10:50

# 为什么独立评估初创公司如此之少？来源：https://thomasliao.com/eval-startups 2025年5月8日 *为什么独立评估初创公司如此之少？* 每当出现新的人工智能趋势，比如智能体、语音或语音智能体，开发者就会面临一大堆选择。其中一部分人坚信，识别最佳模型并将这些知识卖给其他开发者是一项商业机会——也就是销售评估（evals）。从我们还称其为生成式AI之前开始，每一波生成式AI浪潮中我都见过这种情况。除了安全评估这个小众领域，我还没见过任何成功案例。我有几个理论解释为什么独立评估初创公司会消亡。第一，能够设计并运行良好评估的人，在模型开发栈的其他部分可以赚更多钱、拥有更大影响力，因此人才流失。第二，评估初创公司很难找到客户，因为客户必须是那些想要基于API构建的技术型开发者，但同时又要技术不够好，不能自己运行评估。第三，评估初创公司面临巨大的优化压力，这种压力既来自普通的山峰攀登（hill climbing），也来自模型开发者的施压，导致评估变得毫无用处。 ## 评估人才更适合别处优秀的评估人才会流向开发栈的其他部分，因为做好评估所需的技能同样适用于后训练和应用程序开发，而这些领域能捕获更多价值（即赚更多钱），并直接影响模型开发（即更有声望和趣味）。例如，构建一个好的评估需要收集高质量数据，无论是通过运营人工反馈管道还是使用合成数据。收集高质量数据是后训练的主要瓶颈。评估中的数据量始终比后训练收集的数据量小几个数量级。因此，从实际意义上看，假设每个数据点的价值相等，那么为评估收集数据所产生的价值，比起为后训练收集数据所产生的价值是有上限的。此外，一个好的后训练带来的财务回报可能非常高，高达数亿甚至数十亿美元，而评估的财务回报则受限于最大评估合同的大小，远远不及。这种动态对于聪明的年轻研究人员来说显而易见，他们恰好理解机会成本的概念。一个例证是三位研究人员，他们辞去了Epoch AI评估智能体的工作，转而创办了一家构建智能体后训练工具的初创公司[\[0\]](https://thomasliao.com/eval-startups#ref-0)。 ## 评估客户不够多即使评估初创公司留住了人才，它仍然难以找到客户，因为“基于模型API构建”和“无法评估模型”这两个圈子的维恩图交集面积可以忽略不计。当你看到市场研究公司Gartner的供应商比较图表时，X轴是幻想出来的，Y轴是虚构的——简而言之，这些图表是设计给那些技术能力与公司高管相当的幼儿看的。如果你认为我夸大其词，我建议你谷歌一下“Gartner Magic Quadrant AI”，然后向图表犯罪部门举报他们。同样的困境也困扰着AI评估初创公司。任何正在进行后训练的客户肯定在自行构建评估。一个理解AIME 2024上提高10%的含义（不使用工具，采用最佳N计算）的开发者，距离自己运行这个评估也并不遥远。如果他们分不清GPT-4o和GPT-4.1的区别，那么他们就是那种想要解决方案而不是功能（更不是ELO解释）的客户。Gartner可以为高管们简化内容，因为他们要决定与云提供商签订大合同，但评估初创公司似乎总是想卖给开发者。因此，我对评估初创公司的市场规模持怀疑态度，即使AI服务的需求在增长。 ## 大实验室搞坏评估（Goodharting）克服了这两个障碍的评估初创公司，现在必须面对大实验室本身。大实验室有强烈动机去攀爬公开评估，并施加压力和技巧来提升自己的数字。一旦基准成为目标，模型就能迅速改进，无论这种改进是来自良性调整（如包含更多多样化数据）还是直接在测试数据上训练（Meta对Llama 1就这么做过[\[1\]](https://thomasliao.com/eval-startups#ref-1)，据传Llama 4也是如此[\[2\]](https://thomasliao.com/eval-startups#ref-2)）。因此，评估初创公司必须警惕与大实验室之间潜在的对抗关系——大实验室不想失去自己的客户，并且会利用其不公平优势。大实验室使用的其他技巧包括：让员工在公共排行榜上为自己投票、从评估初创公司挖人、以免费计算资源换取更好结果、索取关于模型性能的内部洞察……花样繁多。一个立场坚定的团队可以抵抗这些诡计，但猜疑的阴影很难驱散。两年来，每个研究人员都在问自己——为什么每次新模型发布总是排到LMSys Chatbot Arena排行榜榜首？Cohere主导的一份新报告表明，原因是系统性作弊，声称Meta在发布Llama 4之前测试了27种不同的模型变体[\[3\]](https://thomasliao.com/eval-startups#ref-3)。顺便说一下，Meta此前宣传其小巧的Llama 4 Maverick模型性能优于GPT-4.5，后来才透露该结果是用专门针对Chatbot Arena优化的版本获得的，而非实际发布的版本——后者排名极差。古德哈特定律：当一个指标成为目标时，它就不再是一个好指标。而所有评估初创公司能卖的，恰恰是指标。 ## 安全评估是个例外我认为，当评估初创公司专门针对安全基准时，它们可以成功。想要从事安全评估的研究人员往往在意识形态上反对从事能力研究，这意味着他们不会因为金钱激励而转向后训练或应用程序。（大实验室内部的安全评估部门正是这样留住人才的。）他们可以为有能力自行复制这些服务的技术客户提供服务，因为安全评估尤其需要由外部供应商提供，而不是仅仅内部进行。他们也可以卖给政策制定者，或者如果外部模型审计提案通过，法律也能保证业务。安全评估初创公司仍然容易受到Goodharting的影响，但如果实验室对安全评估进行Goodharting，那就还有其他需要担心的事情了。因此，安全评估具有一些特殊特征，使其比其他评估更适合创业。我提出了三个原因来解释为什么评估初创公司难以生存。其中最严重的是第一个：擅长评估的公司或工程师有更好的机会，但另外两个也构成了严重的阻力。我对评估初创公司没有恶意，我支持它们，但我并不指望它们能成功。 ❖ ❖ ❖ ## 补充评论以上内容针对的是以应用为中心的评估，即那些希望在模型API之上构建的开发者使用的评估。还有一些初创公司想向大实验室销售研究评估。这些会失败，因为研究评估的主要目的是设定研究方向，而大实验室绝不会把制定研究议程外包出去。此外，外包研究评估会给模型迭代增加大量延迟，而速度就是一切。添加于*2025年5月21日*。销售评估和销售评估工具之间存在区别。就像销售人工标签与销售收集人工标签的工具不同——前者是运营业务，具有运营利润率；后者是SaaS业务，具有SaaS利润率——销售评估和销售评估工具的经济模式完全不同。Chatbot Arena背后的组织LM Arena今天宣布了一轮1亿美元的种子轮融资[\[4\]](https://thomasliao.com/eval-startups#ref-4)。这是一笔巨款。作为对比，法国前沿模型训练公司Mistral在2023年的种子轮融资只多了一点点[\[5\]](https://thomasliao.com/eval-startups#ref-5)。LM Arena的优势在于拥有数百万志愿者免费标注，有效补偿方式是让他们接触否则昂贵的尖端模型，但我仍然认为销售评估对他们来说不是一个好生意。我认为如果他们做得好，那将是依靠提供附加服务，比如销售软件或销售数据流访问权限。 ❖ ❖ ❖ ## 相关链接 [0]: https://thomasliao.com/eval-startups#ref-0 [1]: https://thomasliao.com/eval-startups#ref-1 [2]: https://thomasliao.com/eval-startups#ref-2 [3]: https://thomasliao.com/eval-startups#ref-3 [4]: https://thomasliao.com/eval-startups#ref-4 [5]: https://thomasliao.com/eval-startups#ref-5 ❖ ❖ ❖ Thomas Liao's toucan seal

为什么评估初创公司会失败（2025）

相似文章

@ds3638: 评估已死。更准确地说：传统的评估驱动开发无法扩展。静态评估在…时是有用的

无人提及的AI部署漏斗：60%评估，20%试点，5%上线。MIT追踪了300个真实AI实施的盈利指标。

AI系统常以测试中不显现的方式失败？

评估如何推动企业AI的下一个篇章

大多数AI代理初创公司将在两年内消失

提交意见反馈