指标不可避免的弱点
摘要
一篇关于自我量化陷阱的反思文章,认为虽然指标可以揭示有用的信息,但它们往往会掩盖或扭曲更深刻的自我认知。
<p>指标可以揭示很多有用的信息。但更多的信息可能被它掩盖或扭曲。我花了十多年的时间,以越来越详细的方式追踪自己的生活,才充分理解这种双重性——这或许既说明了我的某些特质,也揭示了测量的本质。</p>
<p>和许多被自我量化热潮吸引的人一样,我最初开始收集个人数据是为了追求一系列模糊的目标和愿望。作为一名久坐的科技记者,我希望在身体和情感上感觉更好,更多地到户外去,并在可能的情况下,为日常生活中的混乱和不确定性带来一些秩序。这些似乎都是可以通过数字的冷静清晰来改善的事情。</p>
<p>自我量化者常被刻板地认为是痴迷于自我优化的人(而且<a href="https://protocol.bryanjohnson.com/">他们中的许多人确实如此</a>),但我产生和收集个人数据的原因,与其说是关于<a href="https://samkriss.substack.com/p/the-century-of-the-maxxer">生活最大化</a>,不如说是关于生活的意义——至少起初是这样。正如大多数认识我的人可以证明的那样,我现在没有,也从未拥有过“生产力思维”。我对生活窍门、捷径或与他人比较的新方法也不太感兴趣。相反,我从指标中想要的——我希望能从关于健康、工作和社交生活的源源不断的数据流中领悟到的——是更难以捉摸的东西:自我认知。这是我的第一个错误。 </p>
<p>“知道得越多越好”这一观念如此深刻地嵌入我们的文化中,以至于把它指出来都显得奇怪。至少从启蒙时代开始,我们一致同意的获取更多知识的主要方式就是通过测量和量化。毕竟,更多的知识——更多的<em>数据</em>——能带来更好的决策,进而带来更幸福、更满足的人。至少我们是这么被告知的,在人工智能时代,这种说法越来越频繁。 </p>
<p>2007年,当《Wired》杂志的两位编辑Gary Wolf和Kevin Kelly创造了“量化自我”这个术语,并帮助发起了我们现在都身不由己参与其中的运动时,他们本质上就是在推销这个想法。“除非某件事可以被测量,否则它就无法被改进,”<a href="https://web.archive.org/web/20130117170255/http://quantifiedself.com/2007/page/3/">Kelly在一篇早期博客文章中写道</a>,他尽力模仿<a href="https://pubmed.ncbi.nlm.nih.gov/19199054/">Lord Kelvin</a>,“所以我们正在寻找尽可能多的个人工具,来帮助我们对自己进行可量化的测量。”将近20年后,由于大量设备、应用程序和网站的出现,这个任务变得前所未有的容易,它们都旨在通过数字帮助我们建立自我认知。 </p>
<p>我的第一个工具是2011年开始使用的一个小型塑料夹式Fitbit。它只做一件事:计算我一天走的步数。作为一个终身的电子游戏玩家,我已经很熟悉<a href="https://www.technologyreview.com/2024/06/13/1093375/gamification-behaviorism-npcs-video-games/">简单计分系统的激励力量</a>,我希望我的新设备能提供我认为需要的温和数字推力,让我远离推特动态,即使不是去接触自然,至少也能在树丛边走走。走路似乎也是我少数能有(说得好听点)聪明想法的时候,这似乎又是多做这件事的一个有希望的副产品。</p>
<p>唉,这种情况很短暂。我无法确切告诉你“更多地接触大自然”或“思考更聪明的想法”是什么时候不再对我作为目标重要了,但我想不超过几周。我可以肯定地说,我最初每天6000步的目标很快变成了10000步,然后跳到15000步,最终稳定在20000步并持续了多年。关于成为<a href="https://www.newyorker.com/magazine/2014/06/30/stepping-out-3">“步数控”</a>的故事现在已经成为陈词滥调,它们之所以有这种地位是有原因的。 </p>
<p>没过多久,我就用心率监测器(我还开始跑步)、智能手表、睡眠追踪戒指和大量令人尴尬的常量营养素记录应用程序换掉了计步器。在健康和健身领域之外,我作为记者的早期职业生涯也恰逢社交媒体和网络分析工具的兴起,比如<a href="https://www.cjr.org/tow_center_reports/the_traffic_factories_metrics_at_chartbeat_gawker_media_and_the_new_york_times.php">Chartbeat</a>,它承诺通过追踪页面浏览量、粉丝数、转发量、点赞数以及各种其他现在被赋予很大权重的注意力指标,进一步量化我生活中难以衡量的方面,比如“工作成功”和“影响力”。</p>
<blockquote class="wp-block-quote is-layout-flow wp-block-quote-is-layout-flow">
<p style="font-size:30px"><strong>指标不可避免地会重新定义你对重要事物的核心认知,无论你是否意识到这个陷阱。</strong></p>
</blockquote>
<p>最终,在我十年多认真追踪心率、步数、活动卡路里、睡眠、文章互动时间、压力水平和其他指标的期间,我在更深层次的自我认知方面几乎没有获得任何东西。(我想我确实了解到我喜欢让数字上升和下降,但谁不是呢?)无处不在的数据漩涡并没有为我看待自己、工作或生活中重要人物的方式增添额外的意义或洞察。事实上,我越是使用数值代理,我对几乎所有事情的感觉就越糟。 </p>
<p>我确实学到了两个关于试图量化生活细节时会发生什么的重要教训。首先,无论你目前收集了多少关于自己的数据,你永远会觉得不够。总有一个新的指标在角落里等着你,总有一种更好的方式让跟踪器重新混合其读数,更准确地衡量“重要”的东西:心率变异性、日常压力、运动“准备状态”、心血管或“健身”年龄。测量催生更多测量。这一点你可以相信。 </p>
<div class="wp-block-image">
<figure class="wp-block-image alignright size-large is-resized"><img decoding="async" height="2000" width="1316" src="https://wp.technologyreview.com/wp-content/uploads/2026/06/book.nguyen.jpg?w=1316" alt="书籍封面" class="wp-image-1138995" style="width:auto;height:375px" srcset="https://wp.technologyreview.com/wp-content/uploads/2026/06/book.nguyen.jpg 1684w, https://wp.technologyreview.com/wp-content/uploads/2026/06/book.nguyen.jpg?resize=197,300 197w, https://wp.technologyreview.com/wp-content/uploads/2026/06/book.nguyen.jpg?resize=768,1168 768w, https://wp.technologyreview.com/wp-content/uploads/2026/06/book.nguyen.jpg?resize=1316,2000 1316w, https://wp.technologyreview.com/wp-content/uploads/2026/06/book.nguyen.jpg?resize=1010,1536 1010w, https://wp.technologyreview.com/wp-content/uploads/2026/06/book.nguyen.jpg?resize=1347,2048 1347w" sizes="(max-width: 1316px) 100vw, 1316px" /><figcaption class="wp-element-caption"><strong>《评分:如何停止玩别人的游戏》</strong><br>C. Thi Nguyen</figcaption><div class="image-credit">PENGUIN PRESS, 2026</div>
</figure>
</div>
<p>第二个教训不那么明显,但同样重要。当你开始自我量化之旅时,你的目标越是个人化或微妙,你最终就越有可能用某个简化的指标或排名来替代它们。想成为更好的记者?为什么不把页面浏览量和排行榜作为成功的代理指标?喜欢烹饪并想提高?美食指标告诉你,更复杂的食谱和更长的配料表就是答案。即使我们知道优秀新闻的价值并不体现在有多少页</p>
查看缓存全文
缓存时间: 2026/06/20 14:36
# 指标不可避免的缺陷
来源:https://www.technologyreview.com/2026/06/19/1138778/inevitable-weakness-metrics-quantified-life-book-review
指标可以揭示许多有用的事情,但更多时候,它可能掩盖或扭曲事实。我花了十多年时间越来越细致地追踪自己的生活,才充分体会到这种双重性——这大概既反映了我个人的特质,也揭示了测量本身的本质。
像许多被自我量化浪潮席卷的人一样,我最初收集个人数据是为了追求一系列模糊的目标和欲望。作为一名久坐不动的科技记者,我希望能改善身心健康,多到户外活动,并在可能的情况下,为日常生活的混乱和不确定性带来一些秩序。所有这些似乎都可以通过数字的冷静清晰来得到改善。
自我量化者常常被刻板地描绘成痴迷的自我优化者(其中不乏这样的人 (https://protocol.bryanjohnson.com/)),但我产生和收集个人数据的原因,与其说是“人生极致化” (https://samkriss.substack.com/p/the-century-of-the-maxxer),不如说是为了寻找人生意义——至少最初是这样。正如大多数认识我的人可以证明的那样,我过去没有,现在也从未拥有过“生产力思维”。我也对那些生活窍门、捷径或与他人比较的新方法不太感兴趣。相反,我希望从指标中获得的——我希望能从关于健康、工作和社交生活的不间断数字流中领悟到的——是一种更难以捉摸的东西:自我认知。这是我的第一个错误。
认为“知道得越多越好”这一观念深深植根于我们的文化中,以至于指出这一点都显得有些奇怪。至少自启蒙运动以来,我们公认的获取更多知识的主要方式就是通过测量和量化。毕竟,更多的知识——更多的*数据*——会带来更好的决策,从而造就更快乐、更满足的人。或者,我们被告知如此,尤其是在人工智能时代,这种说法越来越频繁。
当两位《连线》杂志编辑 Gary Wolf 和 Kevin Kelly 在 2007 年创造了“量化自我”这一术语,并帮助推动了我们现在都身陷其中的运动时,他们本质上就是在推销这个理念。“除非某样东西可以被测量,否则它就无法被改进,”Kelly 在早期的一篇博客文章 (https://web.archive.org/web/20130117170255/http://quantifiedself.com/2007/page/3/) 中写道,他尽力模仿着开尔文勋爵 (https://pubmed.ncbi.nlm.nih.gov/19199054/) 的口吻。“因此,我们正在努力收集尽可能多的个人工具,以帮助我们实现自我的量化测量。”将近 20 年后的今天,由于大量设备、应用程序和网站蜂拥而至,都旨在帮助我们通过数字构建自我认知,这项任务比以往任何时候都更容易实现。
我的第一个工具是一个小小的塑料夹式 Fitbit,从 2011 年开始使用。它只做一件事:计算我一天走的步数。作为一个终身游戏玩家,我早已熟悉简单计分系统 (https://www.technologyreview.com/2024/06/13/1093375/gamification-behaviorism-npcs-video-games/) 的激励力量,我希望我的新设备能提供我自认为需要的温和数字推动力,让我远离推特信息流,即使不能去触摸草地,至少也能在草地旁边走走。走路似乎也是我难得能有(姑且称之为)聪明想法的时候,这似乎是多走路的另一个有希望的副产品。
唉,这种好景不长。我无法确切告诉你“更多地接触自然”或“思考更聪明的想法”这些目标是从什么时候开始对我失去意义的,但我怀疑这花了不超过几周时间。我可以肯定地说,我最初的每日目标 6000 步很快变成了 10000 步,然后跳到 15000 步,最终稳定在 20000 步并持续了多年。关于变成“步数狂人” (https://www.newyorker.com/magazine/2014/06/30/stepping-out-3) 的故事如今已是老生常谈,它们之所以成为陈词滥调是有原因的。
没过多久,我就用心率监测器(我也开始跑步了)、智能手表、睡眠追踪戒指和数量惊人、令人尴尬的宏量营养素记录应用取代了计步器。在健康和健身领域之外,我早期的记者生涯也恰逢社交媒体和像 Chartbeat (https://www.cjr.org/tow_center_reports/the_traffic_factories_metrics_at_chartbeat_gawker_media_and_the_new_york_times.php) 这样的网络分析工具的兴起,这些工具承诺通过追踪页面浏览量、粉丝数、转发量、点赞数以及其他各种如今举足轻重的注意力指标,来进一步量化我生活中难以衡量的方面,比如“工作成功”和“影响力”。
> **指标不可避免地会重新定义你对重要性的核心感知,无论你是否意识到这个陷阱。**
最终,在我十多年勤勤恳恳地追踪心率、步数、活动消耗的热量、睡眠、故事参与时间、压力水平以及其他指标的岁月里,我在获得更深自我认知方面几乎一无所获。(我想我确实学到了一点:我喜欢让数字上升或下降,但谁不喜欢呢?)那无处不在的数据漩涡,并没有为我与自己、与工作、与生命中重要之人的关系增添额外的意义或洞察。事实上,我越是使用数字替代指标,我对几乎所有事情的感觉就越糟糕。
我真正学到的是关于试图量化生活琐事时会发生的两个重要教训。首先,无论你目前正在收集多少关于自己的数据,你永远都会觉得不够。总会有新的指标在拐角处等着你,总会有更好的方式让追踪器重新混合其读数,更准确地衡量“重要的”东西:心率变异性、日常压力、运动“准备度”、心血管或“体能”年龄。测量引发了更多的测量。你完全可以指望这一点。
书籍封面
**《评分:如何停止玩别人的游戏》**
C·蒂·阮
企鹅出版社,2026年
第二个教训不那么明显,但同样重要。当你踏上自我量化之旅时,你的目标越是个人化或细微,你就越有可能最终用某个简化的指标或排名来替代它们。想成为一名更好的记者?为什么不把页面浏览量和排行榜作为成功的替代指标呢?享受烹饪并想提高?美食指标告诉你,配料表更长、更复杂的食谱才是答案。即使我们知道优秀新闻的价值并不体现在有多少人阅读某个故事,或者烹饪的乐趣同样在于即兴发挥和实验,而不只是成功遵循某个复杂食谱,但我们很难抗拒一个简单分数或统计数据的诱惑。指标不可避免地会重新定义你对重要性的核心感知,无论你是否意识到这个陷阱。
多年来,人们发明了各种术语来描述这种现象。哲学家 C·蒂·阮在他最近的著作《评分:如何停止玩别人的游戏》 (https://www.penguinrandomhouse.com/books/735252/the-score-by-c-thi-nguyen/) 中,称之为“价值俘获”。他说,当你采用外部的测量标准,然后让它们支配你,却不去调整它们以适应你的生活时,价值俘获就发生了。“在价值俘获中,你本质上是在外包你的价值观,”阮写道。“你正在让一个外部的指标或排名来决定什么对你来说是重要的。”关键在于,你也在外包探索*你自己*意义感的过程。这就是为什么我的散步很快从感觉冥想状态转变为优先考虑里程的原因。
个人、机构,乃至整个社会都可能沦为价值俘获的牺牲品。事实上,一旦你开始注意到它,你就会发现它无处不在——在新闻业、教育和商业中,也在我们的食物、爱好中,当然,还包括我们衡量健康和幸福的方式。以下是阮的表述:
*价值俘获发生在:一家餐厅不再关心做出美味的食物,而开始关心最大化其 Yelp 评分;学生不再关心教育,而开始关心他们的 GPA;科学家不再关心寻找真理,而开始关心获得最大的研究经费。它甚至发生在宗教中。一位牧师最近告诉我,他的教会已经完全沉迷于受洗率。上级建立了一个内部排行榜,牧师们根据每月的受洗率进行竞争,这开始主导所有人的注意力。他发现自己越来越不关心羊群长期的精神发展,而是更专注于试图发表受欢迎的布道,以提高他的受洗率,让他在排行榜上更上一层楼。*
核心而言,《评分》试图解开一个犹他大学游戏哲学专家阮教授思考已久的谜团:为什么游戏中的数字和计分系统能成为如此多快乐、流畅和玩耍的源泉,而公共衡量标准和机构指标(即适用于现实世界的分数)却似乎榨干了所有活力,将我们所有人推入一种令人沮丧的优化攀比心态中?
为了开始回答这个问题,他转向了关于数据和量化局限性的基础性研究之一——西奥多·M·波特1995年的著作《信任数字:科学与公共生活中对客观性的追求》 (https://press.princeton.edu/books/paperback/9780691208411/trust-in-numbers)。
波特是一位专门研究数字社会力量的科学史学家,他的职业生涯一直在探究为什么量化变得如此主导,不仅在政治和官僚生活中,而且在任何地方。他关于量化内在吸引力的一个关键见解,他称之为“距离的技术”,即它“将需要亲密知识和个人信任的需求降至最低”。换句话说,指标在不同语境之间具有极强的可移植性,并且易于理解和汇总。
无论是学生的 GPA 还是一个国家的 GDP,这些衡量标准几乎人人都能理解。但波特提醒我们,这种理解是有代价的:要得出一个清晰的指标,你不可避免地需要简化你试图衡量的东西,常常要抛弃大量细微的、定性的或开放式的信息,以便其他人能够理解结果数字。
没有人(但愿)相信 GPA 能够有意义地捕捉到学生的整个教育经历或学习能力,但我们同意使用它,因为更定性的评估难以梳理,并且需要专业知识才能解读和比较。GDP 这个经济指标也是如此,政客和社会现在被迫将其推得越来越高,因为一群经济学家曾得出结论,这个数字与总体经济福祉相关。
阮认为,这是所有数据核心的基本张力。任何机构量化,他说,都需要评估程序及其产品在不同语境中是可以理解的。这深刻地限制了指标实际能够测量的东西。“在价值俘获中,你最终是在接受那个脱离语境的碎片,并将其内化,”他写道。“你正在使用一种为在不同语境间传播而设计的、剥离了细微差别的评估技术来指导你的生活。”
---
每隔一段时间,我就会发现自己与“数字人士”——统计学家、经济学家,或者仍是坚定的自我量化者的朋友——进行友好的辩论。在耐心听完我那些测量失控的例子后——比如 20 世纪 90 年代中期试图将疼痛量化为“第五生命体征” (https://www.theguardian.com/us-news/2018/mar/30/enduring-pain-how-a-1996-opioid-policy-change-had-long-lasting-effects?__readwiseLocation=) 的灾难性尝试(加剧了阿片类药物流行),或者是无数个麦克纳马拉谬误 (https://bigthink.com/business/the-mcnamara-fallacy-when-data-leads-to-the-worst-decision/) 的例子(学术、医学和政治中的决策仅仅基于容易测量的东西)——许多人会坚持认为我误解或曲解了测量的全部意义。他们会说,指标只是一种*手段*,而重要的问题在于它们被用于什么样的目的。换句话说,这些不幸的结果是用户错误,而不是测量本质中固有的危险或误导性。
在这些对话的某个时刻,古德哈特定律总会不可避免地出现,通常是作为数字思维者用来解释目的为何会变得一团糟的解释。这条法则归功于英国经济学家查尔斯·古德哈特,通常表述如下:“当一个衡量标准变成了目标,它就不再是一个好的衡量标准。”我非常不喜欢古德哈特定律,不是因为它不正确,而是因为它被解释的方式。
正如阮指出的那样,古德哈特定律几乎没有说明为什么指标无法捕捉到重要的东西——或者该如何应对。一些人会得出结论:找到更好的衡量标准。另一些人则会坚持:不要让指标变成目标。这些都不是有用的结论。我认为,*所有*的测量,无论你是否有意为之,实际上都是目标。指标不可避免地会暗示一个方向或选项更好,阮在《评分》中写道——“更长的寿命,更快的毕业率,更多的页面浏览量,更高的客户满意度分数。”当人们提起古德哈特定律时,他们谈论的不是人为错误;这实际上是测量本身的一个根本问题。
我想在此明确:测量确实可以也正在发挥一系列关键作用。从字面意义上讲,它使现代世界成为可能,带来了所有那些拯救生命、减轻痛苦和令人敬畏的科学突破。当谨慎使用并尽心尽责时,指标可以使我们的进展(或缺乏进展)更加清晰透明。我们是否在减少二氧化碳排放?它们还可以将问责制引入以前不透明的系统中,例如通过测量公司是否遵守州和联邦法规。它们甚至可以使我们更客观、减少偏见,并激励我们采取行动。
但正如阮在全书中指出的那样,指标的根本弱点在于当我们用它们来追求更微妙、更个人化的目标时。我认为我们很多人忽略的——我知道我*肯定*忽略了——是当你试图将重要的事情提炼成一个数据点时,总是存在权衡取舍。当我们转向指标来理解我们自己、我们的社交世界以及整个文化时,它们永远无法接近捕捉到真正重要的东西。更糟糕的是,它们往往会积极掩盖这些重要的东西。
---
如今,我发现数字在我日常工作中、在我的身体或心理健康上、在我的关系中,或在我认为重要的任何生活部分中,几乎没有什么可提供的。诚然,我很幸运此刻身体相对健康。我不需要追踪血糖水平或监测血压。作为一名自由撰稿人,我也有幸不必面对强加给我的关键绩效指标 (KPI)、目标和关键成果 (OKR),或任何那些几乎融入每个企业和零工经济工作的无尽量化评估。
然而,在非常真实的意义上,我们无法逃避指标,尤其是伴随它们的逻辑。“知道”已经变得数字化,我们都生活在一个越来越依赖数字来衡量价值的世界里。
相似文章
为什么我们在量化模型时用困惑度和散文质量作为基准,却从不考虑工具调用有效性?
这篇文章质疑为什么量化基准测试只关注困惑度和散文质量,而不考虑工具调用有效性,认为结构化输出由于有效token延续更少而更早退化,这可能会误导从业者对可用于智能体场景的量化级别的判断。
AI模型构建者的不稳定指标与基准测试文化
本文介绍了Benchmarking-Cultures-25数据集,该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化,跨模型可比性有限,并指出基准测试更多被用作市场定位的叙事工具,而非标准化的科学测量手段。
评估陷阱:基准设计作为理论承诺
本文识别了“评估陷阱”,即人工智能基准测试无意中通过缩小“进步”的定义来稳定主导范式,并引入了Epistematics,一种元评估方法论,以确保评估标准能够区分真实能力与代理行为。
垃圾时代的品质
一篇反思性的博文,引用罗伯特·波西格的《禅与摩托车维修艺术》,探讨随着生成式AI工具泛滥,科技行业中的质量危机与虚无主义,呼吁重新关注工艺与价值观。
点态指标误导:多模态逆问题的评估协议
本文表明,对于具有多模态后验的逆问题,像RMSE和MAE这样的点态指标在结构上具有误导性,因为最优点估计会压缩后验并扭曲谱特征。为此,本文提出了一种三部分评估协议,使用逐事件分布准确性、谱保真度诊断和基于覆盖的校准来应对这些失败。