@elliotchen100: https://x.com/elliotchen100/status/2054008474082918614
摘要
文章分析了 Andrej Karpathy 关于使用 HTML 作为 LLM 输出格式的观点,结合神经科学视角探讨人机交互的演变。作者认为尽管未来可能转向神经模拟,但 HTML 因其工程上的可维护性和低成本,将在中短期内作为人机协作的最佳实践持续存在。
查看缓存全文
缓存时间: 2026/05/12 04:49
Karpathy 把 HTML 这件事讲到了神经科学层面,但他留了两个口子
今天凌晨 (北京时间 5 月 12 日下午),Andrej Karpathy 转发了 Thariq 三天前那篇关于 HTML 输出格式的文章,加了一段他自己的思考。
5 个小时不到,将近 100 万浏览,1 万赞,1 万 bookmarks。这条会持续发酵。
我三天前正好写过一条关于 Thariq 那篇文章的分析。把 Karpathy 这条跟我那条放一起读,能看到一个挺有意思的事: 我们说的是同一件事,但他用了一个更基础的角度。
这篇文章想做三件事,第一,把 Karpathy 真正讲的东西拆出来。第二,把它跟我三天前那条放一起看,对比两个角度的差异。第三,指出 Karpathy 这条留下的两个没填完的口子,那是这个话题接下来值得讨论的地方。
Karpathy 原文
https://x.com/karpathy/status/2053872850101285137
如果你 X 帐号没看到上面这条嵌入,他的几个核心论点我提炼如下:
实用 tip: 在 prompt 末尾让 LLM 「structure your response as HTML」,然后在浏览器里打开生成的文件。slideshow 也可以试。
核心 framing: audio 是人偏好的输入,vision 是 AI 偏好的输出。
神经科学背书: 大脑约三分之一专门做视觉处理,是信息进入大脑的 10 车道高速公路。
输出格式的演化序列:
终点: 由 diffusion neural net 直接生成的交互式视频,跟 Software 1.0 的程序化部件 (例如交互式 simulation) 交织在一起。
输入侧 caveat: 他自己也提了一句,audio 加文字加 video 都不够,「我需要 point/gesture」。
TLDR: 人和 AI 的 input/output mind meld 还在演进路上,离 BCI/neuralink 那一步还很远,眼下能做的,hot tip,试着让模型输出 HTML。
三天前我说过的事,跟 Karpathy 这条撞到一起
我三天前那条原文 (引用了 Thariq 同一篇文章):
https://x.com/elliotchen100/status/2052913108616954215
我那条里最核心的一句是:
Markdown 的隐含假设是 「人会从头读到尾」,HTML 的隐含假设是 「人只想扫重点和动手改」。后者才符合 AI 时代人和机器协作的真实形态。
把这两条放一起看,会发现一个事:
我说的是用户行为,Karpathy 说的是神经科学。
我从 「人怎么用 markdown 和 HTML」 的层面观察到 「HTML 让人能扫,让人能动手改」。Karpathy 从 「大脑怎么处理信息」 的层面解释了 「为什么人会偏好扫和改而不是逐行读」。
他从底层解释了为什么我那条观察是对的。
这不是说我和 Karpathy 在打架,恰好相反,两个不同层级的观察撞到同一个事实上,反而互相加强。我那条是 「这件事在发生」,他那条是 「这件事为什么会发生」。
Karpathy 留的第一个口子: 输出画完了,输入没画
Karpathy 自己在文章里漏了一笔 「我需要 point/gesture」,但他没把这条线画完。
人机交互这件事其实是两条线在并行赛跑:
输出这条线 (机器到人) 已经画到 「交互式神经模拟」 的远期形态。
输入这条线 (人到机器) 才走到 「语音」,下一步的 「语音 + 手势 + 眼动 + 上下文」 还没有任何一家产品做到完全成形。再往后就更模糊了,BCI 是个 placeholder,不是一个能落地的下一站。
我的判断是: 人机交互真正的拐点不是任一边自己跑到头,而是两边在某一点合流。
输出再丰富,如果输入端只有键盘和鼠标,你看到的也只是一个被动消费的电视。输入再自然,如果输出端还停留在文字段落,体验也只是一个语音版的命令行。
两边在同一个时代点的进展不对称,这件事被严重低估了。
Karpathy 留的第二个口子: HTML 是不是过渡?
Karpathy 把 HTML 放在演化序列的中间一格,言下之意是 「下一站是 neural simulation」。
我对这个推论持保留态度。我想说的是: HTML 可能不是过渡,是一个会驻扎相当长时间的局部最优。
理由不是技术层面 (神经模拟早晚生成得出来),而是工程层面。
HTML 在所有当下能选的输出格式里,是一个工程意义上的局部最优:
第一,够丰富。能表达布局,交互,动画,甚至嵌入轻量级数据结构。
第二,够便宜。LLM 生成一个 HTML 文件比生成一段视频快几个数量级。
第三,够标准。能 save 到磁盘,能 git diff,能在 PR 里 review,能两个团队共同协作。
第四,够可逆。如果输出错了,人可以打开 HTML 直接改,跟 markdown 一样的编辑体验。
往后跳到 「交互式神经模拟」 看上去更高级,但工程代价是把后三条 (可保存可 diff 可 review 可改) 全部丢掉。
你怎么 git push 一个神经网络实时生成的 simulation?
怎么让两个团队 review 同一个 simulation?
怎么 A/B test 两个版本的体验?
怎么 audit 这次输出是怎么来的?
这些不是技术问题,是工程问题。工程问题不会因为模型变强而自动解决。
所以我猜,HTML 这一站会比大部分人预期的更长。技术上能跳过它,工程上不会跳过它。
总结这两条 (我和 Karpathy) 放一起看
我之前写过一篇文章把 「输入侧的演化」 整理成 prompt → context → harness 这条线,里面 harness 是包裹模型的整套基础设施。
Karpathy 这条把 「输出侧的演化」 整理成 raw text → markdown → HTML → 神经模拟这条线。
两条加起来,是一张完整的人机交互演化图:
每一格都是把工程化往外推一圈。
Karpathy 把输出侧讲到了一个 「为什么 vision 是人偏好的输出」 的神经科学层面,比我那条角度更普世。值得每个做 AI product 的人停下来读一遍。
我这个判断可能错的地方
按惯例,最后给反方角度:
第一,如果交互式神经模拟的生成成本下降速度比我预期快 (1 到 2 年内推理 < 100ms),HTML 这个局部最优会被快速跳过。
第二,「不可保存可 diff」 在某些场景反而是 feature 不是 bug。一次性的个性化输出 (例如游戏,沉浸式体验,私人助理的临时报告),本身就不需要保存。
第三,Apple Vision 或者类似平台可能定义出新的 native 输出格式 (例如基于 USDZ 的 spatial UI),直接跳过 HTML 这一站,由硬件平台带起来。
第四,Karpathy 提到的 「diffusion + Software 1.0 混合」 那个方向,如果某一边能做到 「可保存可 diff」,整个 tradeoff 就被绕过了。
我个人押 HTML 还能站 3 到 5 年的桩,但这是一个会被新硬件平台改写的判断。
原始两条推文:
Karpathy 这条 (今天): https://x.com/karpathy/status/2053872850101285137
我三天前那条: https://x.com/elliotchen100/status/2052913108616954215
Thariq 的原文章 (Karpathy 和我都在引用): https://www.anthropic.com/engineering/the-unreasonable-effectiveness-of-html
相似文章
@elliotchen100: Anthropic 的 Thariq 昨天那篇 HTML 的文章爆了,1.5M 阅读。 看上去在讲格式审美,其实他在讲一套全新的工作流。 挑几个最有技术含量的点。 第一,HTML 不是文档,是 throwaway editor。 他举的例…
解析Anthropic员工分享的AI开发新工作流,提出利用HTML和SVG替代Markdown可大幅提升多智能体协作与交互效率,更契合AI时代人机协同的实际需求。
@trq212: https://x.com/trq212/status/2052809885763747935
该文章认为,与Markdown相比,HTML是AI智能体更优越的输出格式,因为它具有更丰富的信息密度、视觉清晰度、易于分享和双向交互,并分享了作者及Claude Code团队其他成员偏爱HTML的原因。
@karpathy: 顺便说一下,这个方法效果非常好。在查询的最后,让你的大语言模型“将回复组织为HTML格式”,然后查看生成的…
Andrej Karpathy 建议通过提示词引导大语言模型将回复组织为 HTML,以实现更好的可视化效果,并预测 AI 的输出将从文本演变为交互式神经视频。
@namcios:Anthropic 刚刚终结了 Markdown。一位 Claude Code 工程师昨天发表了一篇可能预示着新时代开启的文章。
Anthropic 的一位工程师认为,HTML 应取代 Markdown 成为 AI 智能体的主要输出格式,与静态文本报告相比,HTML 能提供交互式界面和共享记忆。
使用 Claude Code:HTML 的惊人效力
一位 Claude Code 团队成员在博客文章中主张,应将 HTML 而非 Markdown 作为 Claude Code 等 AI 智能体的首选输出格式,并列举了其优势:更丰富的信息密度、更清晰的视觉呈现、更便于分享以及支持交互功能。